CN109955270A - 语音选项选择系统与方法以及使用其的智能机器人 - Google Patents

语音选项选择系统与方法以及使用其的智能机器人 Download PDF

Info

Publication number
CN109955270A
CN109955270A CN201810007702.0A CN201810007702A CN109955270A CN 109955270 A CN109955270 A CN 109955270A CN 201810007702 A CN201810007702 A CN 201810007702A CN 109955270 A CN109955270 A CN 109955270A
Authority
CN
China
Prior art keywords
sound options
options
sound
response sentence
command statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810007702.0A
Other languages
English (en)
Other versions
CN109955270B (zh
Inventor
王柔雯
郭纮宾
许殷铨
刘享翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A Data Technology Co Ltd
Original Assignee
A Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A Data Technology Co Ltd filed Critical A Data Technology Co Ltd
Publication of CN109955270A publication Critical patent/CN109955270A/zh
Application granted granted Critical
Publication of CN109955270B publication Critical patent/CN109955270B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开一种语音选项选择系统与方法以及使用其的智能机器人。此种语音选项选择方法包括:检测一声音信号中是否存在第一命令语句;根据第一命令语句,判断出与第一命令语句对应的一组语音选项;依序地播放出所述组语音选项中的每一语音选项,其中于播放一语音选项后,将间隔一预设时间区段,再继续播放次一语音选项;于默认时间区段内,检测所述声音信号中是否存在响应语句;若所述声音信号中存在响应语句,则判断所述响应语句是否符合所述多个语音选项之一;以及若所述响应语句符合所述多个语音选项之一,则输出与所述语音选项对应的任务内容。本发明使得用户欲发出选择指令时不需等待机器人将所有选项全部描述完。

Description

语音选项选择系统与方法以及使用其的智能机器人
技术领域
本发明涉及一种语音选项选择系统与方法以及使用其的智能机器人,特别涉及一种能够清楚提供用户选项且能够正确辨识用户所选择的选项的语音选项选择系统与方法以及使用其的智能机器人。
背景技术
一般来说,机器人所指的能自动执行任务的机器装置,由简单的逻辑电路或是更高阶的计算机程序来控制。因此,通常机器人是个高度机电整合的装置。近年来,机器人领域的相关技术发展越来越多元,如:工业型机器人、服务型机器人…等。
由于大众对于生活便利的追求,服务型机器人开始被越来越多人接受。服务型机器人的种类很多,应用范围也很广泛。服务型机器人,如:专业服务机器人(ProfessionalService Robot)、个人/家庭用服务机器人(Personal/Domestic Use Robot)…等等。常见地,个人/家庭用服务机器人能够辨识使用者的语意,并根据用户的指令提供服务或与用户互动。
通常,当用户对机器人发出指令时,机器人根据内建程序的设定可能会提供用户多个服务选项进行选择。然而,在背景音频吵杂的情况下,机器人在辨识用户的选择指令时经常发生误判。再者,使用者常需等待机器人将所有选项全部描述完后才能发出选择指令,同时,用户所发出的选择指令也必须完全符合机器人所提供的选项之一才能让机器人顺利进行语音识别。此外,由于语言中存在有同音异字的状况,因此即便使用者所发出的选择指令的发音与机器人所提供的选项之一的发音相同,机器人也可能无法顺利辨识使用者所发出的选择指令。前述情形都会让使用者在与机器人进行互动时感到不便。
发明内容
为改善前述缺点,本发明提供了一种能够清楚提供用户选项且能够正确辨识用户所选择的选项的语音选项选择系统与方法以及使用其的智能机器人。
本发明所提供的语音选项选择系统,运作于一休眠模式与一工作模式。此种语音选项选择系统包括音频检测装置、存储器与处理器。处理器连接于音频检测装置与存储器。当语音选项选择系统运作于休眠模式下,音频检测装置会持续检测一收音单元所接收的声音信号中是否存在一唤醒语句。存储器设置以储存一互动程序与一数据库。须说明的是,此数据库储存有多个第一命令语句、多组语音选项与多个任务内容,每一第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一。
当检测到唤醒语句时,音频检测装置会产生一提示信号来将处理器唤醒。于处理器由提示信号唤醒后,语音选项选择系统会进入工作模式。当语音选项选择系统运作于工作模式下,处理器会执行互动程序以执行以下操作:控制音频检测装置检测收音单元所接收的声音信号中是否存在所述多个第一命令语句之一;根据所测到的第一命令语句,判断出与第一命令语句对应的组语音选项;通过一播音单元,依序地播放出所述组语音选项中的每一语音选项,其中于播放所述多个语音选项之一后,间隔一预设时间区段,再继续播放次一语音选项;于每一默认时间区段内,控制音频检测装置检测收音单元所接收的声音信号中是否存在一响应语句;若声音信号中存在响应语句,则判断响应语句是否符合所述多个语音选项之一;以及若响应语句符合所述多个语音选项之一,则输出与语音选项对应的任务内容,并使语音选项选择系统回到休眠模式。
再者,本发明所提供的语音选项选择方法适用于前述的语音选项选择系统。本发明所提供的语音选项选择方法主要是以前述的语音选项选择系统中的互动程序来实现。除此之外,本发明所提供的智能机器人主要包括中央处理器与前述的语音选项选择系统。中央处理器会根据语音选项选择系统所输出的任务内容产生控制指令,使得智能机器人根据控制指令执行一动作。
由于本发明所提供的语音选项选择系统与方法,以及使用其的智能机器人在根据命令语句提供语音选项时能够加入停顿的时间间隔,使得用户欲发出选择指令时不需等待机器人将所有选项全部描述完。另外,于描述语音选项的期间,本发明所提供的语音选项选择系统与方法,以及使用其的智能机器人将暂停检测收音单元所接收的声音信号中是否存在命令语句,此作法将可减少指令误判的频率。
附图说明
图1为根据本发明一例示性实施例绘示的语音选项选择系统的方块图;
图2为根据本发明一例示性实施例绘示的语音选项选择方法的流程图;以及
图3为根据本发明一例示性实施例绘示的语音选项选择方法中步骤S250的流程图。
具体实施方式
在下文将参看说明书附图更充分地描述各种例示性实施例,在说明书附图中展示一些例示性实施例。然而,本发明概念可能以许多不同形式来体现,且不应解释为限于本文中所阐述的例示性实施例。确切而言,提供此等例示性实施例使得本发明将为详尽且完整,且将向本领域技术人员充分传达本发明概念的范畴。在诸附图中,类似数字始终指示类似组件。
大体而言,本发明所提供的语音选项选择系统与方法,以及使用其的智能机器人最大的特点即在于,即便不设置降噪模块也能够清楚提供用户选项且能够正确辨识用户所选择的选项。以下将以数个实施例来说明本发明所提供的语音情绪辨识系统与方法,以及使用其的智能机器人。
[语音选项选择系统的一实施例]
首先说明本发明的语音选项选择系统的架构,请参照图1,图1为根据本发明一例示性实施例绘示的语音选项选择系统的方块图。
如图1所示,本实施例所提供的语音选项选择系统100包括音频检测装置10、存储器20与处理器30,且处理器30连接于音频检测装置10与存储器20。存储器20设置以储存互动程序22与数据库24。数据库24储存有多个第一命令语句、多组语音选项与多个任务内容。每一第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一。
语音选项选择系统100运作于一休眠模式与一工作模式。当语音选项选择系统100运作于休眠模式时,音频检测装置10会持续检测一收音单元40(如:一麦克风)所接收的一声音信号中是否存在一唤醒语句,且当检测到所述唤醒语句时,音频检测装置10便产生一提示信号以唤醒处理器30。于处理器30被唤醒后,语音选项选择系统100便会进入工作模式。
语音选项选择系统100的主要工作机制为,当语音选项选择系统100运作于工作模式时,处理器30会执行互动程序22以根据用户所发出的命令语句提供多个语音选项,再根据用户所发出的响应语句输出与所述多个语音选项之一对应的任务内容。
须说明的是,音频检测装置10检测到唤醒语句后产生提示信号以唤醒处理器30的唤醒方式应为本领域中技术人员所熟悉,因此以下便不细述此唤醒方式。另须说明的是,语音选项选择系统100中的音频检测装置10、存储器20与处理器30可以固件的形式来实现,或者由任何适合的硬件、固件、软件、和/或软件、固件及硬件的组合来实现。
[语音选项选择方法的一实施例]
请参照图2,图2为根据本发明一例示性实施例绘示的语音选项选择方法的方块图。
本实施例所提供的语音选项选择方法是由图1所绘示的语音选项选择系统中的处理器30执行储存于存储器20中的一互动程序22来实现,故请同时参照图1与图2以利了解。如图2所示,大体而言,本实施例所提供的语音选项选择方法包括以下步骤:检测收音单元所接收的声音信号,以及判断收音单元所接收的声音信号是否存在第一命令语句(步骤S208与步骤S210);根据第一命令语句,判断出与第一命令语句对应的一组语音选项(步骤S220);依序地播放出所述组语音选项中的每一语音选项(步骤S230);判断收音单元所接收的声音信号是否存在响应语句,以及判断所述多个语音选项是否全部播放完毕(步骤S240与步骤S242);判断响应语句是否符合所述多个语音选项之一(步骤S250);以及输出与语音选项对应的任务内容(步骤S260)。
接着要说明的是本实施例所提供的语音选项选择方法中各步骤的细节。
于处理器30被唤醒使得语音选项选择系统100运作于工作模式后,便进入步骤S208与步骤S210。于步骤S208与步骤S210中,处理器30会控制音频检测装置10检测收音单元所接收的声音信号,以判断所接收的声音信号是否存在第一命令语句。举例来说,第一命令语句可为「唱歌」、「说故事」…等,第一命令语句可由系统建置者通过互动程序预先设定,也可由用户通过互动程序进行新增。须说明的是,音频检测装置10检测收音单元40所接收的声音信号是否存在第一命令语句的方法为,将声音信号进行处理后与第一命令语句作比对。本领域中技术人员应可理解一般对声音信号进行音频处理的方式,故于此便不针对声音信号进行音频处理的方式做细述。
假设音频检测装置10检测到收音单元40所接收的声音信号是否存在有「说故事」的第一命令语句,则进入步骤S220,处理器30会通过数据库22判断出与「说故事」的第一命令语句对应的一组语音选项。举例来说,与「说故事」的第一命令语句对应的一组语音选项可为:「项目一:小红帽」、「项目二:丑小鸭」与「项目三:白雪公主」,但本发明于此并不限制。与第一命令语句对应的多个语音选项可由系统建置者通过互动程序预先设定,也可由用户通过互动程序进行新增。
接着,判断出与「说故事」的第一命令语句对应的所述组语音选项后即进入步骤S230与步骤S240。于步骤S230中,处理器30会控制通过一播音单元50(如:喇叭)依序地播放出所述组语音选项中的每一语音选项。值得注意的是,于处理器30控制播音单元50播放一个语音选项后,会计时一个预设时间区段,待计时结束后再控制播音单元50播放下一个语音选项。于步骤S240中,于每个预设时间区段内,处理器30会判断收音单40元所接收的声音信号是否存在有响应语句。也就是说,用户不用等到播音单元50拨放完所有的语音选项后才发出响应语句,而可以在每个预设时间区段内发出响应语句。
亦值得注意的是,于处理器30控制播音单元50播放语音选项的期间,处理器30会控制音频检测装置10停止检测收音单元40所接收的声音信号,但于前述的预设时间区段内,处理器30会控制音频检测装置10恢复检测收音单元40所接收的声音信号。如此一来,于处理器30控制播音单元50播放语音选项的期间,便不会因为收音单元40接收到播音单元50所播放的语音选项而系统的误判。
除此之外,于前述的预设时间区段内,当音频检测装置10检测到收音单元40所接收的声音信号的振幅高于一阈值时,表示使用者可能正在发出响应语句,此时处理器30便会延长前述的预设时间区段,以确保系统不会因为默认时间区段不够长而无法检测到使用者较慢发出的响应语句。举例来说,预设时间区段可为3秒钟,当音频检测装置10检测到收音单元40所接收的声音信号的振幅高于一阈值时,处理器30便会将此预设时间区段延长为5秒钟或7秒钟。须说明的是,此预设时间区段可由系统建置者通过互动程序预先设定,也可由用户通过互动程序重新设定。
值得注意的是,每当预设时间区段计时结束后,还会进入步骤S242。于步骤S242中,处理器30会判断所述组语音选项中的所有语音选项是否播放完毕。若所述多个语音选项尚未全部播放完毕,则会回到步骤S230,处理器30会控制播音单元50继续依序地播放出剩余的所述多个语音选项;另一方面,若所有语音选项已播放完毕,则会回到步骤S208与步骤S210,以再次判断收音单元40所接收的声音信号是否存在第一命令语句。
假设于前述的预设时间区段内,处理器30判断出收音单40元所接收的声音信号存在有一响应语句,便进入步骤S250。于步骤S250中,判断此响应语句是否符合所述多个语音选项之一。
请参照图3,图3为根据本发明一例示性实施例绘示的语音选项选择方法中步骤S250的流程图。如图3所示,步骤S250是由以下步骤来实现:将响应语句转换成文本数据(步骤S252);通过自然语音处理逻辑,将文本数据转换为机器数据(步骤S254);根据机器数据判断响应语句是否为所述多个语音选项之一、对应于所述多个语音选项之一的特定数字、与所述多个语音选项之一同义的字词或者对应于所述多个语音选项之一的简化字词(步骤S256);以及根据机器数据产生对应于响应语句的拼音数据,并判断响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合(步骤S258)。
首先,于步骤S252中,处理器30会将响应语句转换成文本数据。举例来说,处理器30可通过语音转文本识别(Speech To Text;STT)算法来将语句转换成文本数据;也就是说,通过语音转文本识别算法,处理器30可以将使用者发出的响应语句转换成用户使用的文字。接着,于步骤S254中,处理器30会通过自然语音处理逻辑(Natural LanguageProcessing;NLP),将文本数据转换为机器数据;也就是说,通过自然语音处理逻辑,处理器30可以将对应于响应语句的文字转换成处理器30可读的机器数据,如此一来,处理器30才能根据机器数据判断用户发出的响应语句是否为所述多个语音选项之一。
为了能够正确地判断使用者发出的响应语句是否为所述多个语音选项之一,处理器30将执行步骤S256与步骤S258。
于步骤S256中,处理器30会将使用者发出的响应语句和每一个语音选项、对应于每一个语音选项的特定数字、与每一个语音选项同义的字词,或者对应于每一个语音选项的简化字词作比对。承上例,由于和「说故事」的第一命令语句对应的所述组语音选项为:「项目一:小红帽」、「项目二:丑小鸭」与「项目三:白雪公主」,因此,若经比对后,使用者发出的响应语句符合「项目一」、「项目二」或「项目三」(即,完整的语音选项),处理器30即可根据使用者发出的响应语句判断出其选择的语音选项。若经比对后,使用者发出的响应语句符合「1」、「2」或「3」(即,对应于每一个语音选项的特定数字),处理器30也能根据使用者发出的响应语句判断出其选择的语音选项。再者,若经比对后,使用者发出的响应语句符合「答案一」、「答案二」或「答案三」(即,每一个语音选项同义的字词),处理器30也能根据使用者发出的响应语句判断出其选择的语音选项。此外,若经比对后,使用者发出的响应语句符合「项一」、「项二」或「项三」(即,对应于每一个语音选项的简化字词),处理器30也能根据使用者发出的响应语句判断出其选择的语音选项。
若于步骤S256中,处理器30能根据使用者发出的响应语句判断出其选择的语音选项,便进入步骤S260,处理器30将输出与语音选项对应的任务内容。
然而,若于步骤S256中,处理器30无法根据使用者发出的响应语句判断出用户选择的语音选项,则会进入步骤S258。于步骤S258中,处理器30根据机器数据产生对应于响应语句的拼音数据,并判断响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合。进一步说明,由于所述多个语音选项「项目一」、「项目二」与「项目三」的拼音数据分别为「ㄒㄧㄤˋㄇㄨˋㄧ」、「ㄒㄧㄤˋㄇㄨˋㄦˋ」与「ㄒㄧㄤˋㄇㄨˋㄙㄢ」,承上例,假设使用者发出的响应语句是「项目二」,则根据步骤S254中产生的机器数据,处理器30会产生对应于「项目二」的拼音数据,即「ㄒㄧㄤˋㄇㄨˋㄦˋ」。此时,于步骤S258中,处理器30便可判断出用户所选择的语音选项为项目二的「丑小鸭」。因此,于步骤S260中,处理器30便会输出代表「说『丑小鸭』的故事」的任务内容的一指令。
值得注意的是,于本实施例中,拼音数据是以中文的注音符号作举例,本发明于此并不限定。也就是说,于本发明的其他实施例中,拼音数据也可以是其他语言的拼音符号。
另外也值得注意的是,虽然特定的方法参照在本文中所描绘的流程图来进行描述,但是本领域中技术人员应该容易地理解,本发明所提供的语音选项选择方法中各步骤的执行顺序并不因此而限制。也就是说,于本发明的其他实施例所提供的语音选项选择方法中,各步骤的执行顺序可以改变、某些步骤可以被组合或者某些步骤可以省略。
因此,于图3与前述说明中,虽然处理器30先执行了步骤S256后再执行步骤S258,但本发明于此并不限制步骤S256与步骤S258的顺序性。因此,处理器30亦可先执行步骤S258再执行步骤S256。也就是说,若处理器30判断响应语句的拼音数据与所述多个语音选项之一的拼音数据不符合,则进一步将使用者发出的响应语句和每一个语音选项、对应于每一个语音选项的特定数字、与每一个语音选项同义的字词,或者对应于每一个语音选项的简化字词作比对。
此外,处理器30亦可同时执行步骤S256与步骤S258。于此情况下,若步骤S256较快执行完且使得处理器30能根据使用者发出的响应语句判断出其选择的语音选项,则无需再执行步骤S258;另一方面,若步骤S258较快执行完且使得处理器30能根据使用者发出的响应语句判断出其选择的语音选项,则无需再执行步骤S256。
[智能机器人的一实施例]
本实施例所提供的智能机器人包括中央处理器以及如前述任一实施例所描述的语音选项选择系统。举例来说,本实施例所提供的智能机器人可由一个人/家庭用服务机器人来实现。
于处理器30输出代表与用户所选择的语音选项对应的任务内容的指令后,中央处理器会根据此指令控制智能机器人执行相关动作。如前述任一实施例所描述的语音选项选择系统设置于本实施例所提供的智能机器人中,前述的收音单元40可由智能机器人的麦克风来实现,前述的播音单元50可由智能机器人的喇叭来实现。
值得注意的是,于本实施例中,语音选项选择系统中的处理器30为设置于智能机器人内的一内建处理单元,且若语音选项选择系统中的处理器30为设置于智能机器人内的一内建处理单元,此内建处理单元须为较高规格的处理单元。
于本发明的其他实施例中,智能机器人同时具有设置于其内的内建处理单元与设置于其外的云端服务器。若智能机器人同时具有设置于其内的内建处理单元与设置于其外的云端服务器,此云端服务器需具有较高规格的运算能力,而此内建处理单元可为规格较低的处理单元。于此情况下,当智能机器人连接网络时,处理器30便会以设置于智能机器人外部的云端服务器来实现,而当智能机器人未连接网络时,处理器30便会以设置于智能机器人内部的内建处理单元来实现。
由于本实施例所提供的智能机器人由于设置有如前述任一实施例所描述的语音选项选择系统,因此本实施例所提供的智能机器人在根据命令语句提供语音选项时能够加入停顿的时间间隔,使得用户欲发出选择指令时不需等待机器人将所有选项全部描述完。同时,也因为本实施例所提供的智能机器人由于设置有如前述任一实施例所描述的语音选项选择系统,在描述语音选项的期间,本实施例所提供的智能机器人会暂停检测收音单元所接收的声音信号中是否存在命令语句,以减少指令误判的频率。
[实施例的可能功效]
于本发明所提供的语音选项选择系统与方法,以及使用其的智能机器人中,在根据命令语句提供语音选项时会加入停顿的时间间隔,如此一来,用户欲发出选择指令时不需等待机器人将所有选项全部描述完。再者,于描述语音选项的期间,将暂停检测收音单元所接收的声音信号中是否存在命令语句,此作法将可减少指令误判的频率。
此外,于本发明所提供的语音选项选择系统与方法,以及使用其的智能机器人中,在根据使用者的响应语句判断用户所选择的语音选项时,会将用户发出的响应语句和每一个语音选项、对应于每一个语音选项的特定数字、与每一个语音选项同义的字词,或者对应于每一个语音选项的简化字词作比对。另外,还会根据机器数据产生对应于响应语句的拼音数据,并将响应语句的拼音数据与该些语音选项之一的拼音数据作比对。如此一来,便能准确地根据使用者的响应语句判断出用户所选择的语音选项,以减少选项误判的频率。
最后须说明地是,于前述说明中,尽管已将本发明技术的概念以多个示例性实施例具体地示出与阐述,然而在本领域技术人员将理解,在不背离由以下权利要求所界定的本发明技术的概念的范围的条件下,可对其作出形式及细节上的各种变化。

Claims (18)

1.一种语音选项选择系统,运作于一休眠模式与一工作模式,其特征在于,包括:
一音频检测装置,于所述休眠模式下,持续检测一收音单元所接收的一声音信号中是否存在一唤醒语句,其中当检测到所述唤醒语句时,所述音频检测装置产生一提示信号;
一存储器,设置以储存一互动程序与一数据库,其中所述数据库储存有多个第一命令语句、多组语音选项与多个任务内容,每一所述第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一;以及
一处理器,连接于所述音频检测装置与所述存储器,其中于所述处理器由所述提示信号唤醒后,所述语音选项选择系统进入所述工作模式,于所述工作模式下,所述处理器执行所述互动程序以执行以下操作:
控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在所述多个第一命令语句之一;
根据所述第一命令语句,判断出与所述第一命令语句对应的所述组语音选项;
通过一播音单元,依序地播放出所述组语音选项中的每一语音选项,其中于播放所述多个语音选项之一后,间隔一预设时间区段,再继续播放次一所述语音选项;
于所述默认时间区段内,控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在一响应语句;
若所述声音信号中存在所述响应语句,则判断所述响应语句是否符合所述多个语音选项之一;以及
若所述响应语句符合所述多个语音选项之一,则输出与所述语音选项对应的所述任务内容,并使所述语音选项选择系统回到所述休眠模式。
2.如权利要求1所述的语音选项选择系统,其特征在于,若所述声音信号中不存在所述响应语句,或所述响应语句不符合所述多个语音选项之一,则所述处理器进一步执行以下操作:
判断所述多个语音选项是否全部播放完毕;
若所述多个语音选项尚未全部播放完毕,则通过所述播音单元继续依序地播放出剩余的所述多个语音选项;以及
若所述多个语音选项已全部播放完毕,则控制所述音频检测装置继续检测所述收音单元所接收的所述声音信号中是否存在所述多个第一命令语句之一。
3.如权利要求1所述的语音选项选择系统,其特征在于,当所述处理器通过所述播音单元依序地播放出所述多个语音选项时,所述音频检测装置停止检测所述收音单元所接收的所述声音信号,而于所述多个预设时间区段内,所述音频检测装置恢复检测所述收音单元所接收的所述声音信号。
4.如权利要求1所述的语音选项选择系统,其特征在于,于所述默认时间区段内,若所述收音单元所接收的所述声音信号的振幅高于一阈值时,则所述处理器延长所述预设时间区段。
5.如权利要求1所述的语音选项选择系统,其特征在于,于判断所述响应语句是否符合所述多个语音选项之一时,所述处理器进一步执行以下操作:
将所述响应语句转换成一文本数据;
通过一自然语音处理逻辑,将所述文本数据转换为一机器数据;以及
根据所述机器数据判断所述响应语句是否符合所述多个语音选项之一。
6.如权利要求5所述的语音选项选择系统,其特征在于,当判断所述响应语句是否符合所述多个语音选项之一时,所述处理器根据所述机器数据判断所述响应语句是否为所述多个语音选项之一、对应于所述多个语音选项之一的一特定数字、与所述多个语音选项之一同义的一字词或者对应于所述多个语音选项之一的一简化字词。
7.如权利要求6所述的语音选项选择系统,其特征在于,若所述响应语句并非所述多个语音选项之一、对应于所述多个语音选项之一的所述特定数字、与所述多个语音选项之一同义的所述字词或者对应于所述多个语音选项之一的所述简化字词,则所述处理器根据所述机器数据产生对应于所述响应语句的拼音数据,并判断所述响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合。
8.如权利要求1所述的语音选项选择系统,其特征在于,所述存储器还储存有多个第二命令语句,每一第二命令语句对应于所述多个任务内容之一,且当所述处理器执行所述互动程序时进一步执行以下操作:
控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在所述多个第二命令语句之一;以及
根据所述第二命令语句,输出与所述第二命令语句对应的所述任务内容,并使所述语音选项选择系统回到所述休眠模式。
9.一种语音选项选择方法,适用于一种语音选项选择系统,其特征在于,所述语音选项选择系统运作于一休眠模式与一工作模式,所述语音选项选择系统包括一音频检测装置、一存储器与一处理器,所述数据库储存有多个第一命令语句、多组语音选项与多个任务内容,每一第一命令语句对应于其中一组语音选项,且每组语音选项中的每一语音选项对应于所述多个任务内容之一,所述处理器连接于所述音频检测装置与所述存储器,且所述处理器设置以执行一互动程序以执行所述语音选项选择方法,包括:
检测一收音单元所接收的一声音信号中是否存在所述多个第一命令语句之一;
根据所述第一命令语句,判断出与所述第一命令语句对应的所述组语音选项;
通过一播音单元,依序地播放出所述组语音选项中的每一语音选项,其中于播放所述多个语音选项之一后,间隔一预设时间区段,再继续播放次一所述语音选项;
于所述预设时间区段内,检测所述收音单元所接收的所述声音信号中是否存在一响应语句;
若所述声音信号中存在所述响应语句,则判断所述响应语句是否符合所述多个语音选项之一;以及
若所述响应语句符合所述多个语音选项之一,则输出与所述语音选项对应的所述任务内容,并使所述语音选项选择系统回到所述休眠模式。
10.如权利要求9所述的语音选项选择方法,其特征在于,还包括:
判断所述多个语音选项是否全部播放完毕;
若所述多个语音选项尚未全部播放完毕,则通过所述播音单元继续依序地播放出剩余的所述多个语音选项;以及
若所述多个语音选项已全部播放完毕,则继续检测所述收音单元所接收的所述声音信号中是否存在所述多个第一命令语句之一。
11.如权利要求9所述的语音选项选择方法,其特征在于,当所述播音单元依序地播放出所述多个语音选项时,停止检测所述收音单元所接收的所述声音信号,而于所述多个预设时间区段内,恢复检测所述收音单元所接收的所述声音信号。
12.如权利要求9所述的语音选项选择方法,其特征在于,于所述预设时间区段内,若所述收音单元所接收的所述声音信号的振幅高于一阈值时,则延长所述预设时间区段。
13.如权利要求9所述的语音选项选择方法,其特征在于,判断所述响应语句是否符合所述多个语音选项之一的步骤包括:
将所述响应语句转换成一文本数据;
通过一自然语音处理逻辑,将所述文本数据转换为一机器数据;以及
根据所述机器数据判断所述响应语句是否符合所述多个语音选项之一。
14.如权利要求13所述的语音选项选择方法,其特征在于,于判断所述响应语句是否符合所述多个语音选项之一的步骤中,根据所述机器数据判断所述响应语句是否为所述多个语音选项之一、对应于所述多个语音选项之一的一特定数字、与所述多个语音选项之一同义的一字词或者对应于所述多个语音选项之一的一简化字词。
15.如权利要求14所述的语音选项选择方法,其特征在于,所述回应语句并非所述多个语音选项之一、对应于所述多个语音选项之一的所述特定数字、与所述多个语音选项之一同义的所述字词或者对应于所述多个语音选项之一的所述简化字词,则根据所述机器数据产生对应于所述响应语句的拼音数据,并判断所述响应语句的拼音数据与所述多个语音选项之一的拼音数据是否符合。
16.如权利要求9所述的语音选项选择方法,其特征在于,所述存储器还储存有多个第二命令语句,每一第二命令语句对应于所述多个任务内容之一,且所述语音选项选择方法还包括:
控制所述音频检测装置检测所述收音单元所接收的所述声音信号中是否存在所述多个第二命令语句之一;以及
根据所述第二命令语句,输出与所述第二命令语句对应的所述任务内容,并使所述语音选项选择系统回到所述休眠模式。
17.一种智能机器人,其特征在于,包括:
一中央处理器;以及
一如权利要求1-8任一项所述的语音选项选择系统,设置以根据一收音单元所接收的一声音信号中的一命令语句提供多个语音选项,并辨识一响应语句,以输出一任务内容;
其中,所述中央处理器根据所述语音选项选择系统所输出的所述任务内容产生一控制指令,使得所述智能机器人根据所述控制指令执行一动作。
18.如权利要求17所述的智能机器人,其特征在于,于所述语音选项选择系统中,所述处理器为一内建处理单元或一云端服务器。
CN201810007702.0A 2017-12-22 2018-01-04 语音选项选择系统与方法以及使用其的智能机器人 Expired - Fee Related CN109955270B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW106145299 2017-12-22
TW106145299A TWI651714B (zh) 2017-12-22 2017-12-22 語音選項選擇系統與方法以及使用其之智慧型機器人

Publications (2)

Publication Number Publication Date
CN109955270A true CN109955270A (zh) 2019-07-02
CN109955270B CN109955270B (zh) 2022-04-26

Family

ID=66213756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810007702.0A Expired - Fee Related CN109955270B (zh) 2017-12-22 2018-01-04 语音选项选择系统与方法以及使用其的智能机器人

Country Status (3)

Country Link
US (1) US10672395B2 (zh)
CN (1) CN109955270B (zh)
TW (1) TWI651714B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896675B1 (en) * 2018-06-29 2021-01-19 X Development Llc Multi-tiered command processing
TWI709052B (zh) * 2018-10-31 2020-11-01 仁寶電腦工業股份有限公司 智能酒櫃及酒款的搜尋方法
WO2021015308A1 (ko) * 2019-07-19 2021-01-28 엘지전자 주식회사 로봇 및 그의 기동어 인식 방법
TWI739286B (zh) * 2020-01-21 2021-09-11 國立臺灣師範大學 互動學習系統
CN114267356B (zh) * 2021-12-30 2024-04-02 重庆特斯联智慧科技股份有限公司 一种人机交互物流机器人及其控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US20170113353A1 (en) * 2014-04-17 2017-04-27 Softbank Robotics Europe Methods and systems for managing dialogs of a robot
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7215743B2 (en) * 2002-12-20 2007-05-08 International Business Machines Corporation Telephony signals containing an IVR decision tree
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US10705794B2 (en) * 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8588806B2 (en) * 2010-02-26 2013-11-19 Thl Holding Company, Llc Wireless device and methods for use in a paging network
US10381001B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
CN105934791B (zh) * 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
US9495959B2 (en) * 2014-02-27 2016-11-15 Ford Global Technologies, Llc Disambiguation of dynamic commands
WO2015145219A1 (en) * 2014-03-28 2015-10-01 Navaratnam Ratnakumar Systems for remote service of customers using virtual and physical mannequins
WO2015199731A1 (en) * 2014-06-27 2015-12-30 Nuance Communications, Inc. System and method for allowing user intervention in a speech recognition process
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
US20160133255A1 (en) * 2014-11-12 2016-05-12 Dsp Group Ltd. Voice trigger sensor
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CN107293298B (zh) * 2016-04-05 2021-02-19 富泰华工业(深圳)有限公司 语音控制系统及方法
US10318112B2 (en) * 2016-05-27 2019-06-11 Rovi Guides, Inc. Systems and methods for enabling quick multi-application menu access to media options
US10249300B2 (en) * 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
KR102471499B1 (ko) * 2016-07-05 2022-11-28 삼성전자주식회사 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN106328132A (zh) * 2016-08-15 2017-01-11 歌尔股份有限公司 一种智能设备的语音交互控制方法和装置
GB2553840B (en) * 2016-09-16 2022-02-16 Emotech Ltd Robots, methods, computer programs and computer-readable media
KR20180062746A (ko) * 2016-12-01 2018-06-11 삼성전자주식회사 음성 신호를 입력 또는 출력하는 램프 장치 및 상기 램프 장치의 구동 방법
US20180174581A1 (en) * 2016-12-19 2018-06-21 Pilot, Inc. Voice-activated vehicle lighting control hub
US11100384B2 (en) * 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
KR101949497B1 (ko) * 2017-05-02 2019-02-18 네이버 주식회사 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
CN108130683A (zh) * 2017-12-21 2018-06-08 迪尔阿扣基金两合公司 一种家用电器以及用于运行家用电器的方法
EP3506255A1 (en) * 2017-12-28 2019-07-03 Spotify AB Voice feedback for user interface of media playback device
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
US10650807B2 (en) * 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021403A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 基于语音识别的选择方法及其移动终端装置及信息系统
US20170113353A1 (en) * 2014-04-17 2017-04-27 Softbank Robotics Europe Methods and systems for managing dialogs of a robot
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
TWI584270B (zh) * 2016-06-15 2017-05-21 瑞昱半導體股份有限公司 語音控制系統及其方法
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法

Also Published As

Publication number Publication date
TWI651714B (zh) 2019-02-21
TW201928943A (zh) 2019-07-16
US10672395B2 (en) 2020-06-02
US20190198018A1 (en) 2019-06-27
CN109955270B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
US11676600B2 (en) Methods and apparatus for detecting a voice command
US11756563B1 (en) Multi-path calculations for device energy levels
CN109955270A (zh) 语音选项选择系统与方法以及使用其的智能机器人
US10943606B2 (en) Context-based detection of end-point of utterance
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
US9940936B2 (en) Methods and apparatus for detecting a voice command
EP2946383B1 (en) Methods and apparatus for detecting a voice command
US9361885B2 (en) Methods and apparatus for detecting a voice command
EP2842125B1 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
JP6926241B2 (ja) ホットワード認識音声合成
US5657425A (en) Location dependent verbal command execution in a computer based control system
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
US20060074658A1 (en) Systems and methods for hands-free voice-activated devices
KR102029820B1 (ko) 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법
CN109697981B (zh) 一种语音交互方法、装置、设备及存储介质
CN103680505A (zh) 语音识别方法及系统
KR20230104712A (ko) 개인화된 네거티브에 기초한 핫워드 인식 적응
US20220122593A1 (en) User-friendly virtual voice assistant
Yoshimura Casual conversation technology achieving natural dialog with computers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220426