CN108766421B - 语音交互的方法及装置 - Google Patents
语音交互的方法及装置 Download PDFInfo
- Publication number
- CN108766421B CN108766421B CN201710262950.5A CN201710262950A CN108766421B CN 108766421 B CN108766421 B CN 108766421B CN 201710262950 A CN201710262950 A CN 201710262950A CN 108766421 B CN108766421 B CN 108766421B
- Authority
- CN
- China
- Prior art keywords
- answer
- user
- preset
- interaction
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 188
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004891 communication Methods 0.000 claims abstract description 113
- 230000002452 interceptive effect Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音交互的方法及装置。该方法包括:采集第一用户的语音信息;根据所述第一用户的语音信息,从答案库中查找置信度值最高的回答;判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值;当所述查找到的置信度值最高的回答的置信度值小于所述预设置信度值时,发送求助信息至预设的通信终端,所述求助信息包括所述第一用户的语音信息;接收所述第二用户的回答;根据所述通信终端传回的所述第二用户的回答播放语音回答。本发明提供的语音交互的方法及装置可提高与用户进行语音交互的能力。
Description
技术领域
本发明涉及语音交互技术领域,特别涉及一种语音交互的方法及装置。
背景技术
随着科技的快速发展,家用机器人正逐步走进寻常百姓的生活。机器人可与用户进行语音交互,比如可与儿童进行语音交流,帮助儿童学习或陪伴儿童玩耍。
现有的机器人在与儿童进行语音交互时,采集儿童的语音信息,并根据采集到的语音信息从预存的答案中选择答案来对儿童的语音信息做出回答。
在实现本发明的过程中,本发明人发现现有技术中至少存在以下问题:
机器人不对选择的答案的置信度进行判断,当机器人向儿童播放的语音信息的置信度较低时可能会出现儿童对机器人的回答不感兴趣、不愿意进一步沟通的情况。
发明内容
有鉴于此,本发明提供一种语音交互的方法及装置,可提高与用户进行语音交互的能力。
具体而言,包括以下的技术方案:
第一方面,本发明提供了一种语音交互的方法,包括:
采集第一用户的语音信息;
根据所述第一用户的语音信息,从答案库中查找置信度值最高的回答;
判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值;
当所述查找到的置信度值最高的回答的置信度值小于所述预设置信度值时,发送求助信息至预设的通信终端,所述求助信息包括所述第一用户的语音信息;
接收所述第二用户的回答;
根据所述通信终端传回的所述第二用户的回答播放语音回答。
可选择地,所述方法还包括:
将所述第二用户的回答存储在所述答案库中。
可选择地,所述方法还包括:
根据所述通信终端的指示,当与所述第一用户进行语音交互时,不在所述答案库中查找回答,而是根据实时接收的所述第二用户的回答播放语音回答。
可选择地,所述方法还包括:
当所述查找到的置信度值最高的回答的置信度值不小于所述预设置信度值时,播放所述查找到的置信度值最高的回答。
可选择地,所述方法还包括:
播放所述查找到的置信度值最高的回答后,若在预设时间内未采集到所述第一用户的语音信息,则减小所述查找到的置信度值最高的回答的置信度值;
播放所述查找到的置信度值最高的回答后,若在所述预设时间内采集到所述第一用户的语音信息,则增大所述查找到的置信度值最高的回答的置信度值。
可选择地,所述方法还包括:
当所述答案库中的多个回答的置信度值相同且不小于所述预设置信度值时,按照预设顺序播放排在第一位的回答;
若播放完所述排在第一位的回答后,在预设时间内未采集到所述第一用户的语音信息,则发送求助信息至所述通信终端。
可选择地,所述方法还包括:
根据已存储的在一段时期内与所述第一用户进行交互的语音信息及交互的时间信息,确定预设交互时间点、预设交互时长及预设交互相关内容;
记录当前时间段内与所述第一用户交互的语音信息及交互的时间信息,并得到当前的时间段内的交互时间点、交互时长及交互相关内容;
判断当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容是否相符;
当判断出当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容不相符时,发送提醒信息至所述通信终端。
第二方面,本发明还提供了一种语音交互的装置,包括包括处理器、存储器、拾音器、播音器和通信单元,
所述拾音器,用于采集语音信息;
所述播音器,用于播放语音;
所述通信单元,用于与预设的通信终端通信;
所述存储器中存储有答案库;
所述处理器包括:
采集模块,用于调用所述拾音器采集第一用户的语音信息;
查找模块,用于根据所述第一用户的语音信息,从所述答案库中查找置信度值最高的回答;
第一判断模块,用于判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值;
第一发送模块,用于当所述查找到的置信度值最高的回答的置信度值小于所述预设置信度值时,调用所述通信单元发送求助信息至所述通信终端,所述求助信息包括所述第一用户的语音信息;
接收模块,用于从所述通信单元接收所述通信终端传回的所述第二用户的回答;
回答模块,用于根据所述第二用户的回答调用所述播音器播放语音回答。
可选择地,所述处理器还包括存储模块,用于将所述第二用户的回答存储在所述答案库中。
可选择地,所述回答模块还用于:
根据从所述通信单元接收的所述通信终端的指示,当与所述第一用户进行语音交互时,不在所述答案库中查找回答,而是根据实时接收的所述第二用户的回答调用所述播音器播放语音回答。
可选择地,所述装置还包括第一播放模块,用于当所述查找到的置信度值最高的回答的置信度值不小于所述预设置信度值,调用所述播音器播放所述查找到的置信度值最高的回答。
可选择地,所述处理器还包括置信度值调整模块,用于:
播放所述查找到的置信度值最高的回答后,若在预设时间内未采集到所述第一用户的语音信息,则减小所述查找到的置信度值最高的回答的置信度值;
播放所述查找到的置信度值最高的回答后,若在所述预设时间内采集到所述第一用户的语音信息,则增大所述查找到的置信度值最高的回答的置信度值。
可选择地,所述处理器还包括第二播放模块,用于当所述答案库中的多个回答的置信度值相同且不小于所述预设置信度值时,按照预设顺序播放排在第一位的回答;
所述第一发送模块还用于若播放完所述排在第一位的回答后,在预设时间内未采集到所述第一用户的语音信息,则调用所述通信单元发送所述求助信息至所述通信终端。
可选择地,所述处理器还包括:
确定模块,用于根据已存储的在一段时期内与所述第一用户进行交互的语音信息及交互的时间信息,确定预设交互时间点、预设交互时长及预设交互相关内容;
获取模块,用于记录当前时间段内与所述第一用户交互的语音信息及交互的时间信息,并得到当前的时间段内的交互时间点、交互时长及交互相关内容;
第二判断模块,用于判断当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容是否相符;
第二发送模块,用于当判断出当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容不相符时,调用所述通信单元发送提醒信息至所述通信终端。
本发明实施例提供的技术方案的有益效果:
本发明提供了一种语音交互的方法、装置,采集到第一用户的语音信息后,在答案库中查找置信度值最高的回答;当判断出查找到的置信度值最高的回答的置信度值小于预设置信度值时,向通信终端发送求助信息,接收并以语音的形式播放通信终端发送的第二用户的回答,避免第一用户对机器人答案库中的回答不感兴趣导致的语音交互无法继续的问题,提高与用户进行语音交互的能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种例示性实施环境的示意图;
图2为本发明一实施例中一种语音交互的方法的流程图;
图3为本发明一实施例中一种语音交互的装置的框图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是实施本发明的一种例示性实施环境的示意图。参见图1,该实施环境中包括:机器人101、第一用户102、通信终端103和第二用户104。
机器人101与通信终端103通过无线方式进行通信。一般情况下,机器人101可直接与第一用户102语音互动,但当机器人101判断不能回答第一用户102的问题时,机器人101可将采集到的第一用户102的语音信息发送到通信终端103,通信终端103将第二用户104的回答通过无线方式发送给机器人101,进而机器人101可根据接收到的第二用户104的回答播放语音回答。机器人101中可设置有语音互动需要的答案库、无线通信器件、语音采集、识别和播音器件等。
在本发明中,通信终端可以为手机、智能手表或者笔记本电脑等便携式终端;第一用户可以是儿童或其他需要陪伴照顾的用户;第二用户可以是儿童的监护人、家庭老师或者其他亲属,机器人可以为陪伴儿童的儿童机器人或其他合适类型的机器人。
实施例一
本实施例提供了一种语音交互的方法,如图2所示,包括S101、S102、S103、S104、S105和S106。下面将对各步骤进行具体介绍。
S101:采集第一用户的语音信息。
第一用户与机器人进行语音交互时,当第一用户发出声音,机器人采集第一用户的语音的信息,采集到的语音信息的形式可以为音频信息或转化后的文字信息。如儿童和儿童机器人进行语音交互时,儿童向儿童机器人提问问题、与儿童机器人聊天或者唱歌时,儿童机器人将儿童说的话或者唱的歌采集。
S102:根据第一用户的语音信息,从答案库中查找置信度值最高的回答。
对于第一用户的语音信息,首先通过语义分析等手段分析其含有的问题,然后查找答案,对于同一个问题在答案库中可能有存储有多个回答。注意这里的问题不一定是询问,也可能是一般性的阐述,需要机器人根据该阐述给出合乎逻辑的应答。为了提高与第一用户的交互能力,机器人在答案库中查找置信度最高的回答。如当儿童唱某一首儿歌时,机器人可以在答案库中找到很多儿歌的语音,其中置信度值最高的是儿童在唱的那首儿歌,或者是对儿童唱的歌的夸奖。根据不同回答的置信度值,选择置信度值最高的回答。
S103:判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值。
机器人在答案库中查找到置信度值最高的回答后,判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值。机器人的系统中预先设定了一个置信度值。设置预设置信度值的目的是确定一个标准,假定第一用户在听到置信度值不小于此预设置信度值的回答后,愿意与机器人进行进一步交互,在听到置信度值小于此预设置信度值的回答,第一用户不愿意与机器人进一步沟通。从而机器人可以根据预设置信度值来选择与第一用户语音交互时的回答。
例如,如果在实际应用中发现,当儿童听到置信度值不小于0.5的回答时,愿意与机器人进行进一步交互的概率较高,或当儿童听到置信度值小于0.5的回答时,不愿意与对机器人的回答做出回应的概率较高,那么可以将机器人的预设置信度值设为0.5。
在本实施例中,针对用户的语音信息的回答的置信度值可通过多次试验得到。
当机器人判断出查找到的置信度值最高的回答的置信度值小于预设置信度值时,执行S104;当机器人判断出查找到的置信度值最高的回答的置信度值不小于预设置信度值时,执行步骤S107。
S104:当查找到的置信度值最高的回答的置信度值小于预设置信度值时,发送求助信息至预设的通信终端。
当机器人查找到的置信度值最高的回答的置信度值小于预设置信度值时,说明机器人的答案库中不存在第一用户感兴趣的回答。此时机器人发送求助信息至预设的通信终端。求助信息包括第一用户的语音信息。第二用户通过通信终端接收到求助信息后,根据第一用户的语音信息,做出回答,并将回答通过通信终端发送至机器人。
在本实施例中,机器人向通信终端发送的求助信息,可以是采集第一用户的语音,也可以是机器人根据采集的第一用户的语音信息转换的文字信息,或者根据采集的第一用户的语音信息转换成的机器人自己的语音。
在本实施例中,通信终端可预先与机器人进行绑定,并可以与机器人通过网络发送信息。通信终端可以是移动终端,比如手机、平板、智能手机或者笔记本等。机器人可将求助信息发送至通信终端的某个客户端上,如发送到移动终端的微信客户端上。
在本实施例中,可预设两个或两个以上通信终端,当机器人按照预设顺序向排在第一位的通信终端发送求助信息后,在预设时间内未接收到通信终端发送的第二用户的回答,则向排在第二位的通信终端发送求助信息,以此类推。两个或两个以上的通信终端可由一个第二用户控制,也可由多个第二用户控制。这样,可避免出现因第二用户未及时看到某一个通信终端接收的求助信息造成的不能指导机器人与儿童的交互的情况。
S105:接收通信终端传回的第二用户的回答。
在本实施例中,机器人接收到的第二用户的回答可以是文字或者第二用户的语音。
S106:根据第二用户的回答播放语音回答。
当机器人接收的第二用户的回答是文字形式时,将文字转换为机器人的语音并进行播放;当机器人接收的第二用户的回答是第二用户发送的语音时,机器人可直接播放第二用户发送的语音,也可将第二用户的语音转换为机器人的语音再播放。
在本实施例中,机器人可将第二用户的回答存储在答案库中。存储的形式可以是接收到的第二用户的回答语音,也可以是将第二用户的回答语音识别之后的文字,或者根据所述第二用户的回答语音转换成的机器人的语音回答。在下一次与第一用户进行交互时,可将存储的第二用户的回答播放给第一用户。一般第二用户比较了解第一用户,第二用户给出的回答置信度比较高,因此可将存储的第二用户的回答的置信度值设置为比较大的值,比如1。这样,机器人可不断更新自己的答案库,实现自我学习,提高与用户交互的能力。
S107:当查找到的置信度值最高的回答的置信度值不小于预设置信度值时,播放查找到的置信度值最高的回答。
当机器人查找到的置信度值最高的回答的置信度值不小于预设置信度值时,说明查找到的置信度值最高的回答可使第一用户感兴趣,第一用户在听到该回答时,愿意与机器人进一步沟通,则机器人直接播放查找到的置信度值最高的回答。
机器人的答案库中存储的回答可以是语音形式,也可以是文字形式。当存储的回答是语音形式时,机器人可直接播放;当存储的回答是文字形式时,机器人将文字形式的回答转换为机器人的语音再进行播放。
在本实施例中,当机器人的答案库中的多个回答的置信度值相同且不小于预设置信度值时,按照预设顺序播放排在第一位的回答;若播放完排在第一位的回答后,在预设时间内未采集到第一用户的语音信息,则发送求助信息至通信终端。
播放完排在第一位的回答后,在预设的时间内采集到第一用户的语音信息,说明第一用户对此回答感兴趣,愿意与机器人进行进一步沟通。预设时间可由用户根据实际情况进行设定,如设置为15s。若机器人播放完排在第一位的回答后,在预设时间内未采集到第一用户的语音信息,说明第一用户对排在第一位的回答不感兴趣,则机器人向通信终端发送求助信息。
在本实施例中,机器人播放查找到的置信度值最高的回答后,若在预设时间内未采集到第一用户的语音信息,则减小查找到的置信度值最高的回答的置信度值;播放查找到的置信度值最高的回答后,若在预设时间内采集到第一用户的语音信息,则增大查找到的置信度值最高的回答的置信度值。
比如当机器人查找到的回答置信度值为0.6,播放该回答后,在预设的时间内采集到第一用户的语音信息,则将此回答的置信度值增大10%,变为0.66;若播放该回答后,在预设的时间内未采集到第一用户的语音信息,则将此回答的置信度值减小10%,变为0.54。这样,可实现对答案库终中的回答的置信度值的优化。
在机器人的答案库中预存回答时,并不知道第一用户听到这些回答是否愿意与机器人进行进一步沟通,则可将这些回答的置信度值均设置为0.5。机器人在采集到第一用户的语音信息后,按照预设顺序播放排在第一位的回答。若播放排在第一位回答后,在预设的时间内采集到第一用户的语音信息,则将此回答的置信度值增大10%,变为0.55,在下次采集到第一用户的语音信息时,机器人查找到的回答为置信度值为0.55的回答并播放,因为0.55为所有答案中的置信度值的最大值。若播放排在第一位的回答后,在预设的时间内未采集到第一用户的语音信息,则将此回答的置信度值减小10%,变为0.45,并对余下的置信度值为0.5的回答重新排序,在下次采集到第一用户的语音信息时,机器人播放重新排序后排在第一位的回答。需要说明的是,重新排序指的是上一次排在第一位的回答的置信度值变为0.45后,在上一次排在第二位的回答重新排序后排在第一位,在上一次排在第三位的回答重新排序后排在第二位,以此类推。
在本实施例中,机器人可将与第一用户的语音交互信息实时发送至通信终端,从而第二用户可根据通信终端实时监控机器人与第一用户的交互。
若第二用户对机器人的回答不满意时,可通过通信终端向机器人发送指示。机器人根据通信终端的指示,当与第一用户进行语音交互时,在采集到第一用户的语音信息后,不在答案库中查找回答,而是根据实时接收的第二用户的回答播放语音回答。或者为了与提高第一用户的多样性,第二用户可通过通信终端主动向机器人发送聊天信息,从而机器人根据第二用户发送的聊天信息以语音的形式播放。
在本实施例中,机器人可根据已存储的在一段时期内与第一用户进行交互的语音信息及交互的时间信息,确定预设交互时间点、预设交互时长及预设交互相关内容。
比如儿童机器人存储的交互信息中,在过去的一个星期内与儿童进行交互的语音信息及交互的时间信息为:周日与儿童交互的时间点为11:00-11:25,交互时长为25分钟,交互内容为故事;周一与儿童交互的时间点为11:20-11:50,交互时长为25分钟,交互内容为儿歌;周二与儿童交互的时间点为11:10-11:38,交互时长为28分钟,交互内容为唐诗;周三与儿童交互的时间点为11:05-11:20,交互时长为15分钟,交互内容为数学学习;周四与儿童交互的时间点为11:30-11:55,交互时长为25分钟,交互内容为幼儿英语;周五与儿童交互的时间点为11:25-11:40,交互时长为15分钟,交互内容为儿歌;周六与儿童交互的时间点为11:20-11:45,交互时长为25分钟,交互内容为故事。机器人可确定上周与儿童交互时间点为11:00-12:00之间,交互时长不超过30分钟,交互内容为儿童成长学习相关内容。机器人可确定擅长的领域为儿童学习成长相关内容,并建立一个学习模板,将此模板的预设交互时间点设置为11:00-12:00之间、预设交互时长设置为不超过30分钟及预设交互相关内容设置为儿童成长学习相关内容。
在本实施例中,以一个星期进行举例说明,但本发明不限于此,一段时期也可以为一个月,或者由用户设定。
机器人记录当前时间段内与第一用户交互的语音信息及交互的时间信息,并得到当前的时间段内的交互时间点、交互时长及交互相关内容;并判断当前时间段内的交互时间点、交互时长及交互相关内容与建立的学习模板的预设交互时间点、预设交互时长及预设交互相关内容是否相符;当判断出当前时间段内的交互时间点、交互时长及交互相关内容与预设交互时间点、预设交互时长及预设交互相关内容不相符时,发送提醒信息至通信终端。从而第二用户根据通信终端对儿童的学习安排进行调整。
在本实施例中,机器人还可判断与第一用户的语音交互内容是否包含色情、暴力等不健康内容,当判断出含有不健康内容时,发送提醒信息至通信终端,从而第二用户通过通信终端对交互内容进行调整。
在本实施例中,机器人、第一用户、第二用户均可主动发起语音交互。
本实施例提供的语音交互的方法,采集到第一用户的语音信息后,在答案库中查找置信度值最高的回答;当判断出查找到的置信度最高的回答的置信度值大于预设置信度时,播放该回答;当判断出查找到的置信度值最高的回答的置信度值小于预设置信度值时,向通信终端发送求助信息,接收并以语音的形式播放通信终端发送的第二用户的回答,避免第一用户对机器人答案库中的回答不感兴趣导致的语音交互无法继续的问题,提高与用户进行语音交互的能力。
实施例二
对应于实施例一,本实施例提供了一种语音交互的装置,如图3所示,包括处理器201、存储器202、拾音器203、播音器204和通信单元205。下面将进行具体介绍。
拾音器203,用于采集语音信息,拾音器又可称为话筒或麦克风;
播音器204,用于播放语音,播音器可以播放预先准备好的语音,或者将文字转化为语音播放;
通信单元205,用于与预设的通信终端通信,通信单元一般为无线通信器件;
存储器202中存储有答案库,答案库存储各种问题和对应答案;
处理器201包括采集模块2011、查找模块2012、第一判断模块2013、第一发送模块2014、接收模块2015、回答模块2016和播放模块2017。
采集模块2011,用于调用拾音器203采集第一用户的语音信息。
与第一用户进行语音交互时,当第一用户发出声音时,采集模块2011调用拾音器203采集第一用户发出的语音的信息,采集到的语音信息的形式可以为音频信息或转化后的文字信息。如儿童和儿童机器人进行语音交互时,儿童向儿童机器人提问问题、与儿童机器人聊天或者唱歌时,儿童机器人的拾音器203将儿童说的话或者唱的歌进行采集。
查找模块2012,用于根据第一用户的语音信息,从存储器202的答案库中查找置信度值最高的回答。
对于第一用户的语音信息,首先通过语义分析等手段分析其含有的问题,然后查找答案,对于同一个问题在答案库中可能存储有多个回答。注意这里的问题不一定是询问,也可能是一般性的阐述,需要机器人根据该阐述给出合乎逻辑的应答。为了提高与第一用户的交互能力,查找模块2012在答案库中查找置信度最高的回答。如当儿童唱某一首儿歌时,查找模块2012可以在答案库中找到很多儿歌的语音,其中置信度值最高的是儿童唱的那首儿歌,或者是对儿童唱的歌进行的夸奖。根据不同回答的置信度值,查找模块2012选择置信度值最高的回答。
第一判断模块2013,用于判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值。
查找模块2012在答案库中查找到置信度值最高的回答后,第一判断模块2013判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值。第一判断模块2013预先设定了一个置信度值,设置预设置信度值的目的是确定一个标准,假定第一用户在听到置信度值不小于此预设置信度值的回答后,愿意与机器人进行进一步交互,在听到置信度值小于此预设置信度值的回答,第一用户不愿意与机器人进一步沟通。从而机器人可以根据预设置信度值来选择与第一用户语音交互时的回答。
在本实施例中,答案库中的针对用户的同一语音信息的回答的置信度值可通过多次试验得到。
当第一判断模块2013判断出查找到的置信度值最高的回答的置信度值小于预设置信度值时,调用第一发送模块2014;当机器人判断出查找到的置信度值最高的回答的置信度值不小于预设置信度值时,调用播放模块2017。
第一发送模块2014,用于当查找到的置信度值最高的回答的置信度值小于预设置信度值时,调用通信单元205发送求助信息至预设的通信终端。
当第一判断模块2013判断出查找模块2012查找到的置信度值最高的回答的置信度值小于预设置信度值时,说明答案库中不存在第一用户感兴趣的回答。此时第一发送模块2014调用通信单元205发送求助信息至预设的通信终端。求助信息包括第一用户的语音信息。第二用户通过通信终端接收到求助信息后,根据第一用户的语音信息,做出回答,并将回答通过通信终端发送至机器人的通信单元205。
在本实施例中,第一发送模块2014调用通信单元205向通信终端发送的求助信息,可以是采集的第一用户的语音,也可以是根据采集的第一用户的语音信息转换的文字信息,或者根据采集的第一用户的语音信息转换成的机器人自己的语音。
在本实施例中,通信终端可预先与机器人的通信单元205进行绑定,并可以与通信单元205通过网络发送信息。通信终端可以是移动终端,比如手机、平板、智能手机或者笔记本等。第一发送模块2014可调用通信单元205将求助信息发送至通信终端的某个客户端上,如发送到移动终端的微信客户端上。
在本实施例中,可预设两个或两个以上通信终端,当机器人按照预设顺序向排在第一位的通信终端发送求助信息后,在预设时间内未接收到通信终端发送的第二用户的回答,则向排在第二位的通信终端发送求助信息,以此类推。两个或两个以上的通信终端可由一个第二用户控制,也可由多个第二用户控制。这样,可避免出现因第二用户未及时看到某一个通信终端接收的求助信息造成的不能指导机器人与儿童的交互的情况。
接收模块2015,用于从通信单元205接收通信终端传回的第二用户的回答。
在本实施例中,接收模块2015接收到的第二用户的回答可以是文字或者第二用户的语音。
回答模块2016,用于根据第二用户的回答调用播音器204播放语音回答。
当接收模块2015接收的第二用户的回答是文字形式时,回答模块2016将文字转换为机器人的语音并进行播放;当接收模块2015接收的第二用户的回答是第二用户发送的语音时,回答模块2016可调用播音器204直接播放第二用户发送的语音,也可调用播音器204将第二用户的语音转换为机器人的语音再播放。
在本实施例中,处理器201还可包括存储模块,用于将第二用户的回答存储在答案库中。存储的形式可以是接收到的第二用户的回答语音,也可以是将第二用户的回答语音识别之后的文字,或者根据所述第二用户的回答语音转换成的机器人的语音回答。在下一次与第一用户进行交互时,可将存储的第二用户的回答播放给第一用户。一般第二用户比较了解第一用户,第二用户给出的回答置信度比较高,因此可将存储的第二用户的回答的置信度设置为比较大的值。这样,答案库可不断更新,实现机器人的自我学习,提高与用户交互的能力。
第一播放模块2017,用于当查找到的置信度值最高的回答的置信度值不小于预设置信度值时,调用播音器204播放查找到的置信度值最高的回答。
当第一判断模块2013判断出查找到的置信度值最高的回答的置信度值不小于预设置信度值时,说明查找到的置信度值最高的回答可使第一用户感兴趣,第一用户在听到该回答时,愿意与机器人进一步沟通,则播放模块2017直接调用播音器204播放查找到的置信度值最高的回答。
在本实施例中,语音交互的装置还可包括第二播放模块,用于当答案库中的多个回答的置信度值相同且不小于预设置信度值时,调用播音器204按照预设顺序播放排在第一位的回答;第一发送模块2014还用于若播放完排在第一位的回答后,在预设时间内未采集到第一用户的语音信息,则调用通信单元205发送求助信息至通信终端。
在播放某一回答后在预设的时间内,拾音器203采集到第一用户的语音信息,说明第一用户对此回答感兴趣,愿意与机器人进行进一步沟通;在播放某一回答后在预设的时间内,拾音器203未采集到第一用户的语音信息,说明第一用户对此回答不感兴趣,不愿意与机器人进行进一步沟通。
在机器人的答案库中预存的回答时,并不知道第一用户听到这些回答是否愿意与机器人进行进一步沟通,则可将这些回答的置信度值均设置为不小于预设置信度值的数值。采集模块2011在采集到第一用户的语音信息后,播放模块2017调用播音器204按照预设顺序播放排在第一位的回答。若播音器204播放完排在第一位的回答后,拾音器203在预设时间内未采集到第一用户的语音信息,说明第一用户对排在第一位的回答不感兴趣,则第一发送模块2014调用通信单元205向通信终端发送求助信息。
在本实施例中,处理器201还可包括置信度值调整模块,用于播放查找到的置信度值最高的回答后,若在预设时间内未采集到第一用户的语音信息,则减小查找到的置信度值最高的回答的置信度值;播放查找到的置信度值最高的回答后,若在预设时间内采集到第一用户的语音信息,则增大查找到的置信度值最高的回答的置信度值。这样,置信度值调整模块根据第一用户对机器人回答的反应,通过增大或减小回答的置信度值对答案库进行优化,在采集模块2011下次采集到第一用户的语音信息时,查找模块2012查找到的是置信度值增大的回答。
在本实施例中,处理器201还可包括确定模块、获取模块、第二判断模块和第二发送模块。
确定模块,用于根据已存储的在一段时期内与第一用户进行交互的语音信息及交互的时间信息,确定预设交互时间点、预设交互时长及预设交互相关内容;
获取模块,用于记录当前时间段内与第一用户交互的语音信息及交互的时间信息,并得到当前的时间周期内的交互时间点、交互时长及交互相关内容;
第二判断模块,用于判断当前时间段内的交互时间点、交互时长及交互相关内容与预设交互时间点、预设交互时长及预设交互相关内容是否相符;
第二发送模块,用于当判断出当前时间段内的交互时间点、交互时长及交互相关内容与预设交互时间点、预设交互时长及预设交互相关内容不相符时,发送提醒信息至通信终端。
这样,在第二用户根据通信终端接收到的提醒信息后,可对儿童的学习安排进行调整。
在本实施例中,处理器201还可包括第三判断模块,用于判断与第一用户的语音交互内容是否包含色情、暴力等不健康内容;
第二发送模块还用于当判断出含有不健康内容时,调用通信单元205发送提醒信息至通信终端。这样,第二用户根据通信终端发送的提醒信息,可通过通信终端对交互内容进行调整。
本实施例与实施例一基于相同的发明构思,是与方法实施例一相对应的系统实施例,因此本领域技术人员应该理解,对实施例一的说明也同样适应于本实施例,有些技术细节在本实施例中不再详述。
由于实施例二与实施例一相互对应,所以能带来的有益效果相同,在此不再赘述。
在本实施例中,语音交互的装置可以与机器人一体集成或机器人本身。
在本申请所提供的实施例中,应该理解到,所提供的方法和装置,仅仅是示意性的,例如,所述步骤和模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。上述方法和装置可以通过计算机装置运行相应的软件和硬件来实现。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
以上所述仅是为了便于本领域的技术人员理解本发明的技术方案,并不用以限制本发明。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种语音交互的方法,其特征在于,包括:
采集第一用户的语音信息;
根据所述第一用户的语音信息,从答案库中查找置信度值最高的回答;
判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值;
当所述查找到的置信度值最高的回答的置信度值小于所述预设置信度值时,发送求助信息至预设的通信终端,所述求助信息包括所述第一用户的语音信息;
接收所述通信终端传回的第二用户的回答;
根据所述第二用户的回答播放语音回答;
根据已存储的在一段时期内与所述第一用户进行交互的语音信息及交互的时间信息,确定预设交互时间点、预设交互时长及预设交互相关内容,记录当前时间段内与所述第一用户交互的语音信息及交互的时间信息,并得到当前的时间段内的交互时间点、交互时长及交互相关内容,判断当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容是否相符,当判断出当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容不相符时,发送提醒信息至所述通信终端。
2.根据权利要求1所述的语音交互的方法,其特征在于,所述方法还包括:
将所述第二用户的回答存储在所述答案库中。
3.根据权利要求1所述的语音交互的方法,其特征在于,所述方法还包括:
根据所述通信终端的指示,当与所述第一用户进行语音交互时,不在所述答案库中查找回答,而是根据实时接收的所述第二用户的回答播放语音回答。
4.根据权利要求1所述的语音交互的方法,其特征在于,所述方法还包括:
当所述查找到的置信度值最高的回答的置信度值不小于所述预设置信度值时,播放所述查找到的置信度值最高的回答。
5.根据权利要求4所述的语音交互的方法,其特征在于,所述方法还包括:
播放所述查找到的置信度值最高的回答后,若在预设时间内未采集到所述第一用户的语音信息,则减小所述查找到的置信度值最高的回答的置信度值;
播放所述查找到的置信度值最高的回答后,若在所述预设时间内采集到所述第一用户的语音信息,则增大所述查找到的置信度值最高的回答的置信度值。
6.根据权利要求1所述的语音交互的方法,其特征在于,所述方法还包括:
当所述答案库中的多个回答的置信度值相同且不小于所述预设置信度值时,按照预设顺序播放排在第一位的回答;
若播放所述排在第一位的回答后,在预设时间内未采集到所述第一用户的语音信息,则发送求助信息至所述通信终端。
7.一种语音交互的装置,其特征在于,包括处理器、存储器、拾音器、播音器和通信单元,
所述拾音器,用于采集语音信息;
所述播音器,用于播放语音;
所述通信单元,用于与预设的通信终端通信;
所述存储器中存储有答案库;
所述处理器包括:
采集模块,用于调用所述拾音器采集第一用户的语音信息;
查找模块,用于根据所述第一用户的语音信息,从所述答案库中查找置信度值最高的回答;
第一判断模块,用于判断查找到的置信度值最高的回答的置信度值是否小于预设置信度值;
第一发送模块,用于当所述查找到的置信度值最高的回答的置信度值小于所述预设置信度值时,调用所述通信单元发送求助信息至所述通信终端,所述求助信息包括所述第一用户的语音信息;
接收模块,用于从所述通信单元接收所述通信终端传回的第二用户的回答;
回答模块,用于根据所述第二用户的回答调用所述播音器播放语音回答;
确定模块,用于根据已存储的在一段时期内与所述第一用户进行交互的语音信息及交互的时间信息,确定预设交互时间点、预设交互时长及预设交互相关内容;
获取模块,用于记录当前时间段内与所述第一用户交互的语音信息及交互的时间信息,并得到当前的时间段内的交互时间点、交互时长及交互相关内容;
第二判断模块,用于判断当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容是否相符;
第二发送模块,用于当判断出当前时间段内的交互时间点、交互时长及交互相关内容与所述预设交互时间点、所述预设交互时长及所述预设交互相关内容不相符时,调用所述通信单元发送提醒信息至所述通信终端。
8.根据权利要求7所述的语音交互的装置,其特征在于,所述处理器还包括存储模块,用于将所述第二用户的回答存储在所述答案库中。
9.根据权利要求7所述的语音交互的装置,其特征在于,所述回答模块还用于:
根据从所述通信单元接收的所述通信终端的指示,当与所述第一用户进行语音交互时,不在所述答案库中查找回答,而是根据实时接收的所述第二用户的回答调用所述播音器播放语音回答。
10.根据权利要求7所述的语音交互的装置,其特征在于,所述装置还包括第一播放模块,用于当所述查找到的置信度值最高的回答的置信度值不小于所述预设置信度值,调用所述播音器播放所述查找到的置信度值最高的回答。
11.根据权利要求10所述的语音交互的装置,其特征在于,所述处理器还包括置信度值调整模块,用于:
播放所述查找到的置信度值最高的回答后,若在预设时间内未采集到所述第一用户的语音信息,则减小所述查找到的置信度值最高的回答的置信度值;
播放所述查找到的置信度值最高的回答后,若在所述预设时间内采集到所述第一用户的语音信息,则增大所述查找到的置信度值最高的回答的置信度值。
12.根据权利要求7所述的语音交互的装置,其特征在于,
所述处理器还包括第二播放模块,用于当所述答案库中的多个回答的置信度值相同且不小于所述预设置信度值时,按照预设顺序播放排在第一位的回答;
所述第一发送模块还用于若播放完所述排在第一位的回答后,在预设时间内未采集到所述第一用户的语音信息,则调用所述通信单元发送所述求助信息至所述通信终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710262950.5A CN108766421B (zh) | 2017-04-20 | 2017-04-20 | 语音交互的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710262950.5A CN108766421B (zh) | 2017-04-20 | 2017-04-20 | 语音交互的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108766421A CN108766421A (zh) | 2018-11-06 |
CN108766421B true CN108766421B (zh) | 2020-09-15 |
Family
ID=63980016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710262950.5A Active CN108766421B (zh) | 2017-04-20 | 2017-04-20 | 语音交互的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766421B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455592A (zh) * | 2013-08-30 | 2013-12-18 | 广州网易计算机系统有限公司 | 一种问答方法、装置及系统 |
CN104321765A (zh) * | 2012-06-29 | 2015-01-28 | 国际商业机器公司 | 对专家会话构建器的扩展 |
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105159996A (zh) * | 2015-09-07 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的深度问答服务提供方法和装置 |
CN105183848A (zh) * | 2015-09-07 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机聊天方法和装置 |
CN105760417A (zh) * | 2015-01-02 | 2016-07-13 | 国际商业机器公司 | 基于个性化用户模型和情境的认知交互式搜索的方法和系统 |
CN106409021A (zh) * | 2016-12-15 | 2017-02-15 | 北京奇虎科技有限公司 | 智能故事机及智能交互系统 |
CN106445905A (zh) * | 2015-08-04 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 问答数据处理、自动问答方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9280610B2 (en) * | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
-
2017
- 2017-04-20 CN CN201710262950.5A patent/CN108766421B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104321765A (zh) * | 2012-06-29 | 2015-01-28 | 国际商业机器公司 | 对专家会话构建器的扩展 |
CN103455592A (zh) * | 2013-08-30 | 2013-12-18 | 广州网易计算机系统有限公司 | 一种问答方法、装置及系统 |
CN105760417A (zh) * | 2015-01-02 | 2016-07-13 | 国际商业机器公司 | 基于个性化用户模型和情境的认知交互式搜索的方法和系统 |
CN106445905A (zh) * | 2015-08-04 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 问答数据处理、自动问答方法及装置 |
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105159996A (zh) * | 2015-09-07 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的深度问答服务提供方法和装置 |
CN105183848A (zh) * | 2015-09-07 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机聊天方法和装置 |
CN106409021A (zh) * | 2016-12-15 | 2017-02-15 | 北京奇虎科技有限公司 | 智能故事机及智能交互系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108766421A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8345830B2 (en) | Method and apparatus for voice interactive messaging | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
US7738637B2 (en) | Interactive voice message retrieval | |
US20190027136A1 (en) | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition | |
US7844454B2 (en) | Apparatus and method for providing voice recognition for multiple speakers | |
US20210280172A1 (en) | Voice Response Method and Device, and Smart Device | |
JP5033756B2 (ja) | 実時間対話型コンテンツを無線交信ネットワーク及びインターネット上に形成及び分配する方法及び装置 | |
US20090298529A1 (en) | Audio HTML (aHTML): Audio Access to Web/Data | |
AU2003273539A1 (en) | System and method for generating a dynamic interface via a communications network | |
EP1221249A1 (fr) | Identification d'intervenant dans une telereunion | |
CN102292766A (zh) | 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品 | |
CN102497391A (zh) | 服务器、移动终端和提示方法 | |
CN108810296A (zh) | 一种智能外呼方法及装置 | |
JP2011253389A (ja) | 端末および擬似会話用返答情報作成プログラム | |
US8543403B1 (en) | Intelligent information supplements to calls | |
CN108766421B (zh) | 语音交互的方法及装置 | |
CN108492826A (zh) | 音频处理方法、装置、智能设备及介质 | |
US20050101304A1 (en) | Mobile phone with auto-response capability | |
JP2021110921A (ja) | 音声対話方法、装置、機器および記憶媒体 | |
CN108182942B (zh) | 一种支持不同虚拟角色交互的方法和装置 | |
CN110196900A (zh) | 用于终端的交互方法和装置 | |
US10965391B1 (en) | Content streaming with bi-directional communication | |
CN113808593A (zh) | 语音交互系统、相关方法、装置及设备 | |
KR100613899B1 (ko) | 통신 매체를 이용한 학습 진도 관리 방법 및 시스템 | |
CN104125542A (zh) | 信息传递系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: No. 555, Qianmo Road, Binjiang District, Hangzhou, Zhejiang 310000 Patentee after: Hangzhou fluorite Network Co.,Ltd. Address before: No. 555, Qianmo Road, Binjiang District, Hangzhou, Zhejiang 310000 Patentee before: HANGZHOU EZVIZ NETWORK Co.,Ltd. |