CN111833854A - 一种人机交互方法与终端、计算机可读存储介质 - Google Patents
一种人机交互方法与终端、计算机可读存储介质 Download PDFInfo
- Publication number
- CN111833854A CN111833854A CN202010018047.6A CN202010018047A CN111833854A CN 111833854 A CN111833854 A CN 111833854A CN 202010018047 A CN202010018047 A CN 202010018047A CN 111833854 A CN111833854 A CN 111833854A
- Authority
- CN
- China
- Prior art keywords
- response
- style
- data
- target object
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000003993 interaction Effects 0.000 title claims abstract description 53
- 230000004044 response Effects 0.000 claims abstract description 188
- 230000002452 interceptive effect Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 27
- 230000008451 emotion Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种人机交互方法与终端、计算机可读存储介质。该方法包括:接收针对目标对象的交互指令,然后,确定所述目标对象的响应风格,所述响应风格与所述目标对象的历史数据相关,从而,根据所述响应风格与所述交互指令,确定响应话术,进而,向所述目标对象输出所述响应话术。本发明提供的技术方案,解决了现有的人机交互方式单一单调且无法满足用户个性化交互需求的问题。
Description
技术领域
本发明涉及计算机技术,尤其涉及一种人机交互方法与终端、计算机可读存储介质。
背景技术
随着计算机技术的发展,终端可以实现对用户的自动应答。在这种人机交互场景中,终端可以根据用户发出的语音或文字,确定与这些语音或文字相对应的应答内容,并将应答内容输出给用户。
但是,现有的人机交互方法,对所有用户提出的同一个交互指令,都会进行统一的应答,应答方式过于单一单调,无法满足用户的个性化交互需求。
发明内容
本发明提供一种人机交互方法与终端、计算机可读存储介质,用以解决现有的人机交互方式单一单调且无法满足用户个性化交互需求的问题。
第一方面,本发明提供一种人机交互方法,包括:
接收针对目标对象的交互指令;
确定所述目标对象的响应风格,所述响应风格与所述目标对象的历史数据相关;
根据所述响应风格与所述交互指令,确定响应话术;
向所述目标对象输出所述响应话术。
第二方面,本发明提供一种终端,包括:
接收模块,用于接收针对目标对象的交互指令;
确定模块,用于确定所述目标对象的响应风格,所述响应风格与所述目标对象的历史数据相关;
所述确定模块,还用于根据所述响应风格与所述交互指令,确定响应话术;
输出模块,用于向所述目标对象输出所述响应话术。
第三方面,本发明提供一种终端,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面所述的方法。
本发明提供的一种人机交互方法与终端、计算机可读存储介质,当与用户进行人机交互时,可以根据目标对象的历史数据,来确定目标对象可能喜欢的响应风格,从而,可以结合响应风格和交互指令两个方面,来确定并输出响应话术,如此,使得响应话术更加贴近目标对象的个性化风格,即便是针对同一个交互指令,针对不同目标对象的响应话术可能不同,解决了现有的人机交互方式单一单调且无法满足用户个性化交互需求的问题,这也使得交互过程更加真实且具备趣味性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明实施例所提供的一种人机交互方法的流程示意图;
图2为本发明实施例所提供的另一种人机交互方法的流程示意图;
图3为本发明实施例提供的一种风格分类器的训练方法的流程示意图;
图4为本发明实施例所提供的一种人机交互示意图;
图5为本发明实施例所提供的另一种人机交互示意图;
图6为本发明实施例所提供的另一种人机交互示意图;
图7为本发明实施例所提供的一种终端的功能方块图;
图8为本发明实施例所提供的一种终端的实体结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明实施例所提供的人机交互方法,可以应用于任意终端设备中。其中,本发明实施例所涉及到的终端设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,简称SIP)话机、无线本地环路(Wireless LocalLoop,简称WLL)站、个人数字助理(Personal Digital Assistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(RemoteTerminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(UserAgent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端设备还可以是智能手表、平板电脑等设备。
本发明具体的应用场景为人机交互场景,更具体的,可以为语音交互场景或者文字交互场景。示例性的一种可能的语音交互场景中,用户可以通过发出语音指令,例如“夸夸我吧”,来指示终端输出用于夸赞用户的响应话术。在该场景中,终端可以采集语音数据,并对语音数据进行语义识别,并在识别出用户的语义后,输出响应话术。
如前,现有的语音交互场景中,终端会根据用户发出的语音或文字,确定与这些语音或文字相对应的应答内容,并将应答内容输出给用户。这种处理方式仅能针对交互指令实现应答,人机交互方式过于单一单调,无法满足用户的个性化交互需求。
例如,在前述夸夸场景中,用户说“夸夸我吧”,则终端会针对这一人机交互指令,输出默认的夸奖用户的内容。不同的用户说“夸夸我吧”,终端输出的夸奖内容都是一致的,这显然难以满足用户的个性化交互需求,人机交互体验也较差。
本发明提供的技术方案,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明实施例提供了一种人机交互方法。请参考图1,该方法包括如下步骤:
S102,接收针对目标对象的交互指令。
具体而言,此处所指的交互指令,是指接收到来自于用户的语音数据或文本数据。
以前述夸夸场景为例,此处可以是接收到来自于用户的文本数据“夸夸我吧”,也可以是采集到用户发出的语音数据“夸夸我吧”。
此处所指的用户是指本发明实施例所应用的终端所属的用户。此时,目标对象可以为当前终端所属用户;或者,目标对象为与当前终端存在通信的对方用户。
示例性的,在前述夸夸场景中,对于任意一对司机端和乘客端为例,对司机端而言,若司机端发出的语音数据中包含有话术“夸夸我吧”或者“夸夸司机”,则该交互指令是针对自身的(当前终端所属的用户);或者,若司机端的发出的语音数据中包含有话术“夸夸乘客”,则该指定话术是针对当前通信的对方用户的,也就是,针对乘客端的。
反之,对乘客端而言,若乘客端发出的语音数据中包含有指定话术为“夸夸我吧”或者“夸夸乘客”,则该指定话术是针对自身的;或者,若乘客端的发出的语音数据中包含有指定话术“夸夸司机”,则该指定话术是针对当前通信的对方用户的,也就是,针对司机端的。
S104,确定目标对象的响应风格,响应风格与目标对象的历史数据相关。
本发明实施例所涉及到的历史数据可以包括但不限于:线上语音数据、个人账户数据、用户行为数据或离线记录数据中的一种或多种。
其中,线上语音数据来源于目标对象的线上语音。具体实现时,需要获取目标对象的历史线上语音,并对其进行语音识别后,得到相对应的文本,并将该文本作为一种历史数据。
个人账户数据来源于终端所属的目标对象的账户信息,个人账户数据可以包括但不限于:性格、使用打车APP(Application,应用程序)的下单数、信誉分值、性别等。对此不作穷举。
目标对象行为数据来自于历史的目标对象操作或目标对象反馈。示例性的,可以获取目标对象对历史推送的响应话术的评价反馈数据,作为一种历史数据。
离线记录数据来自于目标对象的历史语音识别或输入文本的离线端记录。
前述历史数据均能够直接或侧面体现目标对象个人喜好的响应风格,本发明实施例就据此来确定目标对象的响应风格。后续详述确定方式。
S106,根据响应风格与交互指令,确定响应话术。
在确定出响应风格后,即可基于前述交互指令,获取出具备该响应风格的响应话术。应当理解,响应话术的内容与交互指令相关。例如,若接收到的交互指令为“夸夸司机”,则此时响应话术的内容就是对司机的夸赞内容;若接收到的交互指令为“夸夸乘客”,则响应话术的内容就是对乘客的夸赞内容。
在此基础上,一种可能的实施例中,还可以预设每种响应风格对应的候选话术,从而,可以在确定的响应风格对应的多个候选话术中,确定出一个响应话术。此时,如何选择出一个响应话术,则可以有多种实现方式。示例性的,可以随机选择一个候选话术,以作为响应话术。示例性的,还可以将用户(或用户群体)使用频次最高的一个候选话术,作为响应话术。其中,用户群体的范围可以自定义设计。用户群体可以为所有用户、所有乘客端、所有司机端、用户所在区域(例如市、区或自定义区域,如5公里范围内的圆形区域内,等)内的所有用户,等。
除此之外的另一种实施例中,还可以预设每种响应风格对应的候选话术的优先级,然后,优先选择优先级较高的候选话术作为响应话术。
在该步骤的另一种实施例中,还可以对交互指令进行解析,得到交互指令的情感风格,然后,结合响应风格与情感风格,确定响应风格,进而,确定响应风格对应的响应话术。
在该实施例中,对交互指令进行解析的方式有多种。示例性的,可以采用文本情感解析或语音情感解析中的一种或多种。
示例性的,当接收到的交互指令为语音数据时,可以提取语音数据的音频特征,然后,对音频特征进行归一化处理,并组成特征向量,得到语音数据的语音特征。然后,利用训练好的情感分类器处理语音特征,得到该交互指令对应的情感风格。其中,情感分类器可以提前进行离线训练,并部署在终端设备上。或者,还可以实时的基于当前数据,进行在线训练。或者,还可以由终端设备提前进行情感分类器的训练。或者,还可以将情感分类器提前训练,并部署在云端,此时,终端设备具备云端数据的访问权限。
示例性的,当接收到的交互指令为文本数据时,还可以识别文本数据中的情感关联词,然后,根据情感关联词,确定该交互指令对应的情感风格。其中,情感关联词可以包括但不限于:语气词与程度词中的一种或多种。例如,语气词可以包括:“请”、“吧”、“呀”、“吗”等,程度词可以包括但不限于:“非常”、“很”、“狠”等,对此不作穷举。具体实现时,可以提前预设各情感关联词的情感风格分值,从而,可以识别文本数据中的所有情感关联词,然后,将这些情感关联词的情感风格分值进行加权处理(也可以直接求和或求平均),然后,将加权分值对应的风格作为交互指令对应的情感风格。
例如,针对交互指令的识别结果中包含有“非常好”,“狠夸”等非常正向的关键词时,则用户的个性化情感风格更倾向为采用非常热情的夸赞风格。
结合响应风格与情感风格,确定响应风格时,可以通过将二者进行归一化数值后处理的方式,将二者的归一化分值作加权处理(也可以直接求和或求平均),然后,将加权后的分值对应的风格,作为交互指令对应的情感风格。
实际场景中,也可以首先判断响应风格与情感风格是否一致。若一致,则二者所指示的风格即为响应风格。若二者不一致,则可以采用前述加权方式,来确定响应风格。
在该实施例中,本发明特别的将语音识别的文本内容,以及目标对象的行为以及账户信息等历史数据,作为个性化响应话术的参考因素之一;除此之外,单独的对交互指令进行解析,作为个性化响应的另一个参考因素。从而,将两种参考因素进行综合加权,将综合加权后的结果,作为最终结果评价一段时期内目标对象的性格倾向是哪种类型。
应当理解,这种加权结果不是一成不变的,而是随着目标对象使用数据的不断更新而定期在离线端更新目标对象的响应风格,从而更好地适应目标对象在不同时期内的波动(前提假设是目标对象的性格不是单一的而是多元的,是随着环境的变化而波动的)。使用这种加权方式能够更好的拟合目标对象的性格倾向,从而能够更好的对目标对象进行个性化推荐。
S108,向目标对象输出响应话术。
在该步骤中,基于已经确定了的响应话术,只需要向目标对象输出响应话术即可。
可以立即,基于交互指令所针对的目标对象的不同,在执行响应话术的输出时,则可以分别向自身或向对方用户输出响应话术。换言之,当交互指令针对自身时,直接输出针对该交互指令的响应话术;或者,当交互指令针对当前通信的对方用户时,向对方用户输出响应话术。
本发明实施例中,响应话术可以包括但不限于响应语音或响应文字中的一种或多种。换言之,当识别出语音数据中包含交互指令时,可以输出响应语音和/或输出响应文字。
需要说明的是,响应语音和响应文字的语义可以相同,部分场景中也可以不同。示例性的,若交互指令为“夸夸我吧”,则响应语音可以为“司机师傅最阳光”,响应文字也可以为“司机师傅最阳光”,二者语义一致。或者,若交互指令为“夸夸我吧”,则响应语音可以为“司机师傅最阳光”,响应文字可以为“风里雨里,感谢不辞辛苦的你”,二者的语义不同。实际场景中,可以自定义二者是否相同。
具体实现场景中,输出响应语音,还是输出响应文字,可以根据实际场景来确定。
示例性的一种场景中,在输出响应话术时,若当前终端为司机端,且司机端当前处于车辆驾驶状态,则可以仅输出响应语音。此时,避免输出响应文字分散司机注意力,避免由此导致的驾车安全问题。此外,在该场景中,还可以同时输出响应语音和响应文字。
示例性的另一种场景中,在输出响应话术时,可以检测终端是否处于音频或视频播放状态;若是,则输出响应文字;反之,则可以输出响应文字与响应语音中的一种或多种。例如,用户可能发出了“夸夸我吧”的语音,在终端尚未输出响应话术时,用户后来又打开了一个视频,那么,该场景中可以输出响应文字。其中,用户后来打开的视频可以为当前应用程序(Application,APP)中的视频,也可以为另一个APP中的视频,对此无特别限制。
响应话术可以显示在预设的显示界面里,也可以显示在状态栏或通知栏。例如,前述两种场景中,若司机端正处于车辆驾驶状态,则可以在当前的显示界面上输出响应话术;若当前终端正处于音视频播放状态,则可以在状态栏或通知栏中,小窗显示响应话术。
基于前述处理,本发明实施例中,当终端与用户进行人机交互时,可以根据目标对象的历史数据,来确定目标对象可能喜欢的响应风格,从而,可以结合响应风格和交互指令两个方面,来确定并输出响应话术,如此,使得响应话术更加贴近目标对象的个性化风格,即便是针对同一个交互指令,针对不同目标对象的响应话术可能不同,解决了现有的人机交互方式单一单调且无法满足用户个性化交互需求的问题,这也使得交互过程更加真实且具备趣味性。
现以图1所示实施例为基础,对本方案作进一步说明。
示例性的,图2示出了另一种人机交互方式。如图2所示,S104包括如下步骤:
S1042,获取目标对象的历史数据。
如前,只需要获取目标对象的一种或多种历史数据即可。
在执行该步骤时,可以仅获取目标对象最近一段时间,例如,最近一周、最近一月或最近三天,的历史数据,以降低较远的历史数据对响应风格的影响,使得响应风格更加符合用户当前一段时间的喜好。
应当理解,对于任意一个目标对象而言,其历史数据是在随时间推移而不断更新的。那么,针对同一个目标对象的同一个交互指令,终端输出的响应话术可以相同,也可以是不同的。例如,若用户喜好发生变化,则终端在S104确定出的响应风格就会不同,进而输出的响应话术,也可能不同。
S1044,对历史数据进行处理,得到目标对象的对象特征。
在前一步骤中,可能采集到文本数据,也可能采集到语音数据。此时,可以通过对语音数据进行语义识别的方式,获取到语音数据对应的文本数据。
在此基础上,只需要提取历史数据(已经全都转换为文本数据)中的特征词,然后,将这些特征词进行归一化后,整合为特征向量即可。其中,提取出的特征词可以包括但不限于:词频特征。
S1046,利用训练好的风格分类器处理对象特征,得到目标对象的响应风格。
本发明实施例中,风格分类器用于对历史数据进行风格分类。风格分类器可以提前进行离线训练,并部署在终端设备上。或者,还可以实时的基于当前数据,进行在线训练。或者,还可以由终端设备提前进行风格分类器的训练。或者,还可以将风格分类器提前训练,并部署在云端,此时,终端设备具备云端数据的访问权限。
风格分类器可以在离线端使用,其可以具体表现为一个小参数量的模型。具体而言,本发明实施例中,风格分类器可以由多层卷积神经网络(Convolutional NeuralNetwork,CNN)与多层全连接网络构成;或者,风格分类器可以由多层CNN残差网络与多层全连接网络构成。例如,风格分类器可以为5层CNN残差网络和3层全连接网络。
由此,风格分类器中不包含长短期记忆网络(Long Short Term Memory,LSTM)或者循环神经网络(Recurrent Neural Network,RNN)等对序列数据进行处理的网络结构,而是基于CNN网络构建残差网络来提取语音数据的隐层特征,然后,再利用多层全连接网络对残差网络输出的隐层特征进行映射,如此,经柔性最大值传输函数(softmax)分类输出得到多分类识别结果。
并且,相对于单一的全连接网络,本发明实施例所使用的风格分类器中,能够使用CNN网络结构抽取特征,从而,能够在保证识别精度的同时,有效控制网络参数规模不会过大,避免风格分类器规模巨大,难以在终端侧有效部署的问题。
本方面实施例中,风格分类器输出的风格识别结果,可以为多分类结果。
示例性的,为便于说明,根据夸奖程度,将响应风格划分为:狠夸(强烈夸赞,夸奖程度较高)、正常夸、微夸(轻微夸赞,夸奖程度较低)三种风格。
在此基础上,风格分类器输出的多分类结果,可以用于标识响应风格的风格概率,从而,将风格分类结果所指示的概率最高的一种风格,作为目标对象的响应风格。例如,风格分类器输出的风格识别结果可以为:狠夸70%,正常夸50%,微夸10%,那么,该风格识别结果所指示的响应风格为:狠夸。
此外,风格识别结果可以输出具备一个指示标识的多分类结果,此时,风格识别结果所指示的风格为具备指示标识的一种风格。指示标识可以为文字、数字、字符等中的一种或多种。举例说明。若1为指示标识,风格分类器输出的风格识别结果为:狠夸0,正常夸1,微夸0,那么,该风格识别结果所指示的响应风格为:正常夸。
除此之外,风格识别结果还可以输出风格分值,而各风格也分别对应于不同的分数区间,从而,风格识别结果所指示的风格,即为风格分值所落在的分数区间对应的一种风格。
基于前述处理,即可直接基于语音数据获取到风格识别结果,进而确定响应风格。
现对风格分类器的训练过程进行说明。
如前,风格分类器可以由终端来进行训练处理。
示例性的,图3示出了一种风格分类器的训练方法的流程示意图。该训练过程包括如下步骤:
S302,获取样本数据,包括样本对象的样本历史数据与样本风格。
样本数据可以来源于真实数据,也可以来自于制定数据。例如,开发人员可以制定样本数据,并输入终端中,以便于终端进行风格分类器的训练。
样本数据中包含的样本历史数据,与前述获取目标对象的历史数据的方式及内容均可以相同,此处不赘述。
而样本风格则可以由开发人员进行人工标注。
示例性的一种实施例中,终端还可以获取样本对象针对历史响应话术的反馈数据,然后,输出样本对象的信誉数据与反馈数据,并接收针对信誉数据与反馈数据的人工评价数据;人工评价数据用于指示样本风格。其中,信誉数据可以具体表现为信誉分,此处对信誉分的计算方式不作赘述。示例性的,当信誉分达到(大于,或者,大于或等于)80分时,样本对象为高信誉度用户,其反馈的信息的可靠性较高,这也能够给开发人员以参考,辅助开发人员对样本数据进行人工标注。其中,反馈数据可以包括但不限于:样本对象针对历史响应话术的内容是否正向。若无反馈,则可将其反馈数据默认为正向。
在该实施例中,虽然也是基于开发人员人工标注得到样本风格,但这种人工标注是基于终端输出的反馈数据与信誉数据来实现的,有利于辅助开发人员快速完成标注,尽可能降低人工花费的时间和成本。
基于人工标注,为各样本对象添加样本风格标签即可。样本风格标签具体可以为onehot标签。
S304,对样本数据进行特征提取,得到样本特征。
该步骤的特征提取方式,与针对历史数据进行特征提取的方式相同,可参考前文说明,此处不作赘述。
S306,利用样本特征,对预设的基础分类器进行训练,得到风格分类器。
具体训练时,使用端到端的训练方式,将提取到的样本特征作为输入,输出风格识别结果。然后,利用输出的风格识别结果与样本风格标签之间的差异情况,来调整分类器的参数,最终得到分类准确率较高的风格分类器。
在其训练过程中,还可以使用交叉熵计算损失,使用随机梯度下降法以及交叉验证,变学习率等方法进行模型优化。
基于前述处理,可以实现对风格分类器的训练。
除此之外,本发明实施例中,还可以利用实时的数据,对风格分类器进行更新。以图1所示实施例为例,终端在输出响应话术之后,还可以获取针对响应话术的操作信息,从而,利用响应话术与操作信息,对风格分类器进行更新。其中,操作信息可以为目标对象对响应话术进行评价或反馈的操作信息,这些操作信息也可以作为样本数据,来对风格分类器进行实时的模型更新。
示例性的,图4示出了一种司机端用户进行自夸的场景。如图4A所示,司机端用户可以在打车APP的司机端显示界面中,点击功能控件401进入夸夸界面,那么,终端可以显示如图4B所示界面。图4B为夸夸功能的显示界面,在该显示界面上,司机端用户可以发出语音,相应地,终端则采集实时的语音数据“夸夸我吧”(或者“夸夸司机”),也就接收到交互指令(S102)。之后,终端采集到语音数据后,可以执行前述S104和S106步骤,以确定司机端用户(目标对象)喜好的响应风格为正常夸,并据此确定具备该响应风格的响应话术。如图4C所示,终端在当前的显示界面中显示针对“夸夸我吧”的响应话术203,具体为:“风里雨里,感谢不辞辛苦来接我”。
除此之外,在图4B所示显示界面中,司机端用户还可以点击夸夸控件402,以触发夸夸功能,进而显示如图4C所示界面,不作赘述。在图4A所示的显示界面中,功能控件401中还可以对司机端新接收到的夸夸进行提示。
示例性的,图5示出了另一种司机端用户进行自夸的场景。如图5A所示,司机端用户可以在打车APP的司机端显示界面中,点击功能控件501进入夸夸界面,那么,终端可以显示如图5B所示界面。图5B为夸夸功能的显示界面,在该显示界面上,司机端用户可以发出语音,相应地,终端则采集实时的语音数据“夸夸我吧”(或者“夸夸司机”),也就接收到交互指令(S102)。之后,终端采集到语音数据后,可以执行前述S105和S106步骤,以确定司机端用户(目标对象)喜好的响应风格为狠夸,并据此确定具备该响应风格的响应话术。如图5C所示,终端在当前的显示界面中显示针对“夸夸我吧”的响应话术203,具体为:“司机师傅最阳光,最热心,最善良,最知冷知热!”。
对比图4与图5可知,针对不同的目标对象,基于其历史数据,可以得到各自喜好的响应风格,终端可以基于不同的响应风格来事件不同程度的夸赞(响应)。
除自夸之外,还可以对对方用户进行夸赞,此处不赘述。
以及,本发明实施例中,用户还可以具备修改响应话术的权限。
示例性的,图6示出了这种情况。图6为乘客端用户对司机端用户进行夸赞的场景。在图6A所示界面上,终端可以对司机端用户进行分析,确定司机端用户的喜好的响应风格后,当前确定的响应话术为“司机师傅最阳光,最热心,最善良,最知冷知热!”。若乘客端用户对该响应话术不满意,则可以点击话术切换控件601,以对响应话术进行切换。此时,终端显示图6B所示控件。如图6B所示,经乘客端用户操作之后,当前确定的响应话术为“司机师傅最阳光,是最可靠的人”。如此,可以由用户实现对响应话术的切换。之后,乘客端用户点击该显示界面上的发送控件602,终端即可将该响应话术发送至司机端。
在本发明实施例中,终端设备还可以对历史响应话术进行统计处理,并进行展示。
示例性的一种实施例中,终端设备还可以用于执行如下步骤:获取来自于其他用户的历史响应话术,然后,确定历史响应话术的输出总数,以及,根据历史响应话术,确定一个或多个话术标签,进而,显示输出总数与话术标签。
本发明实施例中,话术标签可以根据实际需要进行设计。示例性的,可以将历史响应话术的场景作为标签;还可以将历史响应话术的场景,以及,该场景中的历史响应话术的次数作为话术标签。
仍以图4~图6所示的夸夸场景为例。考虑到用户可以对自己进行夸夸,那么,在实际场景中,可以排除针对自己的夸夸的处理,而获取来自于其他用户的历史的夸夸数据,进行统计分析。例如,当前终端为司机端时,可以统计各个乘客端或其他司机端,对该司机端用户的夸夸数据,并统计这些夸夸的总数和话术标签,在该终端的显示界面上进行显示。例如,图4所示场景中,图4B的显示界面上,显示该司机端累积收到夸夸108次,这即为历史响应话术的输出总数。此外,图4B中还显示有3个话术标签,分别为:“雨天夸夸999+”、“深夜夸夸3”和“假日夸夸66”。该场景中的话术标签由夸夸场景和该场景中的夸夸次数构成。
可以理解的是,上述实施例中的部分或全部步骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。
基于上述方法实施例所提供的人机交互方法,本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
本发明实施例提供了一种终端,请参考图7,该终端700,包括:
接收模块72,用于接收针对目标对象的交互指令;
确定模块74,用于确定目标对象的响应风格,响应风格与目标对象的历史数据相关;
确定模块74,还用于根据响应风格与交互指令,确定响应话术;
输出模块76,用于向目标对象输出响应话术。
在一种可能的实施例中,历史数据包括:线上语音数据、个人账户数据、用户行为数据或离线记录数据中的一种或多种。
在另一种可能的实施例中,确定模块74,具体用于:
获取目标对象的历史数据;
对历史数据进行处理,得到目标对象的对象特征;
利用训练好的风格分类器处理对象特征,得到目标对象的响应风格。
在另一种可能的实施例中,风格分类器由多层卷积神经网络CNN与多层全连接网络构成;或者,
风格分类器由多层CNN残差网络与多层全连接网络构成。
在另一种可能的实施例中,终端700还包括训练模块(图7未示出),训练模块具体用于:
获取样本数据,包括样本对象的样本历史数据与样本风格;
对样本数据进行特征提取,得到样本特征;
利用样本特征,对预设的基础分类器进行训练,得到风格分类器。
在另一种可能的实施例中,训练模块,还具体用于:
获取样本对象针对历史响应话术的反馈数据;
输出样本对象的信誉数据与反馈数据;
接收针对信誉数据与反馈数据的人工评价数据;人工评价数据用于指示样本风格。
在另一种可能的实施例中,训练模块,还用于:
获取针对响应话术的操作信息;
利用响应话术与操作信息,对风格分类器进行更新。
在另一种可能的实施例中,确定模块74具体用于:
对交互指令进行解析,得到交互指令的情感风格;
结合响应风格与情感风格,确定响应风格;
确定响应风格对应的响应话术。
在另一种可能的实施例中,目标对象为当前终端所属用户;或者,目标对象为与当前终端存在通信的对方用户。
在另一种可能的实施例中,响应话术包括:响应语音或响应文字中的一种或多种。
图7所示实施例的终端700可用于执行上述方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图7所示终端700的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,获取模块73可以为单独设立的处理元件,也可以集成在终端700中,例如终端的某一个芯片中实现,此外,也可以以程序的形式存储于终端700的存储器中,由终端700的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个微处理器(digital singnal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central ProcessingUnit,CPU)或其它可以调用程序的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
并且,本发明实施例提供了一种终端,请参考图8,该终端700,包括:
存储器710;
处理器720;以及
计算机程序;
其中,计算机程序存储在存储器710中,并被配置为由处理器720执行以实现如上述实施例所述的方法。
其中,终端700中处理器720的数目可以为一个或多个,处理器720也可以称为处理单元,可以实现一定的控制功能。所述处理器720可以是通用处理器或者专用处理器等。在一种可选地设计中,处理器720也可以存有指令,所述指令可以被所述处理器720运行,使得所述终端700执行上述方法实施例中描述的方法。
在又一种可能的设计中,终端700可以包括电路,所述电路可以实现前述方法实施例中发送或接收或者通信的功能。
可选地,所述终端700中存储器710的数目可以为一个或多个,存储器710上存有指令或者中间数据,所述指令可在所述处理器720上被运行,使得所述终端700执行上述方法实施例中描述的方法。可选地,所述存储器710中还可以存储有其他相关数据。可选地处理器720中也可以存储指令和/或数据。所述处理器720和存储器710可以单独设置,也可以集成在一起。
此外,如图8所示,在该终端700中还设置有收发器730,其中,所述收发器730可以称为收发单元、收发机、收发电路、或者收发器等,用于与测试设备或其他终端设备进行数据传输或通信,在此不再赘述。
如图8所示,存储器710、处理器720与收发器730通过总线连接并通信。
若该终端700用于实现对应于图2中的方法时,例如,可以由收发器730输出响应话术。而处理器720用于完成相应的确定或者控制操作,可选的,还可以在存储器710中存储相应的指令。各个部件的具体的处理方式可以参考前述实施例的相关描述。
此外,本发明实施例提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行以实现如方法实施例所述的方法。
由于本实施例中的各模块能够执行方法实施例所示的方法,本实施例未详细描述的部分,可参考对方法实施例的相关说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (13)
1.一种人机交互方法,其特征在于,包括:
接收针对目标对象的交互指令;
确定所述目标对象的响应风格,所述响应风格与所述目标对象的历史数据相关;
根据所述响应风格与所述交互指令,确定响应话术;
向所述目标对象输出所述响应话术。
2.根据权利要求1所述的方法,其特征在于,所述历史数据包括:线上语音数据、个人账户数据、用户行为数据或离线记录数据中的一种或多种。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述目标对象的响应风格,包括:
获取所述目标对象的历史数据;
对所述历史数据进行处理,得到所述目标对象的对象特征;
利用训练好的风格分类器处理所述对象特征,得到所述目标对象的所述响应风格。
4.根据权利要求3所述的方法,其特征在于,所述风格分类器由多层卷积神经网络CNN与多层全连接网络构成;或者,
所述风格分类器由多层CNN残差网络与多层全连接网络构成。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取样本数据,包括样本对象的样本历史数据与样本风格;
对所述样本数据进行特征提取,得到样本特征;
利用所述样本特征,对预设的基础分类器进行训练,得到所述风格分类器。
6.根据权利要求5所述的方法,其特征在于,所述获取所述样本风格,包括:
获取所述样本对象针对历史响应话术的反馈数据;
输出所述样本对象的信誉数据与所述反馈数据;
接收针对所述信誉数据与所述反馈数据的人工评价数据;所述人工评价数据用于指示所述样本风格。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取针对所述响应话术的操作信息;
利用所述响应话术与所述操作信息,对所述风格分类器进行更新。
8.根据权利要求1或2所述的方法,其特征在于,所述根据所述响应风格与所述交互指令,确定响应话术,包括:
对所述交互指令进行解析,得到所述交互指令的情感风格;
结合所述响应风格与所述情感风格,确定响应风格;
确定所述响应风格对应的所述响应话术。
9.根据权利要求1或2所述的方法,其特征在于,所述目标对象为当前终端所属用户;或者,所述目标对象为与所述当前终端存在通信的对方用户。
10.根据权利要求1或2所述的方法,其特征在于,所述响应话术包括:响应语音或响应文字中的一种或多种。
11.一种终端,其特征在于,包括:
接收模块,用于接收针对目标对象的交互指令;
确定模块,用于确定所述目标对象的响应风格,所述响应风格与所述目标对象的历史数据相关;
所述确定模块,还用于根据所述响应风格与所述交互指令,确定响应话术;
输出模块,用于向所述目标对象输出所述响应话术。
12.一种终端,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,
所述计算机程序被处理器执行以实现如权利要求1-10任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010018047.6A CN111833854B (zh) | 2020-01-08 | 2020-01-08 | 一种人机交互方法与终端、计算机可读存储介质 |
PCT/CN2021/070720 WO2021139737A1 (zh) | 2020-01-08 | 2021-01-07 | 一种人机交互的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010018047.6A CN111833854B (zh) | 2020-01-08 | 2020-01-08 | 一种人机交互方法与终端、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833854A true CN111833854A (zh) | 2020-10-27 |
CN111833854B CN111833854B (zh) | 2024-07-16 |
Family
ID=72913373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010018047.6A Active CN111833854B (zh) | 2020-01-08 | 2020-01-08 | 一种人机交互方法与终端、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833854B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139737A1 (zh) * | 2020-01-08 | 2021-07-15 | 北京嘀嘀无限科技发展有限公司 | 一种人机交互的方法和系统 |
CN115101048A (zh) * | 2022-08-24 | 2022-09-23 | 深圳市人马互动科技有限公司 | 科普信息交互方法、装置、系统、交互设备和存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070198272A1 (en) * | 2006-02-20 | 2007-08-23 | Masaru Horioka | Voice response system |
US20110282669A1 (en) * | 2010-05-17 | 2011-11-17 | Avaya Inc. | Estimating a Listener's Ability To Understand a Speaker, Based on Comparisons of Their Styles of Speech |
CN106297789A (zh) * | 2016-08-19 | 2017-01-04 | 北京光年无限科技有限公司 | 智能机器人的个性化交互方法及交互系统 |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN106469212A (zh) * | 2016-09-05 | 2017-03-01 | 北京百度网讯科技有限公司 | 基于人工智能的人机交互方法和装置 |
CN107578771A (zh) * | 2017-07-25 | 2018-01-12 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN108597509A (zh) * | 2018-03-30 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 智能语音交互实现方法、装置、计算机设备及存储介质 |
CN108597503A (zh) * | 2018-05-09 | 2018-09-28 | 科大讯飞股份有限公司 | 测试语料生成方法、装置、设备及可读写存储介质 |
CN108711423A (zh) * | 2018-03-30 | 2018-10-26 | 百度在线网络技术(北京)有限公司 | 智能语音交互实现方法、装置、计算机设备及存储介质 |
KR20190069992A (ko) * | 2017-12-12 | 2019-06-20 | 세종대학교산학협력단 | 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템 |
CN110265021A (zh) * | 2019-07-22 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 个性化语音交互方法、机器人终端、装置及可读存储介质 |
CN110570844A (zh) * | 2019-08-15 | 2019-12-13 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置及计算机可读存储介质 |
CN110610705A (zh) * | 2019-09-20 | 2019-12-24 | 上海数鸣人工智能科技有限公司 | 一种基于人工智能的语音交互提示器 |
US20200005772A1 (en) * | 2018-06-28 | 2020-01-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Interactive method and device of robot, and device |
-
2020
- 2020-01-08 CN CN202010018047.6A patent/CN111833854B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070198272A1 (en) * | 2006-02-20 | 2007-08-23 | Masaru Horioka | Voice response system |
US20110282669A1 (en) * | 2010-05-17 | 2011-11-17 | Avaya Inc. | Estimating a Listener's Ability To Understand a Speaker, Based on Comparisons of Their Styles of Speech |
CN106297789A (zh) * | 2016-08-19 | 2017-01-04 | 北京光年无限科技有限公司 | 智能机器人的个性化交互方法及交互系统 |
WO2018040501A1 (zh) * | 2016-09-05 | 2018-03-08 | 北京百度网讯科技有限公司 | 基于人工智能的人机交互方法和装置 |
CN106469212A (zh) * | 2016-09-05 | 2017-03-01 | 北京百度网讯科技有限公司 | 基于人工智能的人机交互方法和装置 |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
CN107578771A (zh) * | 2017-07-25 | 2018-01-12 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
KR20190069992A (ko) * | 2017-12-12 | 2019-06-20 | 세종대학교산학협력단 | 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템 |
CN108597509A (zh) * | 2018-03-30 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 智能语音交互实现方法、装置、计算机设备及存储介质 |
CN108711423A (zh) * | 2018-03-30 | 2018-10-26 | 百度在线网络技术(北京)有限公司 | 智能语音交互实现方法、装置、计算机设备及存储介质 |
CN108597503A (zh) * | 2018-05-09 | 2018-09-28 | 科大讯飞股份有限公司 | 测试语料生成方法、装置、设备及可读写存储介质 |
US20200005772A1 (en) * | 2018-06-28 | 2020-01-02 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Interactive method and device of robot, and device |
CN110265021A (zh) * | 2019-07-22 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 个性化语音交互方法、机器人终端、装置及可读存储介质 |
CN110570844A (zh) * | 2019-08-15 | 2019-12-13 | 平安科技(深圳)有限公司 | 语音情绪识别方法、装置及计算机可读存储介质 |
CN110610705A (zh) * | 2019-09-20 | 2019-12-24 | 上海数鸣人工智能科技有限公司 | 一种基于人工智能的语音交互提示器 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139737A1 (zh) * | 2020-01-08 | 2021-07-15 | 北京嘀嘀无限科技发展有限公司 | 一种人机交互的方法和系统 |
CN115101048A (zh) * | 2022-08-24 | 2022-09-23 | 深圳市人马互动科技有限公司 | 科普信息交互方法、装置、系统、交互设备和存储介质 |
CN115101048B (zh) * | 2022-08-24 | 2022-11-11 | 深圳市人马互动科技有限公司 | 科普信息交互方法、装置、系统、交互设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111833854B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031000B2 (en) | Method and device for transmitting and receiving audio data | |
CN106201424B (zh) | 一种信息交互方法、装置及电子设备 | |
CN111739519B (zh) | 基于语音识别的对话管理处理方法、装置、设备及介质 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN110890088B (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN101272416A (zh) | 使用拒绝参考的语音拨号 | |
US11816609B2 (en) | Intelligent task completion detection at a computing device | |
CN111862938A (zh) | 一种智能应答方法与终端、计算机可读存储介质 | |
CN112052316B (zh) | 模型评估方法、装置、存储介质及电子设备 | |
CN111833854B (zh) | 一种人机交互方法与终端、计算机可读存储介质 | |
CN112966568A (zh) | 一种视频客服服务质量分析方法及装置 | |
CN111583919A (zh) | 信息处理方法、装置及存储介质 | |
KR20200092166A (ko) | 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN110516760A (zh) | 情境识别方法、装置、终端及计算机可读存储介质 | |
CN114822519A (zh) | 中文语音识别纠错方法、装置及电子设备 | |
CN111833907B (zh) | 一种人机交互方法与终端、计算机可读存储介质 | |
CN110781327A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN110226202B (zh) | 用于发送和接收音频数据的方法和设备 | |
CN111833865B (zh) | 一种人机交互方法与终端、计算机可读存储介质 | |
CN116403601A (zh) | 情绪识别模型训练方法及情绪识别方法、装置以及存储介质 | |
CN115841814A (zh) | 语音交互方法及电子设备 | |
CN113409766A (zh) | 一种识别方法、装置、用于识别的装置及语音合成方法 | |
CN111739518A (zh) | 音频的识别方法和装置、存储介质及电子设备 | |
KR102620070B1 (ko) | 상황 인지에 따른 자율발화 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |