CN110223697B - 人机对话方法及系统 - Google Patents

人机对话方法及系统 Download PDF

Info

Publication number
CN110223697B
CN110223697B CN201910510000.9A CN201910510000A CN110223697B CN 110223697 B CN110223697 B CN 110223697B CN 201910510000 A CN201910510000 A CN 201910510000A CN 110223697 B CN110223697 B CN 110223697B
Authority
CN
China
Prior art keywords
audio
answer instruction
sentence
client
time point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910510000.9A
Other languages
English (en)
Other versions
CN110223697A (zh
Inventor
宋洪博
朱成亚
石韡斯
樊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910510000.9A priority Critical patent/CN110223697B/zh
Publication of CN110223697A publication Critical patent/CN110223697A/zh
Priority to EP19932635.6A priority patent/EP3985661B1/en
Priority to JP2021572940A priority patent/JP7108799B2/ja
Priority to PCT/CN2019/120607 priority patent/WO2020248524A1/zh
Priority to US17/616,969 priority patent/US11551693B2/en
Application granted granted Critical
Publication of CN110223697B publication Critical patent/CN110223697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种人机对话方法。该方法包括:接收用户通过客户端上传的第一音频,标记第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;根据第一音频的开始时间点和结束时间点,确定第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;将至少第一识别结果和第二识别结果的组合发送至语言预测模型,当为一条语句时,生成组合语句对应的回答指令,将回答指令连同回答指令的反馈时间标记发送至客户端。本发明实施例还提供一种人机对话系统。本发明实施例解决了全双工对话场景下的不合理断句以及对话中回复出现冗余的问题。

Description

人机对话方法及系统
技术领域
本发明涉及智能语音对话领域,尤其涉及一种人机对话方法及系统。
背景技术
在一般的问答系统里面,问一句答一句,或者使用多轮交互,全双工交互希望可以达到的效果是类似人与人之间打电话一样,不仅仅是一问一答,可能是用户说多句话,然后机器人回答一下;甚至机器人可以主动提问来帮助交互,采用节奏控制技术,来根据用户话量大小与内容,调整自己的话量。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
1、答非所问,根据现有设备的响应结果,到达客户端的语句会连续播报,当网络延时或服务端处理延时较大时,响应到达客户端,已经失去了时效性,对客户端的响应测量完全在服务端实现,客户端没有实现相对时间对齐的策略,不能有选择的去丢弃某些响应,保持与服务端相同的会话状态。但用户已经开始了下一轮输入,客户端此时连续播报多条之前输入的内容,会导致输入输出不对应,也就是答非所问的情况,从而导致用户体验较差。
2、不合理断句,用户在不同场景下,说话节奏会有所不同,紧紧靠着声学特征去断句,会导致用户还没说完,提前响应了相应的问题,也会导致用户明明说完了,但是却要等待较长的时间;上传音频不连续,服务端不能准确判断两句话之间的实际间隔时间,不能判断两句话是否由于网络延时导致的两句间隔较长,导致不能合理决策响应内容。
发明内容
为了至少解决现有技术中由于回答失去了时效性,导致输入输出内容不对应,上下音频不连续导致不合理断句,从而不能合理决策响应内容的问题。
第一方面,本发明实施例提供一种人机对话方法,应用于服务器,包括:
接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,以通过客户端完成人机对话,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点。
第二方面,本发明实施例提供一种人机对话方法,应用于客户端,包括:
向服务器连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
第三方面,本发明实施例提供一种人机对话方法,应用于语音对话平台,所述语音对话平台包括服务器端和客户端,其特征在于,所述方法包括:
客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;
客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
第四方面,本发明实施例提供一种人机对话系统,应用于服务器,包括:
识别解码程序模块,用于接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
短句确定程序模块,用于根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
语句判断程序模块,用于将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,以通过客户端完成人机对话,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点。
第五方面,本发明实施例提供一种人机对话系统,应用于客户端,包括:
音频上传程序模块,用于向服务器连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
音频匹配程序模块,用于依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
人机对话程序模块,用于根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
第六方面,本发明实施例提供一种人机对话系统,应用于语音对话平台,所述语音对话平台包括服务器端和客户端,其特征在于,所述方法包括:
音频上传程序模块,用于客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
识别解码程序模块,用于服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
短句确定程序模块,用于服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
语句判断程序模块,用于服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;
音频匹配程序模块,用于客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
人机对话程序模块,用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
第七方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的人机对话方法的步骤。
第八方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的人机对话方法的步骤。
本发明实施例的有益效果在于:在确保用户先说出的语句是短句的同时使用心跳事件来处理两句话的时间间隔,在确保两句话可以组合成完整的语句后解决了全双工对话场景下的不合理断句。记录音频的开始时间点和结束时间点将用户输入的音频和服务器返回的回答指令进行匹配,保证了答复用户的准确性,在此基础上,通过设定不同的时间偏移,来处理用户与智能语音设备交互中的不同状况,解决了全双工对话中回复出现冗余的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种应用于服务器的人机对话方法的流程图;
图2是本发明一实施例提供的一种应用于客户端的人机对话方法的流程图;
图3是本发明一实施例提供的一种应用于语音对话平台的人机对话方法的流程图;
图4是本发明一实施例提供的一种应用于服务器的人机对话系统的结构示意图;
图5是本发明一实施例提供的一种应用于客户端的人机对话系统的结构示意图;
图6是本发明一实施例提供的一种应用于语音对话平台的人机对话系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种人机对话方法的流程图,应用于服务器,包括如下步骤:
S11:接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
S12:根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
S13:将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,以通过客户端完成人机对话,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点。
在本实施方式中,现有的用户与智能设备的全双工对话会有以下场景:
用户:我想听(短停顿)周杰伦的歌
智能语音设备:你想听什么?
智能语音设备:下面为您播放周杰伦的稻香。
用户说“我想听”是不完整的句子,但是智能语音设备却对“我想听”做出回复,增加了一轮无意义的对话。本方法为了避免智能语音设备对“我想听”这类稍作停顿的不完整语句,做出无意义的对话回复。
对于步骤S11,同样的,当用户说:我想听(短停顿)周杰伦的歌,由于“我想听”后有短停顿,将其确定为第一音频,“周杰伦的歌”确定为第二音频。服务器接收用户通过智能语音设备客户端上传的第一音频“我想听”,标记所述第一音频开始时间点和结束时间点,通过音频解码器生成第一音频的第一识别结果。
对于步骤S12,根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,例如,由于录音长度和时间是正比的关系,从而可以根据收到音频的大小计算出音频的相对时间。进而将通话时间较短的音频确定为短句。例如“我想听”这就是短句。当确定第一音频为短句时,如果在预设置好的心跳保护时间范围内,接收到了客户端上传的第二音频,从而进一步的表现出“第一音频”没说完。其中,心跳保护时间在心跳检测在网络程序中常常被用到,在客户端和服务器之间暂时没有数据交互时,就需要心跳检测对方是否存活。心跳检测可以由客户端主动发起,也可以由服务器主动发起。
对于步骤S13,至少将所述第一识别结果“我想听”和所述第二识别结果“周杰伦的歌”的组合“我想听周杰伦的歌”发送至语言模型,来判断所组合的语句是否为一条完整的语句。
通过语言模型判断,确定“我想听周杰伦的歌”是一条完整的语句。从而生成“我想听周杰伦的歌”对应的回答指令,从而将所述回答指令,并连同所述回答指令的反馈时间标记发送至客户端,从而通过客户端完成人机对话。(反馈时间标记为了解决答非所问的问题,在下述实施例中会进行说明)
通过该实施方式可以看出,在确保用户先说出的语句是短句的同时使用心跳事件来处理两句话的时间间隔,在确保两句话可以组合成完整的语句后解决了全双工对话场景下的不合理断句。
作为一种实施方式,在本实施例中,在判断所述组合语句是否为一条语句之后,所述方法还包括:
当不是一条语句时,分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。
在本实施方式中,如果第一识别结果和第二识别结果组合不到同一条语句中时,此时,由于两句话说的内容不相关,也就涉及不到不合理断句的问题。进而分别生成对应于所述第一识别结果的第一回答指令和所述第二结果的第二回答指令,并连同各自的反馈时间标记发送至客户端。
通过该实施方式可以看出,当两句话不相关时,对用户的每一个对话,都有相应的回答,保证全双工对话的稳定运行。
如图2所示为本发明一实施例提供的一种人机对话方法的流程图,应用于客户端,包括如下步骤:
S21:向服务器连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
S22:依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
S23:根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
在本实施方式中,现有的用户与智能设备的全双工对话又会有以下场景:
用户:我想听首歌
用户:周杰伦的稻香
智能语音设备:你想听谁的歌?
智能语音设备:好的,为您播放周杰伦的稻香。
用户在第一句话回复后,又补充了第二句话,但是,由于回复的顺序与输入相对应,用户输入的话又过快,导致了用户在输入第二句话时,已经将后输出第一句的问题给解答了,使得智能语音设备输出的第一句话属于冗余的回复,本方法为了避免这种情况而进行了调整。
对于步骤S21,同样的,当用户说:我想听首歌,周杰伦的稻香,依次向服务器连续传送,同时,在本地记录所述音频的开始时间点和结束时间点作为输入时间标记;
对于步骤S22,由于用户说的“我想听首歌”、“周杰伦的稻香”都是完整的语句,会接收到服务器反馈的两条回答指令,以及反馈时间标记。在本实施例中,由于输入的是两个整句,在接收时,会有两个指令。如果在本方法使用实施例1中的语句,那么在接收时,只会有一个指令。由于是全双工对话,客户端要知道服务器返回的回答指令是对应的哪一条输入的语句,因此通过之前的时间标记进行匹配对应。
对于步骤S23,根据用户输入的音频的输入时间标记,与客户端当前时间产生的时间偏移,其中客户端当前时间产生的偏移可以根据具体的情况进行调整,例如,在全双工对话时,有两种情况:
第一种情况,为上述举例所述,用户连续的第二句输入,已经隐含了智能语音设备的第一回复语句的内容,使得第一回复语句已经无意义,也就是说,第二句话输入了,第一句话还没有回答时,第一句话就没有必要回复了,此时,时间偏移设定为与第二句话的输入时间相关。
第二种情况,用户连续输入的两句话没有关系,例如“现在几点了”“给我订个餐”,此时,智能语音设备依次回复,第一回复内容和第二回复内容没有影响。
在此基础上,由于用户输入的问题,服务器在处理起来比较复杂,占用的时间较长,或者由于网络波动,导致在服务器处理好回答指令后发送给客户端时间已经延迟很久(例如2分钟,全双工对话中,这种延迟回复会极度影响用户体验),这些延迟很久的回答指令也已经显得无意义了,此时,时间偏移设定为与预设的回复等待时间相关(这类比较常见,具体实施方式就不赘述了)。
因此,可以针对这不同的情况,对客户端当前时间产生的偏移进行不同的设定,来适应不同的情况。
通过将客户端当前时间产生的偏移设定为第一种情况时,就根据时间偏移,确定所述第一句话的回答指令已经超时,丢弃所述第一句话的回答指令,这样,在回复时,避免出现冗余的回复。
1、用户:我想听首歌
2、用户:周杰伦的稻香
智能语音设备:你想听谁的歌?(丢弃,不向用户输出)
3、智能语音设备:好的,为您播放周杰伦的稻香。
通过该实施方式可以看出,记录音频的开始时间点和结束时间点将用户输入的音频和服务器返回的回答指令进行匹配,保证了答复用户的准确性,在此基础上,通过设定不同的时间偏移,来处理用户与智能语音设备交互中的不同状况,解决了全双工对话中回复出现冗余的问题。
如图3所示为本发明一实施例提供的一种人机对话方法的流程图,应用于语音对话平台,包括如下步骤:
S31:客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
S32:服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
S33:服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
S34:服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;
S35:客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
S36:客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
作为一种实施方式,在本实施例中,在所述判断所述组合是否为一条语句之后,所述方法还包括:
当不是一条语句时,服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端;
客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
在本实施方式中,将客户端与服务器应用到语音对话平台中,作为一个实施整体。具体实施步骤在上述实施例中已经说明,在此不再赘述。
通过该实施方式可以看出,在确保用户先说出的语句是短句的同时使用心跳事件来处理两句话的时间间隔,在确保两句话可以组合成完整的语句后解决了全双工对话场景下的不合理断句。记录音频的开始时间点和结束时间点将用户输入的音频和服务器返回的回答指令进行匹配,保证了答复用户的准确性,在此基础上,通过设定不同的时间偏移,来处理用户与智能语音设备交互中的不同状况,解决了全双工对话中回复出现冗余的问题。
如图4所示为本发明一实施例提供的一种人机对话系统的结构示意图,该系统可执行上述任意实施例所述的人机对话方法,并配置在终端中。
本实施例提供的一种人机对话系统,应用于服务器,包括:识别解码程序模块11,短句确定程序模块12和语句判断程序模块13。
其中,识别解码程序模块11用于接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;短句确定程序模块12用于根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;语句判断程序模块13用于将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,当为一条语句时,生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,以通过客户端完成人机对话,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点。
进一步地,在判断所述组合语句是否为一条语句之后,所述语句判断程序模块还用于:
当不是一条语句时,分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。
如图5所示为本发明一实施例提供的一种人机对话系统的结构示意图,该系统可执行上述任意实施例所述的人机对话方法,并配置在终端中。
本实施例提供的一种人机对话系统,应用于客户端,包括:音频上传程序模块21,音频匹配程序模块22和人机对话程序模块23。
其中,音频上传程序模块21用于向服务器连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;音频匹配程序模块22用于依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;人机对话程序模块23用于根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移,判断所述回答指令是否超时,当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
如图6所示为本发明一实施例提供的一种人机对话系统的结构示意图,该系统可执行上述任意实施例所述的人机对话方法,并配置在终端中。
本实施例提供的一种人机对话系统,应用于语音对话平台,所述语音对话平台包括服务器端和客户端,包括:音频上传程序模块31,识别解码程序模块32,短句确定程序模块33,语句判断程序模块34,音频匹配程序模块35和人机对话程序模块36。
其中,音频上传程序模块31用于客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;识别解码程序模块32用于服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;短句确定程序模块33用于服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;语句判断程序模块34用于服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;音频匹配程序模块35用于客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;人机对话程序模块36用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
进一步地,在所述判断所述组合是否为一条语句之后,所述短句确定程序模块还用于:当不是一条语句时,服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端;
音频匹配程序模块,用于客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
人机对话程序模块,用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的人机对话方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;
客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的人机对话方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的人机对话方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有语音对话功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种全双工的人机对话方法,应用于服务器,包括:
接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,以通过客户端完成全双工的人机对话,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点。
2.根据权利要求1所述的方法,其中,在判断所述组合语句是否为一条语句之后,所述方法还包括:
当不是一条语句时,分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。
3.一种全双工的人机对话方法,应用于语音对话平台,所述语音对话平台包括服务器端和客户端,其特征在于,所述方法包括:
客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;
客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成全双工的人机对话。
4.根据权利要求3所述的方法,其中,在所述判断所述组合是否为一条语句之后,所述方法还包括:
当不是一条语句时,服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端;
客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
5.一种全双工的人机对话系统,应用于服务器,包括:
识别解码程序模块,用于接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
短句确定程序模块,用于根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,接收到客户端上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
语句判断程序模块,用于将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,以通过客户端完成全双工的人机对话,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点。
6.根据权利要求5所述的系统,其中,在判断所述组合语句是否为一条语句之后,所述语句判断程序模块还用于:
当不是一条语句时,分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。
7.一种全双工的人机对话系统,应用于语音对话平台,所述语音对话平台包括服务器端和客户端,其特征在于,包括:
音频上传程序模块,用于客户端向服务器端连续上传用户输入的第一音频以及第二音频,将所述音频的开始时间点和结束时间点作为输入时间标记;
识别解码程序模块,用于服务器端接收用户通过客户端上传的第一音频,标记所述第一音频的开始时间点和结束时间点,利用音频解码器生成第一音频的第一识别结果;
短句确定程序模块,用于服务器端根据所述第一音频的开始时间点和结束时间点,确定所述第一音频是否为短句,当为短句时,若在预设的心跳保护时间范围内,服务器端接收到客户端连续上传的第二音频,利用音频解码器生成第二音频的第二识别结果;
语句判断程序模块,用于服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型,判断所述组合语句是否为一条语句,
当为一条语句时,服务器端生成所述组合语句对应的回答指令,将所述回答指令连同所述回答指令的反馈时间标记发送至客户端,其中,所述反馈时间标记包括:所述回答指令对应语句的开始时间点和结束时间点;
音频匹配程序模块,用于客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
人机对话程序模块,用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,
当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成全双工的人机对话。
8.根据权利要求7所述的系统,其中,在所述判断所述组合是否为一条语句之后,所述短句确定程序模块还用于:当不是一条语句时,服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令,将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端;
音频匹配程序模块,用于客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记,通过对所述输入时间标记与所述反馈时间标记进行匹配,确定所述回答指令对应的用户输入的音频;
人机对话程序模块,用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移,判断所述回答指令是否超时,当所述回答指令超时时,丢弃所述回答指令,当所述回答指令没有超时时,将所述回答指令反馈给用户,以完成人机对话。
CN201910510000.9A 2019-06-13 2019-06-13 人机对话方法及系统 Active CN110223697B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910510000.9A CN110223697B (zh) 2019-06-13 2019-06-13 人机对话方法及系统
EP19932635.6A EP3985661B1 (en) 2019-06-13 2019-11-25 Method of man-machine interaction and voice dialogue platform
JP2021572940A JP7108799B2 (ja) 2019-06-13 2019-11-25 ヒューマンマシン対話方法及び電子デバイス
PCT/CN2019/120607 WO2020248524A1 (zh) 2019-06-13 2019-11-25 人机对话方法及电子设备
US17/616,969 US11551693B2 (en) 2019-06-13 2019-11-25 Method of man-machine interaction and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910510000.9A CN110223697B (zh) 2019-06-13 2019-06-13 人机对话方法及系统

Publications (2)

Publication Number Publication Date
CN110223697A CN110223697A (zh) 2019-09-10
CN110223697B true CN110223697B (zh) 2022-04-22

Family

ID=67816846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910510000.9A Active CN110223697B (zh) 2019-06-13 2019-06-13 人机对话方法及系统

Country Status (5)

Country Link
US (1) US11551693B2 (zh)
EP (1) EP3985661B1 (zh)
JP (1) JP7108799B2 (zh)
CN (1) CN110223697B (zh)
WO (1) WO2020248524A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223697B (zh) 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及系统
CN112786031B (zh) * 2019-11-01 2022-05-13 思必驰科技股份有限公司 人机对话方法及系统
CN112992136A (zh) * 2020-12-16 2021-06-18 呼唤(上海)云计算股份有限公司 智能婴儿监护系统及方法
CN112783324B (zh) * 2021-01-14 2023-12-01 科大讯飞股份有限公司 人机交互方法及设备、计算机存储介质
CN112995419B (zh) * 2021-02-05 2022-05-24 支付宝(杭州)信息技术有限公司 一种语音对话的处理方法和系统
CN114141236B (zh) * 2021-10-28 2023-01-06 北京百度网讯科技有限公司 语言模型更新方法、装置、电子设备及存储介质
CN113705250B (zh) * 2021-10-29 2022-02-22 北京明略昭辉科技有限公司 会话内容识别方法、装置、设备及计算机可读介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004309631A (ja) * 2003-04-03 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対話練習支援装置、方法及びプログラム
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
CN107066568A (zh) * 2017-04-06 2017-08-18 竹间智能科技(上海)有限公司 基于用户意图预测的人机对话方法及装置
CN107920120A (zh) * 2017-11-22 2018-04-17 北京小米移动软件有限公司 业务处理方法、装置及计算机可读存储介质
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN109584876A (zh) * 2018-12-26 2019-04-05 珠海格力电器股份有限公司 语音数据的处理方法、装置和语音空调
CN109741753A (zh) * 2019-01-11 2019-05-10 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、终端及服务器

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
KR20000045128A (ko) * 1998-12-30 2000-07-15 김영환 단문,음성,영상 서비스가 가능한 코드분할다중접속 방식의통신 단말기
CN103413549B (zh) * 2013-07-31 2016-07-06 深圳创维-Rgb电子有限公司 语音交互的方法、系统以及交互终端
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
CN105845129A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统
CN106469212B (zh) 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN108237616B (zh) 2016-12-24 2024-01-23 广东明泰盛陶瓷有限公司 一种陶瓷注模装置
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
WO2019031268A1 (ja) 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
US10897432B2 (en) * 2017-12-04 2021-01-19 Microsoft Technology Licensing, Llc Chat-enabled messaging
JP7096707B2 (ja) 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN108882111A (zh) * 2018-06-01 2018-11-23 四川斐讯信息技术有限公司 一种基于智能音箱的交互方法及系统
CN108920604B (zh) 2018-06-27 2019-08-13 百度在线网络技术(北京)有限公司 语音交互方法及设备
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN109147831A (zh) * 2018-09-26 2019-01-04 深圳壹账通智能科技有限公司 一种语音连接播放方法、终端设备及计算机可读存储介质
CN110223697B (zh) * 2019-06-13 2022-04-22 思必驰科技股份有限公司 人机对话方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004309631A (ja) * 2003-04-03 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対話練習支援装置、方法及びプログラム
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
CN107066568A (zh) * 2017-04-06 2017-08-18 竹间智能科技(上海)有限公司 基于用户意图预测的人机对话方法及装置
CN107920120A (zh) * 2017-11-22 2018-04-17 北京小米移动软件有限公司 业务处理方法、装置及计算机可读存储介质
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN109584876A (zh) * 2018-12-26 2019-04-05 珠海格力电器股份有限公司 语音数据的处理方法、装置和语音空调
CN109741753A (zh) * 2019-01-11 2019-05-10 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、终端及服务器

Also Published As

Publication number Publication date
US20220165269A1 (en) 2022-05-26
EP3985661B1 (en) 2024-02-28
US11551693B2 (en) 2023-01-10
EP3985661A1 (en) 2022-04-20
CN110223697A (zh) 2019-09-10
JP2022528582A (ja) 2022-06-14
JP7108799B2 (ja) 2022-07-28
EP3985661A4 (en) 2022-08-03
WO2020248524A1 (zh) 2020-12-17

Similar Documents

Publication Publication Date Title
CN110223697B (zh) 人机对话方法及系统
US10832686B2 (en) Method and apparatus for pushing information
CN110288997B (zh) 用于声学组网的设备唤醒方法及系统
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
CN108920128B (zh) 演示文稿的操作方法及系统
CN109951743A (zh) 弹幕信息处理方法、系统及计算机设备
EP3400597A1 (en) Speech recognition
CN109361527B (zh) 语音会议记录方法及系统
CN107463636B (zh) 语音交互的数据配置方法、装置及计算机可读存储介质
WO2017151415A1 (en) Speech recognition
WO2017151406A1 (en) Conversational software agent
WO2017151417A1 (en) Speech recognition
CN109671429B (zh) 语音交互方法及设备
CN110246501B (zh) 用于会议记录的语音识别方法及系统
CN110209792B (zh) 对话彩蛋生成方法及系统
CN112700767B (zh) 人机对话打断方法及装置
CN112447177B (zh) 全双工语音对话方法及系统
CN108182942B (zh) 一种支持不同虚拟角色交互的方法和装置
CN114760274B (zh) 在线课堂的语音交互方法、装置、设备及存储介质
CN111968630B (zh) 信息处理方法、装置和电子设备
CN112786031B (zh) 人机对话方法及系统
CN110290057B (zh) 一种信息处理方法及信息处理装置
CN112861542A (zh) 限定场景语音交互方法和装置
CN112133300B (zh) 多设备的交互方法、相关设备和系统
KR102577643B1 (ko) 온라인 일대일 한국어 강의 플랫폼 시스템 및 이에 포함된 운영 서버

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant