CN111739506A - 一种应答方法、终端及存储介质 - Google Patents

一种应答方法、终端及存储介质 Download PDF

Info

Publication number
CN111739506A
CN111739506A CN201911147594.8A CN201911147594A CN111739506A CN 111739506 A CN111739506 A CN 111739506A CN 201911147594 A CN201911147594 A CN 201911147594A CN 111739506 A CN111739506 A CN 111739506A
Authority
CN
China
Prior art keywords
prediction
intention
answer
determining
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911147594.8A
Other languages
English (en)
Other versions
CN111739506B (zh
Inventor
张文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huijun Technology Co ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201911147594.8A priority Critical patent/CN111739506B/zh
Priority to EP20890060.5A priority patent/EP4053836A4/en
Priority to US17/775,406 priority patent/US20220399013A1/en
Priority to PCT/CN2020/111150 priority patent/WO2021098318A1/zh
Publication of CN111739506A publication Critical patent/CN111739506A/zh
Application granted granted Critical
Publication of CN111739506B publication Critical patent/CN111739506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种应答方法、终端及存储介质,所述应答方法包括:在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字;根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答;继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻;根据第一预测意图和第二预测意图,判断是否满足预设应答条件;若判定满足预设应答条件,则按照待推送答案进行应答处理。

Description

一种应答方法、终端及存储介质
技术领域
本发明涉及终端技术领域,尤其涉及一种应答方法、终端及存储介质。
背景技术
随着移动互联网的高速发展,语音识别及其相关技术成为最自然高效的人机交互手段之一,广泛应用于语音拨号、语音导航、智能家居控制、语音搜索、听写数据录入等场景。语音识别是指通过从音频数据中获取到有用的信息,并利用相关技术对音频数据进行识别,将音频数据转换为文字信息的过程。
在实际应用中,面向大篇幅的语音信号输入进行语音识别时,往往是在用户讲话结束后,才进行语音识别、意图识别以及答案组装等过程,然后再根据组装后的答案进行应答处理,严重影响了应答处理的处理效率;并且在进行意图识别时,单一的识别意图导致了用户意图丢失的缺陷,降低了应答处理的准确性。
发明内容
本申请实施例提供了一种应答方法、终端及存储介质,不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种应答方法,所述方法包括:
在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;
根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;
继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;
根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;
若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
本申请实施例提供了一种终端,所述终端包括:确定单元,判断单元以及处理单元,
所述确定单元,用于在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;
所述确定单元,还用于根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;
所述确定单元,还用于继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;
所述判断单元,用于根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;
所述处理单元,用于若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
本申请实施例提供了一种终端,所述终端包括处理器、存储有所述处理器可执行指令的存储器,当所述指令被所述处理器执行时,实现如上所述的应答方法。
本申请实施例提供了一种计算机可读存储介质,其上存储有程序,应用于终端中,所述程序被处理器执行时,实现如上所述的应答方法。
本申请实施例提供了一种应答方法、终端及存储介质,终端在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字;根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答;继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻;根据第一预测意图和第二预测意图,判断是否满足预设应答条件;若判定满足预设应答条件,则按照待推送答案进行应答处理。也就是说,在本申请的实施例中,终端通过实时语音识别处理,对输入的语音信息进行连续意图预测,提前进行答案组装,并将答案暂存,在判定当前满足预设应答条件时,推送答案以实现应答处理。不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
附图说明
图1为本申请提出的语音应答系统结构示意图;
图2为本申请提出的应答方法的实现流程示意图一;
图3为本申请提出的实时识别整合示意图;
图4为本申请提出的满足预设应答条件的示意图;
图5为本申请提出的应答方法的实现流程示意图二;
图6为本申请提出的不满足预设应答条件的示意图;
图7为本申请提出的终端的组成结构示意图一;
图8为本申请提出的终端的组成结构示意图二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
随着移动互联网的高速发展,语音识别及其相关技术成为最自然高效的人机交互手段之一,广泛应用于语音拨号、语音导航、智能家居控制、语音搜索、听写数据录入等场景。语音识别(Automatic Speech Recognition,ASR)是指通过从音频数据中获取到有用的信息,并利用相关技术对音频数据进行识别,将音频数据转换为文字信息的过程,也就是让机器通过识别和理解过程把语言信号转变为相应的文本或命令的高技术,相当于人的耳朵+嘴巴。
语音合成(Text-To-Speech,TTS)技术是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术,类比于人类的嘴巴。进一步地,语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。
应答系统是用于实现人机口语对话的系统,其前端是一个语音识别器,通过对输入的语音信息进行语音识别处理,将语音信息转换成对应的文本,然后调用自然语音理解(Natural Language Understanding,NLU)技术来进行实体识别以及意图识别,在经过意图比较,继承,融合等方案后,得出唯一得分最高的意图,并根据该得分最高的意图进行答案组装,以及进一步对组装后得到的答案进行语音合成处理,将文字信息转换为声音(朗读出来),进而实现语音应答。
在实际应用中,由于用户对系统的响应速度有着越来越高的要求,现有技术中的应答机制,往往是在用户讲话结束后,即识别到语音输入结束标识后,才确定进行语音识别处理,并根据获取到的识别结果进行意图识别以及答案组装等过程,使得答案组装存在一个不可逾越的时间起点(用户讲话结束),严重影响了应答处理的处理效率,且在面向大篇幅的语音信号输入进行语音识别时,该应答效率低下的缺陷更为明显;同时,在对大篇幅语音信号进行意图识别时,现有的应答机制,会将该语音输入信息认为是完整的一句话,并且只会保留一个唯一的意图,由于大篇幅语音信号都不仅仅是一个单一的意图,因此,单一的识别意图将会造成用户意图丢失的缺陷,降低应答处理的准确性。
为了解决现有的应答机制所存在的问题,本申请实施例提供了一种应答方法,其中,终端通过实时语音识别处理,对输入的语音信息进行连续意图预测,提前进行答案组装,并将答案暂存,在判定当前满足预设应答条件时,推送答案以实现应答处理。不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请一实施例提供了一种应答方法,该应答方法应用于终端。终端设置有语音应答系统,图1为本申请语音应答系统结构示意图,如图1所示,语音应答系统100包括:语音连续识别模块101,意图预测模块102、意图管理模块103、答案组装模块104、答案决策模块105以及语音应答模块106。其中,语音连续识别模块101将输入的语音信息实时转换成对应的文本信息;意图预测模块102和意图管理模块103进行意图的预测以及对预测意图是否正确进行决策;答案组装模块104根据意图预测模块预测出的意图进行答案组装,进而得到待推送答案;答案决策模块105提供待推送答案的暂存以及接收意图管理模块对预测意图的决策结果,并进一步根据意图管理模块对预测意图的决策结果实现待推送答案的发送或者丢弃;语音应答模块106将待推送对应的文本信息转换成语音信息。
图2为本申请提出的应答方法的实现流程示意图一,如图2所示,在本申请的实施例中,终端进行应答处理的方法可以包括以下步骤:
步骤1001、在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字。
在本申请的实施例中,终端可以在第一时刻通过语音识别处理确定出第一时刻对应的第一目标文字。
需要说明的是,在本申请的实施例中,终端可以为任何具备通信和存储功能、且设置有语音应答系统的设备。例如:平板电脑、手机、智能音箱、智能电视、智能空气净化器、智能空调、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器等设备。
需要说明的是,在本申请的实施例中,在第一时刻,终端根据第一时刻获取到的语音信息确定第一目标文字。具体地,终端获取第一时刻对应的第一语音信息,通过语音连续识别模块对第一语音信息进行语音识别处理,将第一语音信息转换成第一目标文字,进而确定出第一时刻对应的第一目标文字。其中,终端获取到的第一语音信息可以是终端自身通过音频采集组件采集到的;或者,也可以是其他设备通过音频采集组件采集到后发送给终端的,其他设备是与终端相独立的电子设备。
需要说明的是,在本申请的实施例中,语音连续识别模块基于“声学模型”和“语言模型”对第一语音信息进行语音识别处理,从而确定出第一语音信息对应的第一目标文字,其中,声学模型(Acoustic model,AM)是通过对语音数据进行训练获得,输入是特征向量,输出为音素信息;语言模型(language model,LM)为通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。具体地,首先对获取到的第一时刻对应的第一语音信息进行预处理,提取语音的特征信息,然后通过“声学模型”确定出与该特征信息对应的音素信息,即第一语音信息对应的音素信息,继续通过“字典”找出该音素对应的所有字或者词,并通过“语言模型”得到该音素对应的字或者词相互关联的概率,从而进一步通过“解码”确定出第一语音信息对应的最佳目标文字,即第一目标文字。
需要说明的是,在本申请的实施例中,终端通过语音连续识别模块实现语音连续识别处理,不需要再去寻找句子结束标志,不在将整通会话看作一个整体。具体地,终端对语音信息进行实时采集,并通过语音连续识别模块将获取到的语音信息实时转换成目标文字。相应地,在每一个对应的时刻T,终端采集该时刻对应的语音信息,通过语音连续识别模块都会得到一个明确的输出,也就是该时刻语音信息对应的目标文字。例如,在T1时刻采集第一语音信息,语音连续识别模块基于AM得到第一语音信息对应的音素信息为“wodedingdan”,进一步基于LM确定出T1时刻第一语音信息对应的第一目标文字为“我的订单”。
进一步地,在本申请的实施例中,终端在确定出第一时刻对应的第一目标文字之后,可以根据确定出的第一目标文字进一步对第一时刻语音信息对应的预测意图以及待推送答案进行确定。
步骤1002、根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答。
在本申请的实施例中,终端在确定出第一时刻对应的第一目标文字之后,可以根据第一目标文字确定出第一预测意图和待推送答案,其中,待推送答案用于对语音信息进行应答。
需要说明的是,在本申请的实施例中,终端在确定出第一时刻对应的第一目标文字之后,可以通过意图预测模块对确定出的第一目标文字进行意图预测,也就是说,在用户说完话之前,终端可以根据获取到的第一目标文字对用户想要咨询的问题进行预测,从而确定出第一预测意图,并将第一预测意图存放于意图管理模块,答案组装模块根据确定出的第一预测意图提前进行答案组装,得到第一预测意图对应的第一答案,并将该第一答案作为待推送答案,存储至答案决策模块。
示例性地,如果用户在第一时刻确定出的第一目标文字为“我的订单”,此时预测用户输入可能为“我的订单到哪了”,进一步可以确定出用户的第一预测意图为“物流查询”,根据确定出的第一预测意图提前进行答案组装,得到第一答案为“物流信息”,进而将“物流信息”作为待推送答案进行暂存。
进一步地,在本申请的实施例中,根据第一目标文字确定出第一预测意图和待推送答案之后,可以继续通过实时语音识别处理,对与第一时刻连续的下一时刻对应的目标文字以及预测意图进行确定。
步骤1003、继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻。
在本申请的实施例中,在根据第一目标文字确定出第一预测意图以后,终端继续进行语音识别处理,进而确定出与第一时刻连续的第二时刻对应的第二目标文字以及第二预测意图。
需要说明的是,在本申请的实施例中,终端通过进行实时语音识别处理,在确定出第一目标文字对应的第一预测意图以及待推送答案之后,继续通过语音识别模块进行语音识别处理,获取与第一时刻连续的下一时刻对应的语音信息,并根据该语音信息确定出下一时刻对应的目标文字,即第二目标文字,意图预测模块根据第二目标文字确定出与第二目标文字对应的第二预测意图。
需要说明的是,在本申请的实施例中,第二目标文字为第一时刻对应的第一目标文字与第二时刻对应的实时文字的实时识别整合结果。具体地,语音连续识别模块在每个时刻都会将上一时刻对应的目标文字与当前时刻对应的实时文字进行实时识别整合,并将该实时识别整合结果作为当前时刻对应的目标文字,也就是说,将第一时刻对应的第一目标文字与第二时刻对应的实时文字进行实时识别整合,进而确定出第二时刻对应的第二目标文字,意图预测模块根据第二目标文字确定第二预测意图。
示例性地,图3为本申请提出的实时识别整合示意图,如图3所示,语音连续识别模块在T1、T2、T3时刻对应的实时文字分别为“我的”、“订单”、“到哪了”,语音连续识别模块在每个时间进行实时识别整合,T1时刻不需要进行实时识别整合,即T1时刻对应的实时文字“我的”也就是T1时刻对应的目标文字为,T2时刻通过将T1时刻对应的目标文字“我的”和T2对应的实时文字“订单”进行实时识别整合,得到T2时刻对应的目标文字为“我的订单”,相同的,T3时刻对应的目标文字为“我的订单到哪了”。进一步地,意图预测模块根据T2时刻对应的目标文字“我的订单”对用户意图进行预测,可以确定出的第二预测意图为“物流查询”。
进一步地,在本申请的实施例中,终端在确定出第二时刻对应的第二目标文字和第二预测意图之后,确定出的第一预测意图和第二预测意图,可以用于对终端是否满足应答条件进行判断。
步骤1004、根据第一预测意图和第二预测意图,判断是否满足预设应答条件。
在本申请的实施例中,终端在确定出第一时刻对应的第一预测意图以及第二时刻对应的第二预测意图之后,可以根据确定出的第一预测意图和第二预测意图,判断终端是否满足预设应答条件。
需要说明是的,在本申请的实施例中,通过语音连续识别,第一预测意图可以为根据上一时刻对应的目标文字确定出的预测意图,第二预测意图为与上一时刻连续的当前时刻对应的预测意图,并将确定出的第一预测意图以及第二预测意图存放于意图管理模块,意图管理模块根据确定出的第一预测意图和第二预测意图判断当前是否满足预设应答条件。具体地,如果第一预测意图和第二预测意图一致,则判定满足预设应答条件;如果第一预测意图和第二预测意图不一致,则判定不满足预设应答条件。
示例性地,在确定出第一时刻对应的第一预测意图为“物流查询”之后,继续进行语音识别处理,并对获取到的语音信息进行意图预测,如果第二时刻对应的第二预测意图也是“物流查询”,则第一预测意图与第二预测意图一致,也就是说,意图管理模块判定当前满足预设应答条件;如果第二时刻对应的第二预测意图是“签收异常”,则第一预测意图与第二预测意图不一致,此时,意图管理模块判定当前不满足预设应答条件。
进一步地,在本申请的实施例中,终端在根据第一预测意图和第二预测意图,对是否满足预设应答条件进行判断之后,可以进一步根据判定结果确定是否进行应答处理。
步骤1005、若判定满足预设应答条件,则按照待推送答案进行应答处理。
在本申请的实施例中,终端在根据确定出第一预测意图和第二预测意图,对是否满足预设应答条件进行判断之后,如果判定满足预设应答条件,那么按照暂存的待推送答案进行应答处理。
需要说明的是,在本申请的实施例中,若判定出当前满足预设应答条件,意图管理模块将判定当前满足预设应答条件的决策结果发送至答案决策模块,那么答案决策模块将暂存的待推送答案进行发送,以实现应答处理,也就是说,将基于第一预测意图提前确定出的待推送答案进行应答处理。具体地,在第一预测意图与第二预测意图一致,即判定当前满足预设应答条件时,不再需要根据确定出的第二预测意图重新进行答案组装,而是直接按照暂存的待推送答案,也就是根据第一预测意图确定出的第一答案进行应答处理即可,也就是说,判定出满足预设应答条件表明了根据第一目标文字确定出的第一预测意图为用户明确的意图,第一预测意图对应的第一答案也是用户真正想要获取的信息,此时,直接基于提前组装的第一答案,也就是暂存在答案决策模块的待推送答案进行应答处理即可。
示例性地,图4为本申请提出的满足预设应答条件的示意图,如图4所示,如果第一预测意图为“物流查询”,根据第一预测意图确定出的第一答案为“物流信息”,现将“物流信息”作为待推送答案并存储在答案决策模块,当确定出的第二预测意图也同样是“物流查询”时,此时意图管理模块判断出第一预测意图与第二预测意图一致,表明当前满足预设应答条件,也就是说用户意图明确,用户真正的意图就是“物流查询”,想要获取的信息是“物流信息”。此时,不再需要根据第二预测意图“物流查询”再去确定与第一答案“物流信息”相同的第二答案,意图管理模块将当前满足预设应答条件的决策结果发送至答案决策模块,直接按照提前存储在答案决策模块的待推送答案,也就是第一答案“物流信息”进行应答处理即可。
需要说明的是,在本申请的实施例中,在按照待推送答案进行应答处理时,需要基于语音合成技术实现语音应答。具体地,通过语音合成技术将待推送答案对应的文字信息转换成目标语音,然后通过扬声器等设备播放该目标语音,从而实现了对获取到的语音信息进行语音应答。
进一步地,在当前满足预设应答条件,基于待推送答案进行应答处理之后,终端重新在下一个时刻通过语音连续识别模块进行语音识别处理,继续实现所述应答处理。由于通过连续识别,在每一个对应的时刻T通过ASR都会确定出该时刻语音信息对应的目标文字,并且进一步的确定出该时刻对应的预测意图,在上一时刻与当前时刻对应的预测意图一致时,立刻对用户输入的语音信息进行响应,实现语音应答。由于下一时刻输入的语音信息可能会对应用户的另外一个意图,即与上一时刻已响应的用户意图不相同的新的意图,因此,语音应答模块在对当前用户意图进行响应过后,语音连续识别模块会继续对下一时刻输入的语音信息进行语音识别处理,重新确定新的意图对应的目标文字,以及进一步对下一时刻语音信息对应的新的意图进行预测,进而实现应答处理。也就是说,终端通过实时语音识别处理,进行连续意图预测,且每识别出一个明确的用户意图,即刻按照待推送答案进行应答处理,并继续进行下一个意图的预测和应答处理。
示例性地,终端在确定出语音信息“我的电视机到哪了”的预测意图为“物流查询”,并按照待推送答案“物流信息”进行应答处理之后,语音应答系统并不结束此次应答处理过程,而是继续对输入的语音信息进行语音识别处理,如果下一时刻语音连续识别模块确定出的目标文字为“这两天要下暴雨,尽快帮我送过来”,意图预测模块根据目标文字确定出的新的预测意图为“催配送”,是与已响应的意图“物流查询”不相同的新的意图,那么我们将针对“催配送”这一新的意图进行应答处理。
图5为本申请提出的应答方法的实现流程图二,如图5所示,终端在根据确定出的第一预测意图和第二预测意图,对是否满足预设应答条件进行判断之后,即步骤1004之后,终端应答方法还可以包括以下步骤:
步骤1006、若判定不满足预设应答条件,则根据第二预测意图确定第二答案。
在本申请的实施例中,终端在根据确定出第一预测意图和第二预测意图,对是否满足预设应答条件进行判断之后,可以进一步得到,如果不满足预设应答条件,那么将根据第二预测意图确定出第二答案。
需要说明的是,本申请的实施例中,若判定出当前不满足预设应答条件,也就是说根据获取到的第一目标文字,得到的第一预测意图并不是正确的,表明了在用户说完话之前,对用户想要咨询的问题进行预测,预测得到的用户意图并不想用户真正想要咨询的问题,进而根据第一预测意图确定出的待推送答案也不是正确答案,即不是用户真正想要获取的信息,此时答案组装模块需重新根据确定出的第二预测意图进行答案组装,确定第二预测意图对应的第二答案。
示例性地,图6为本申请提出的不满足预设应答条件的示意图,如图6所示,在第一时刻对应的第一预测意图为“物流查询”,且根据第一预测意图确定出的待推送答案为“物流信息”的情况下,当第二时刻确定出的第二预测意图为“签收异常”时,此时,意图管理模块判断出第一预测意图与第二预测意图不一致,进一步判定出当前不满足预设应答条件,表明了用户真正的意图为查询签收异常信息,并不是查询物流,进而存储在答案决策模块的“物流信息”这一待推送答案也是错误的,此时,意图管理模块将当前不满足预设应答条件的决策结果发送至答案决策模块,答案决策模块丢弃“物流信息”这一待推送答案,答案组装模块重新根据确定出的第二预测意图,即“签收异常”,重新进行答案组装,确定预测意图“签收异常”对应的第二答案“签收信息”,并将第二答案“签收信息”作为待推送答案存储至答案决策模块。
进一步地,在根据第一预测意图和第二预测意图,判定出不满足预设应答条件,以及终端根据第二预测意图确定出第二答案之后,需进一步确定第二时刻对应的待推送答案。
步骤1007、将第二答案设置为待推送答案。
在本申请实施例中,终端在根据第一预测意图和第二预测意图,判定出不满足预设应答条件,以及根据第二预测意图确定出第二答案之后,终端将第二答案设置为待推送答案。
需要说明的是,本申请的实施例中,根据第二预测意图确定出第二答案之后,由于第二时刻获取到的第二目标文字具有更多的有用信息,进而根据第二目标文字确定出的第二预测意图也更可能为用户明确的意图,相对于第一预测意图来说准确性更高,因此,将根据第二预测意图确定出的第二答案也更可能是用户真正想要获得的信息,则将根据第二预测意图确定出的第二答案替换为待推送答案。
示例性地,在第二时刻确定出的第二预测意图为“签收异常”时,表明了用户真正的意图可能是想查询订单签收异常,而不是第一预测意图“物流查询”,也就是说用户想要获得的信息是订单的签收信息,此时答案组装模块根据确定出的第二预测意图“签收异常”,确定出第二答案“签收信息”,并将“签收信息”作为待推送答案存储至答案决策模块,替换上一时刻根据第一预测意图确定出的“物流信息”这一待推送答案。
进一步地,在将第二答案设置为待推送答案之后,需要继续通过语音识别处理进一步确定下一时刻对应的预测意图,从而根据第二预测意图,以及与第二时刻连续的下一时刻对应的预测意图对是否满足预设应答条件进行判断。
步骤1008、继续通过语音识别处理,确定下一时刻对应的第三目标文字和第三预测意图,重新根据第二预测意图和第三预测意图,判断是否满足预设应答条件,以继续实现应答处理。
在本申请的实施例中,终端将第二答案设置为待推送答案之后,继续进行语音识别处理,可以确定出第三时刻对应的第三目标文字和第三预测意图,并且重新根据第二预测意图和第三预测意图判断是否满足预设应答条件,进而继续实现应答处理。
需要说明的是,本申请的实施例中,若意图管理模块判定第一预测意图与第二预测意图不一致,表明根据第一预测意图提前进行答案组装,确定出的待推送答案并不是正确的,此时答案组装模块将重新根据第二预测意图进行答案组装,并将根据第二预测意图确定出的第二答案暂时替换为待推送答案,存储至答案决策模块,为了进一步明确用户意图,继续通过语音连续识别模块获取下一时刻对应的第三目标文字以及通过意图预测模块确定第三预测意图,然后意图管理模块重新根据第二预测意图和第三预测意图,判断是否满足预设应答条件,进而实现应答处理。
需要说明的是,在本申请的实施例中,通过连续意图预测,意图预测模块确定出下一时刻对应的第三预测意图,如果意图管理模块判定出第三预测意图与第二预测意图一致,那么表明下一时刻满足预设应答条件,因此,将按照待推送答案,也就是第二答案进行应答处理。
本申请实施例提供了一种应答方法,终端在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字;根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答;继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻;根据第一预测意图和第二预测意图,判断是否满足预设应答条件;若判定满足预设应答条件,则按照待推送答案进行应答处理。也就是说,在本申请的实施例中,终端通过实时语音识别处理,对输入的语音信息进行连续意图预测,提前进行答案组装,并将答案暂存,在判定当前满足预设应答条件时,推送答案以实现应答处理。不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
基于上述实施例,在本申请的另一实施例中,终端根据第一目标文字确定第一预测意图和待推送答案的方法可以包括以下步骤:
步骤201、通过预设预测模型对所述第一目标文字进行预测意图匹配,确定与第一目标文字对应的N个预测意图;其中,预设预测模型为基于深度学习建立的模型,N为大于1的整数。
在本申请的实施例中,终端在确定出第一语音信息对应的第一目标文字之后,通过预设预测模型对确定出的第一目标文字进行预测意图匹配,从而确定出与第一目标文字对应的N个预测意图,其中,该预设预测模型是基于深度学习建立的模型,N为大于1的整数。
需要说明的是,在本申请的实施例中,终端在通过预设预测模型对第一目标文字进行预测意图匹配时,由于是在用户讲话过程中进行意图预测,即通过在各时刻确定出的目标文字进行意图预测,此时,并没有获取用户意图对应的完整的语音信息,进而也不能确定出完整的目标文本信息,各时刻获取到的目标文字也是部分目标文本信息,因此,意图预测模块通过预设预测模型对目标文字,也就是部分目标文本进行意图预测时可能会预测出多个用户意图。
示例性地,如果第一目标文字为“我的订单”,此时用户输入即完整的目标文本信息可能为“我的订单到哪了”,也可能是“我的订单编号是多少”,因此,在通过预设预测模性对目标文字“我的订单”进行预测意图匹配时,得到的预测意图可以为“物流查询”,也可以为“单号查询”,会匹配出多个预测意图。
进一步地,在通过预设预测模型匹配出与第一目标文字对应的N个预测意图之后,可以进一步从N个预测意图中确定唯一一个预测意图。
步骤202、从N个预测意图中确定所述第一预测意图。
在本申请的实施例中,终端在通过预设预测模型对第一目标文字进行匹配,并确定出第一目标文字对应的N个预测意图之后,可以进一步从N个预测意图中确定出第一预测意图。
需要说明的是,本申请的实施例中,终端通过预设预测模型对第一目标文字进行预测意图匹配时,不仅可以确定出第一目标文字对应的N个预测意图,同时也得到了N个预测意图对应的权重值。在确定出第一目标文字对应的N个预测意图之后,终端需要从多个预测意图中确定出一个准确性最高的预测意图,即第一预测意图。可选的,准确性可以通过预测意图对应的权重进行确定,权重值越大,准确性越高。
进一步地,终端从N个预测意图中确定出第一预测意图之后,第一预测意图可以用于对待推送答案进行确定。
步骤203、根据第一预测意图确定第一答案,并将第一答案作为待推送答案。
在本申请的实施例中,终端从N个预测意图中确定出第一预测意图之后,可以进一步根据第一预测意图确定出第一答案,并将第一答案作为待推送答案。
需要说明的是,在本申请的实施例中,在确定出第一预测意图之后,终端可以根据第一预测意图提前进行答案组装,确定待推送答案。具体地,提取第一预测意图对应的特征信息,可选的,特征信息可以为关键字;然后获取该关键字对应的所有信息,并通过预设算法对该关键字对应的所有信息进行答案组装,进而得到第一答案,终端将第一答案设置为待推送答案,并存储至答案决策模块。
示例性地,当确定出第一预测意图为“物流查询”之后,终端提取该预测意图对应的特征信息,例如关键字“物流”,随后终端获取关键字“物流”对应的该用户的包裹在各个地方进库、出库以及沿途车辆行驶的信息,并将所有信息通过预设算法进行组装,得到完整的物流信息列表,并将该完整的物流信息列表作为待推送答案进行暂存。
本申请的实施例中,进一步地,终端从N个预测意图中确定第一预测意图的方法可以包括以下步骤:
步骤202a、获取N个预测意图对应的N个权重;其中,一个预测意图对应一个权重。
步骤202b、将N个权重中的、数值最大的权重对应的预测意图,确定为第一预测意图。
在本申请的实施例中,终端在确定出第一目标文字对应的N个预测意图之后,通过进一步获取N个预测意图N个预测意图对应的N个权重,并将N个权重中的、数值最大的权重对应的预测意图,确定为第一预测意图。
需要说明的是,在本申请的实施例中,终端通过预设预测模型对第一目标文字进行预测意图匹配时,不仅可以确定出第一目标文字对应的N个预测意图,同时也得到了N个预测意图对应的权重值,该权重值反映了预测意图的准确性,进一步地,由于需要从得到的N个预测意图中确定出与第一目标文字对应的唯一一个预测意图,即可能性较大的明确的用户意图,因此,需要对N个预测意图对应的N个权重值进行比较,将最大权重值对应的预测意图,也就是准确性最高的预测意图作为第一目标文字对应的预测意图,即第一预测意图。例如,意图预测模块根据第一目标文字“我的订单”确定出了“物流查询”、“单号查询”以及“签收异常”等多个预测意图,且同时得到了“物流查询”的权重为0.45,“单号查询”的权重为0.3,“签收异常”的权重为0.25,由此可见,预测意图“物流查询”对应的权重值最大,表示用户意图较可能为“物流查询”,因此,将第一目标文字“我的订单”对应的多个预测意图中,权重值最大的预测意图“物流查询”作为第一预测意图。
本申请实施例提供了一种应答方法,终端在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字;根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答;继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻;根据第一预测意图和第二预测意图,判断是否满足预设应答条件;若判定满足预设应答条件,则按照待推送答案进行应答处理。也就是说,在本申请的实施例中,终端通过实时语音识别处理,对输入的语音信息进行连续意图预测,提前进行答案组装,并将答案暂存,在判定当前满足预设应答条件时,推送答案以实现应答处理。不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
基于上述实施例,在本申请的另一实施例中,终端根据第一预测意图和第二预测意图,判断是否满足预设应答条件的方法可以包括以下步骤:
步骤301、确定第一预测意图对应的第一权重,和第二预测意图对应的第二权重。
在本申请的实施例中,终端在确定出第一预测意图和第二预测意图之后,可以进一步确定出第一预测意图对应的第一权重,以及第二预测意图对应的第二权重。
需要说明的是,本申请的实施例中,在通过预设预测模型对目标文字进行预测意图匹配时,可以获取到目标文字对应的预测意图以及该预测意图的权重值,该权重值反映了确定出的预测意图的准确性。也就是说,第一权重为在第一时刻通过预设预测模型匹配出的,准确性最高的第一预测意图对应的权重值,相应地,第二权重为在第二时刻通过预设预测模型匹配出的,准确性最高的第二预测意图对应的权重值。
进一步地,终端确定出第一预测意图对应的第一权重,以及第二预测意图对应的第二权重之后,确定出的第一预测意图对应的第一权重以及第二预测意图对应的第二权重可以进一步用于对是否满足预设应答条件进行判断。
步骤302、当所述第一预测意图与所述第二预测意图相同,且所述第一权重和所述第二权重均大于预设权重阈值时,判定满足所述预设应答条件;其中,所述预设权重阈值用于对所述预测意图的准确性进行确定。
在本申请的实施例中,在终端确定出第一预测意图对应的第一权重和第二预测意图对应的第二权重之后,可以在第一预测意图与第二预测意图相同,且第一权重和第二权重均大于预设权重阈值时,判定出满足预设应答条件。
需要说明的是,本申请的实施例中,在第一预测意图与第二预测意图一致时,并不会判定满足预设应答条件,而是再进一步根据第一权重和第二权重判断是否满足预设应答条件。具体地,在第一预测意图与第二预测意图相同,且第一权重和第二权重均大于预设权重阈值时,才判定出满足预设应答条件。其中,预设权重阈值为满足预设应答条件的权重值。
示例性地,预设权重阈值为0.7,如果第一时刻对应的第一预测意图为“物流查询”,第二时刻对应的第二预测意图也是“物流查询”,可以看出,此时第一预测意图与第二预测意图一致,但是并不能判定出满足预设应答条件,而是进一步根据第一权重和第二权重判断是否满足预设应答条件,若第一权重为0.75,第二权重为0.81,此时,不仅第一预测意图与第二预测意图一致,第一权重和第二权重也均大于预设权重阈值,则可以判定满足预设应答条件;然而,若第一权重和第二权重中存在至少一个小于预设权重阈值,则可以判定不满足预设应答条件。
本申请实施例提供了一种应答方法,终端在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字;根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答;继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻;根据第一预测意图和第二预测意图,判断是否满足预设应答条件;若判定满足预设应答条件,则按照待推送答案进行应答处理。也就是说,在本申请的实施例中,终端通过实时语音识别处理,对输入的语音信息进行连续意图预测,提前进行答案组装,并将答案暂存,在判定当前满足预设应答条件时,推送答案以实现应答处理。不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
基于上述实施例,在本申请的另一实施例中,图7为本申请提出的终端的组成结构示意图一,如图7示,本申请实施例提出的终端20可以包括确定单元21,判断单元22,处理单元23,存储单元24以及设置单元25。
所述确定单元21,用于在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;以及根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;以及继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;
所述判断单元22,用于根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;
所述处理单元23,用于若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
进一步地,在本申请的实施例中,所述确定单元21,具体用于获取所述第一时刻对应的第一语音信息;以及对所述第一语音信息进行所述语音识别处理,将所述第一语音信息转换成所述第一目标文字。
进一步地,在本申请的实施例中,所述确定单元21,还具体用于通过预设预测模型对所述第一目标文字进行预测意图匹配,确定与所述第一目标文字对应的N个预测意图;其中,所述预设预测模型为基于深度学习建立的模型,N为大于1的整数;以及从所述N个预测意图中确定所述第一预测意图;以及根据所述第一预测意图确定所述第一答案,并将所述第一答案作为所述待推送答案。
进一步地,在本申请的实施例中,所述确定单元21,还具体用于获取所述N个预测意图对应的N个权重;其中,一个预测意图对应一个权重;以及将所述N个权重中的、数值最大的权重对应的预测意图,确定为所述第一预测意图。
进一步地,在本申请的实施例中,所述确定单元21,还具体用于获取所述第一预测意图对应的特征信息;以及根据所述特征信息和预设算法确定所述第一答案,其中,所述预设算法用于基于所述特征信息进行答案组装。
进一步地,在本申请的实施例中,所述存储单元24,用于将所述第一答案作为所述待推送答案之后,存储所述待推送答案。
进一步地,在本申请的实施例中,所述确定单元21,还具体用于获取所述第二时刻对应的第二语音信息;以及对所述第二语音信息进行所述语音识别处理,确定所述第二语音信息对应的实时文字;以及根据所述第一目标文字和所述实时文字确定所述第二目标文字。
进一步地,在本申请的实施例中,所述判断单元22,具体用于当所述第一预测意图与所述第二预测意图相同时,判定满足所述预设应答条件;以及当所述第一预测意图与所述第二预测意图不相同时,判定不满足所述预设应答条件。
进一步地,在本申请的实施例中,所述判断单元22,还具体用于确定所述第一预测意图对应的第一权重,和所述第二预测意图对应的第二权重;以及当所述第一预测意图与所述第二预测意图相同,且所述第一权重和所述第二权重均大于预设权重阈值时,判定满足所述预设应答条件;其中,所述预设权重阈值用于对所述预测意图的准确性进行确定。
进一步地,在本申请的实施例中,所述确定单元21,还用于根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件之后,若判定不满足所述预设应答条件,则根据所述第二预测意图确定第二答案。
进一步地,在本申请的实施例中,所述设置单元25,用于将所述第二答案设置为所述待推送答案。
进一步地,在本申请的实施例中,所述确定单元21,还具体用于继续通过所述语音识别处理,确定下一时刻对应的第三目标文字和第三预测意图。
进一步地,在本申请的实施例中,所述判断单元22,还用于重新根据所述第二预测意图和所述第三预测意图,判断是否满足所述预设应答条件,以继续实现所述应答处理。
进一步地,在本申请的实施例中,所述处理单元23,具体用于对所述待推送答案进行语音合成处理,确定目标语音;以及播放所述目标语音,以实现所述应答处理。
在本申请的实施例中,进一步地,图8本申请提出的终端的组成结构示意图二,如图8示,本申请实施例提出的终端20还可以包括处理器26、存储有处理器26可执行指令的存储器27,进一步地,终端20还可以包括通信接口28,和用于连接处理器26、存储器27以及通信接口28的总线210。
在本申请的实施例中,上述处理器26可以为特定用途集成电路(ApplicationSpecific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(ProgRAMmable Logic Device,PLD)、现场可编程门阵列(Field ProgRAMmable GateArray,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。终端20还可以包括存储器27,该存储器27可以与处理器26连接,其中,存储器27用于存储可执行程序代码,该程序代码包括计算机操作指令,存储器27可能包含高速RAM存储器,也可能还包括非易失性存储器,例如,至少两个磁盘存储器。
在本申请的实施例中,总线210用于连接通信接口28、处理器26以及存储器27以及这些器件之间的相互通信。
在本申请的实施例中,存储器27,用于存储指令和数据。
进一步地,在本申请的实施例中,上述处理器26,用于在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
在实际应用中,上述存储器27可以是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard DiskDrive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器26提供指令和数据。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的一种终端,该终端在第一时刻通过语音识别处理确定第一时刻对应的第一目标文字;根据第一目标文字确定第一预测意图和待推送答案;其中,待推送答案用于对语音信息进行应答;继续通过语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,第二时刻为第一时刻连续的下一个时刻;根据第一预测意图和第二预测意图,判断是否满足预设应答条件;若判定满足预设应答条件,则按照待推送答案进行应答处理。也就是说,在本申请的实施例中,终端通过实时语音识别处理,对输入的语音信息进行连续意图预测,提前进行答案组装,并将答案暂存,在判定当前满足预设应答条件时,推送答案以实现应答处理。不仅提高了应答处理效率,同时,还克服了意图丢失的缺陷,进一步提高了应答处理的准确性,终端智能性更高。
本申请实施例提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的应答方法。
具体来讲,本实施例中的一种应答方法对应的程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种应答方法对应的程序指令被一电子设备读取或被执行时,包括如下步骤:
在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;
根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;
继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;
根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;
若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (13)

1.一种应答方法,其特征在于,所述方法包括:
在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;
根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;
继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;
根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;
若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
2.根据权利要求1所述的方法,其特征在于,所述在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字,包括:
获取所述第一时刻对应的第一语音信息;
对所述第一语音信息进行所述语音识别处理,将所述第一语音信息转换成所述第一目标文字。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标文字确定第一预测意图和待推送答案,包括:
通过预设预测模型对所述第一目标文字进行预测意图匹配,确定与所述第一目标文字对应的N个预测意图;其中,所述预设预测模型为基于深度学习建立的模型,N为大于1的整数;
从所述N个预测意图中确定所述第一预测意图;
根据所述第一预测意图确定所述第一答案,并将所述第一答案作为所述待推送答案。
4.根据权利要求3所述的方法,其特征在于,所述从所述N个预测意图中确定所述第一预测意图,包括:
获取所述N个预测意图对应的N个权重;其中,一个预测意图对应一个权重;
将所述N个权重中的、数值最大的权重对应的预测意图,确定为所述第一预测意图。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测意图确定所述第一答案,包括:
获取所述第一预测意图对应的特征信息;
根据所述特征信息和预设算法确定所述第一答案,其中,所述预设算法用于基于所述特征信息进行答案组装。
6.根据权利要求1所述的方法,其特征在于,所述确定第二时刻对应的第二目标文字,包括:
获取所述第二时刻对应的第二语音信息;
对所述第二语音信息进行所述语音识别处理,确定所述第二语音信息对应的实时文字;
根据所述第一目标文字和所述实时文字确定所述第二目标文字。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件,包括:
当所述第一预测意图与所述第二预测意图相同时,判定满足所述预设应答条件;
当所述第一预测意图与所述第二预测意图不相同时,判定不满足所述预设应答条件。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件,包括:
确定所述第一预测意图对应的第一权重,和所述第二预测意图对应的第二权重;
当所述第一预测意图与所述第二预测意图相同,且所述第一权重和所述第二权重均大于预设权重阈值时,判定满足所述预设应答条件;其中,所述预设权重阈值用于对所述预测意图的准确性进行确定。
9.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件之后,所述方法还包括:
若判定不满足所述预设应答条件,则根据所述第二预测意图确定第二答案;
将所述第二答案设置为所述待推送答案;
继续通过所述语音识别处理,确定下一时刻对应的第三目标文字和第三预测意图,重新根据所述第二预测意图和所述第三预测意图,判断是否满足所述预设应答条件,以继续实现所述应答处理。
10.根据权利要求1所述的方法,其特征在于,所述按照所述待推送答案进行应答处理,包括:
对所述待推送答案进行语音合成处理,确定目标语音;
播放所述目标语音,以实现所述应答处理。
11.一种终端,其特征在于,所述终端包括:确定单元,判断单元以及处理单元,
所述确定单元,用于在第一时刻通过语音识别处理确定所述第一时刻对应的第一目标文字;以及根据所述第一目标文字确定第一预测意图和待推送答案;其中,所述待推送答案用于对语音信息进行应答;以及继续通过所述语音识别处理,确定第二时刻对应的第二目标文字和第二预测意图;其中,所述第二时刻为所述第一时刻连续的下一个时刻;
所述判断单元,用于根据所述第一预测意图和所述第二预测意图,判断是否满足预设应答条件;
所述处理单元,用于若判定满足所述预设应答条件,则按照所述待推送答案进行应答处理。
12.一种终端,其特征在于,所述终端包括处理器、存储有所述处理器可执行指令的存储器,当所述指令被所述处理器执行时,实现如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其上存储有程序,应用于终端中,其特征在于,所述程序被处理器执行时,实现如权利要求1-10任一项所述的方法。
CN201911147594.8A 2019-11-21 2019-11-21 一种应答方法、终端及存储介质 Active CN111739506B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201911147594.8A CN111739506B (zh) 2019-11-21 2019-11-21 一种应答方法、终端及存储介质
EP20890060.5A EP4053836A4 (en) 2019-11-21 2020-08-25 RESPONSE PROCEDURE, TERMINAL AND REGISTRATION MEDIA
US17/775,406 US20220399013A1 (en) 2019-11-21 2020-08-25 Response method, terminal, and storage medium
PCT/CN2020/111150 WO2021098318A1 (zh) 2019-11-21 2020-08-25 应答方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911147594.8A CN111739506B (zh) 2019-11-21 2019-11-21 一种应答方法、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111739506A true CN111739506A (zh) 2020-10-02
CN111739506B CN111739506B (zh) 2023-08-04

Family

ID=72645938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911147594.8A Active CN111739506B (zh) 2019-11-21 2019-11-21 一种应答方法、终端及存储介质

Country Status (4)

Country Link
US (1) US20220399013A1 (zh)
EP (1) EP4053836A4 (zh)
CN (1) CN111739506B (zh)
WO (1) WO2021098318A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365888A (zh) * 2020-10-14 2021-02-12 深圳追一科技有限公司 意图识别方法、装置、计算机设备和存储介质
CN113643696A (zh) * 2021-08-10 2021-11-12 阿波罗智联(北京)科技有限公司 语音处理方法、装置、设备、存储介质及程序
CN113779206A (zh) * 2020-11-11 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN110046221A (zh) * 2019-03-01 2019-07-23 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN110060663A (zh) * 2019-04-28 2019-07-26 北京云迹科技有限公司 一种应答服务的方法、装置及系统
JP2019144348A (ja) * 2018-02-19 2019-08-29 アルパイン株式会社 情報処理システム及びコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP6171617B2 (ja) * 2013-06-24 2017-08-02 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
CN107590120A (zh) * 2016-07-07 2018-01-16 深圳狗尾草智能科技有限公司 人工智能处理方法及装置
US10297254B2 (en) * 2016-10-03 2019-05-21 Google Llc Task initiation using long-tail voice commands by weighting strength of association of the tasks and their respective commands based on user feedback
CN106649694B (zh) * 2016-12-19 2020-05-26 北京云知声信息技术有限公司 语音交互中确定用户意图的方法及装置
US11081106B2 (en) * 2017-08-25 2021-08-03 Microsoft Technology Licensing, Llc Contextual spoken language understanding in a spoken dialogue system
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN109994108B (zh) * 2017-12-29 2023-08-29 微软技术许可有限责任公司 用于聊天机器人和人之间的会话交谈的全双工通信技术
CN109410948A (zh) * 2018-09-07 2019-03-01 北京三快在线科技有限公司 通信方法、装置、系统、计算机设备以及可读存储介质
CN109670020B (zh) * 2018-12-11 2020-09-29 苏州创旅天下信息技术有限公司 一种语音交互方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
JP2019144348A (ja) * 2018-02-19 2019-08-29 アルパイン株式会社 情報処理システム及びコンピュータプログラム
CN110046221A (zh) * 2019-03-01 2019-07-23 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN110060663A (zh) * 2019-04-28 2019-07-26 北京云迹科技有限公司 一种应答服务的方法、装置及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365888A (zh) * 2020-10-14 2021-02-12 深圳追一科技有限公司 意图识别方法、装置、计算机设备和存储介质
CN112365888B (zh) * 2020-10-14 2023-12-22 深圳追一科技有限公司 意图识别方法、装置、计算机设备和存储介质
CN113779206A (zh) * 2020-11-11 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113643696A (zh) * 2021-08-10 2021-11-12 阿波罗智联(北京)科技有限公司 语音处理方法、装置、设备、存储介质及程序

Also Published As

Publication number Publication date
CN111739506B (zh) 2023-08-04
EP4053836A1 (en) 2022-09-07
WO2021098318A1 (zh) 2021-05-27
US20220399013A1 (en) 2022-12-15
EP4053836A4 (en) 2022-12-28

Similar Documents

Publication Publication Date Title
US10911596B1 (en) Voice user interface for wired communications system
US11564090B1 (en) Audio verification
US11270698B2 (en) Proactive command framework
US10917758B1 (en) Voice-based messaging
JP2019057273A (ja) 情報をプッシュする方法及び装置
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN111739506B (zh) 一种应答方法、终端及存储介质
CN111797632B (zh) 信息处理方法、装置及电子设备
US10194023B1 (en) Voice user interface for wired communications system
US11276403B2 (en) Natural language speech processing application selection
US10326886B1 (en) Enabling additional endpoints to connect to audio mixing device
CN113724718B (zh) 目标音频的输出方法及装置、系统
KR20110099434A (ko) 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
CN103514882A (zh) 一种语音识别方法及系统
CN111344717A (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN113436609A (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
CN113724690B (zh) Ppg特征的输出方法、目标音频的输出方法及装置
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
US11587554B2 (en) Control apparatus, voice interaction apparatus, voice recognition server, and program
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN112738344A (zh) 一种识别用户身份的方法、装置、存储介质及电子设备
US20060136210A1 (en) System and method for tying variance vectors for speech recognition
CN112185351B (zh) 语音信号处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210524

Address after: 100176 room 1004, 10th floor, building 1, 18 Kechuang 11th Street, economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Beijing Huijun Technology Co.,Ltd.

Address before: Room A402, 4th floor, building 2, No. 18, Kechuang 11th Street, Daxing Economic and Technological Development Zone, Beijing 100176

Applicant before: BEIJING WODONG TIANJUN INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

GR01 Patent grant
GR01 Patent grant