CN116052664A - 用于口语对话的实时语义理解方法、系统和电子设备 - Google Patents
用于口语对话的实时语义理解方法、系统和电子设备 Download PDFInfo
- Publication number
- CN116052664A CN116052664A CN202310074489.6A CN202310074489A CN116052664A CN 116052664 A CN116052664 A CN 116052664A CN 202310074489 A CN202310074489 A CN 202310074489A CN 116052664 A CN116052664 A CN 116052664A
- Authority
- CN
- China
- Prior art keywords
- engine
- voice
- streaming
- voice recognition
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 74
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种用于口语对话的实时语义理解方法、系统和电子设备。该方法包括:将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果;利用流式语义理解引擎接收流式的语音识别结果,查询流式的语音识别结果内语音请求标识对应的引擎状态;流式语义理解引擎根据引擎状态对流式的语音识别结果进行推理,得到推理语义解析结果,并对引擎状态进行更新;若检测到用户语音结束,将推理语义解析结果确定为用户语音的最终语义解析结果。本发明实施例利用流式语音解析引擎,无需等待用户说完整句话之后再进行语音识别,也避免了实时语义理解所需的计算量。在不增加计算量的基础上,减少了用户的等待时间,提升了用户体验。
Description
技术领域
本发明涉及智能语音领域,尤其涉及一种用于口语对话的实时语义理解方法、系统和电子设备。
背景技术
为了提升用户的语音交互体验,不但需要提升语音识别的准确度,而且还要能够对识别结果进行准确、高效的进行语义理解。现有的语义理解技术需要输入完整的全量文本,然后解析出该全量文本对应的解析结果。例如,在与用户的口语对话中,检测到用户说完一句话之后得到对应的语音识别结果,再将语音识别结果输入至语义理解引擎中得到对应的语义解析结果。这就导致了,在口语对话中,语音识别和语义理解模块是串行的:用户说完一句话之后,将整句话的语音数据送入语音识别模块进行语音识别,在整句话全部识别后,才会将该整句的识别结果送入语义理解模块进行语义理解,得到整句话的解析结果。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
在与用户的口语对话过程中,需要等待用户说完一句完整的话,经过语音识别引擎识别解码出完整的文本后,再进行语义理解,整个过程包括了整句话的语音识别耗时加上整句话的语义理解耗时。也就是说,要想得到用户输入的正确语义解析结果,需要等待用户说完后将用户完整的语句输入语义解析引擎。因此必须等待语音识别引擎输出完整的解码结果后才能进行语义解析,因而会增加链路的耗时,整体耗时比较长,用户需要一定的等待时间才能得到交互系统的反馈结果,导致用户体验较差。
发明内容
为了至少解决现有技术中语义解析需要等待用户说完整句话,整体耗时较长,用户体验较差的问题。第一方面,本发明实施例提供一种用于口语对话的实时语义理解方法,包括:
将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
第二方面,本发明实施例提供一种用于口语对话的实时语义理解系统,包括:
语音识别程序模块,用于将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
引擎状态确定程序模块,用于利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
语义推理程序模块,用于所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
语义理解程序模块,用于若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于口语对话的实时语义理解方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于口语对话的实时语义理解方法的步骤。
本发明实施例的有益效果在于:利用流式语音解析引擎,不需要等用户说完整句话之后再进行语音识别,也避免了实时语义理解所需的成倍增长的计算量。本方法语义解析的耗时为末帧延迟(指从有效音频检测模块检测到人说完话,到出最终识别结果的时间),当识别模块实时输出识别结果时,将该识别结果实时输入流式语义解析引擎,那么会实时输出语义解析结果,那么此时语义解析引擎的耗时仅仅是最后一个字的解析时间,该耗时被大大缩减了,在不增加计算量的基础上,减少了用户的等待时间,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于口语对话的实时语义理解方法的流程图;
图2是本发明一实施例提供的一种用于口语对话的实时语义理解方法的流式语义理解引擎内部流程图;
图3是本发明一实施例提供的一种用于口语对话的实时语义理解方法的口语对话整体交互流程图;
图4是本发明一实施例提供的一种用于口语对话的实时语义理解系统的结构示意图;
图5为本发明一实施例提供的一种用于口语对话的实时语义理解的电子设备的实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于口语对话的实时语义理解方法的流程图,包括如下步骤:
S11:将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
S12:利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
S13:所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
S14:若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
在本实施方式中,可以将本方法应用于服务于智能语音设备的服务器中,例如,智能音响,智能手机等智能语音设备在进行语音服务请求时,搭载本方法的服务器可以为其提供语音设备、语义解析等服务。
在智能语音设备与用户进行交互时,用户直接进行口语输入,例如,用户说出了“我想听刘德华的歌”。如果是现有技术,会等待用户将整句话说完,向服务器进行语音服务请求,确定出语音识别结果后,再去进行整句的语义理解,这就会使得整个语义理解的过程耗时较长。
本领域技术人员,为了避免这种情况,也可能会进行实时的语义理解,例如,将实时的识别结果进行语义理解,做语义的提前计算,但是一句话的实时识别结果比较多,例如(Var表示流式语音识别引擎输出结果):
Var:我想 //此时进行“我想”的语义理解;
Var:我想听 //此时进行“我想听”的语义理解;
Var:我想听刘 //此时进行“我想听刘”的语义理解;
Var:我想听刘德华 //此时进行“我想听刘德华”的语义理解;
Var:我想听刘德华的歌//此时进行“我想听刘德华的歌”的语义理解,最后得到语义解析结果。
也就是说,用户输入了一句话,但是在内部的处理中,进行了5次语义解析,虽然这种方式表面上看来能够提升整体的响应速度,但是每次的识别结果都会被送入到云端提供服务的语义解析引擎中,给提供语义解析的服务器造成了很大的计算压力,计算资源被大幅占用。
从单个用户使用的角度来看,只是进行了5次语义解析,提供语义解析的服务器计算量大幅度提升,但是能够提升用户口语交互整体的响应速度。然而,服务器并不单单是为一个用户服务的,服务器需要为大量的用户进行语义理解服务,在真实场景中,如果每个用户语义解析的计算量成倍数增长,对于服务器的压力是巨大的,很有可能就会出现由于大量用户的语义解析请求,服务器不堪重负难以处理,反而加剧了整个语义理解的过程耗时较长。本方法正是考虑到现有技术的缺陷,以及实时语义理解的缺陷,进行了语义理解步骤的整体优化。
对于步骤S11,例如,在实际使用中,用户与智能音箱进行口语对话,智能音箱实时进行VAD(Voice Activity Detection,语音端点检测,也可以称为语音活动检测),当智能音箱检测到用户说出了话语,将带有用户话语部分的语音作为有效音频,将有效音频实时的流式的送入语音识别模块。其中,流式是指可以在处理音频流的过程中,支持实时返回识别结果,流式可以更好地用于需要实时获取识别结果的场景,例如,实时语音交互、实时会议等。
用户说出“我想”的语音,智能音箱识别到用户的有效语音,实时地流式输入至流式语音识别引擎,流式语音识别引擎输出流式的语音识别结果,考虑到后续步骤中,本方法的流式语义理解引擎需要调用对应的引擎状态进行推理,因此,需要在流式语音识别引擎预先为流式的语音识别结果赋予对应的语音请求标识(Record ID),来判断不断输入的话语是否为同一句话。例如,“我想”的语音识别后,赋予的Record ID为:00SP057;随着用户不断的口语输入,例如用户要说的话为“我想听刘德华的歌,忘情水就可以”,“听”的语音识别后,赋予的Record ID还是为:00SP057;“刘德华”的语音识别后,赋予的Record ID还是为:00SP057;“的歌”的语音识别后,赋予的Record ID还是为:00SP057。“忘情水”的语音识别后,赋予的Record ID为:00SP058;“就可以”的语音识别后,赋予的Record ID为:00SP058。
对于步骤S12,利用本方法的流式语义理解引擎接收步骤S11中确定的带有语音请求标识的流式的语音识别结果,通过查询语音识别结果对应的流式语义理解引擎的引擎状态。
具体的,作为一种实施方式,所述利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态包括:
若所述语音请求标识不存在,将所述流式语义理解引擎设置为初始状态;
若所述语音请求标识存在,读取所述语音请求标识对应的引擎状态。
在本实施方式中,流式语义理解引擎接收到“我想”,对应的Record ID为00SP057,由于“我想”是首句输入,此时查询不到该Record ID,将流式语义理解引擎的引擎状态设置为初始状态,流式语义理解引擎初始状态来对“我想”进行语义理解,得到暂时的推理语义解析结果,此时将语音请求标识00SP057进行存储,以供后续语义理解的调用。
流式语义理解引擎又接收到“听”,对应的Record ID为00SP057,此时,查询到00SP057对应的流式语义理解引擎的引擎状态,此时,调用对“我想”语义理解后的引擎状态,对“听”进行语义理解,继续得到暂时的推理语义解析结果。
以上述示例的方式继续依次将“刘德华”、“的歌”输入至流式语义理解引擎,流式语义理解引擎接收到“刘德华”,此时调用对“听”语义理解后的引擎状态,对“刘德华”进行语义理解;流式语义理解引擎接收到“的歌”,此时调用对“刘德华”语义理解后的引擎状态,对“的歌”进行语义理解,得到推理语义解析结果,在此不再赘述。
当流式语义理解引擎接收到“忘情水”,对应的Record ID为00SP058,此时查询不到该Record ID,将流式语义理解引擎的引擎状态设置为初始状态,进行下一句话的语义理解,如此循环,不再赘述,整体流程如图2所示。
对于步骤S13,如S12所述,当流式语义理解引擎接收到“我想”时,此时语义理解引擎的引擎状态为初始状态,利用初始状态的语义理解引擎对“我想”进行推理,得到暂时的推理语义解析结果。也就是说,本方法的流式语义解析引擎是带有状态记忆的,会存储当前解析的内部结构和状态,保证下次输入时会接续上次解析的结果继续解析,从而实现增量解析。
当流式语义理解引擎接收到“听”时,此时语义理解引擎的引擎状态为对“我想”推理后的引擎状态,利用该状态继续对“听”继续进行推理,得到进一步的推理语义解析结果。
作为一种实施方式,若检测到用户语音没有结束,所述方法还包括:
持续的将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果;
利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行持续的推理,得到推理语义解析结果,并持续的对所述引擎状态进行更新。
在本实施方式中,VAD检测到用户语音没有结束,持续的将用户语音输入至流式语音识别引擎,输出流式的语音识别结果,例如,逐步的输出“刘德华”、“的歌”。
流式语义理解引擎接收“刘德华”,查询Record ID为00SP057对应流式语义理解引擎的引擎状态,此时查询到流式语义理解引擎的引擎状态为:对“我想听”推理后的引擎状态,流式语义理解引擎在该状态下对“刘德华”进行推理,得到暂时的推理语义解析结果,在推理的过程中,流式语义理解引擎的引擎状态持续的更新。
也就是说,本方法的流式语义理解引擎不需要获取完整的语音识别结果后再进行语义理解处理,本方法的流式语义理解引擎可以流式获取文本输入并实时输出解析结果。
对于步骤S14,流式语义理解引擎接收“的歌”,查询Record ID为00SP057对应流式语义理解引擎的引擎状态,此时查询到流式语义理解引擎的引擎状态为:对“我想听刘德华”推理后的引擎状态,流式语义理解引擎在该状态下对“的歌”进行推理,得到暂时的推理语义解析结果。
此时VAD检测到用户语音发生停顿,语音识别出该句话说完,确定为当前“我想听刘德华的歌”这句话结束,将流式语义理解引擎在“我想听刘德华”推理后对“的歌”推理得到的推理语义解析结果确定为用户这句话的最终语义解析结果。
通过上述举例可以看出,本方法流式语义解析引擎的耗时大大减少,当用户说完“的歌”之后,用户仅仅需要等待“的歌”的语义解析时间,整体提高口语对话系统响应速度。
当语音识别引擎接收到下一句的“忘情水”后,通过查询语音请求标识00SP058,此时并没有查询到,流式语义理解引擎将利用初始状态对“忘情水”进行推理,后续步骤中,流式语义理解引擎接收到流式的语音识别结果后,步骤如上文所示,不再赘述。
以用户只口语输入了“我想听刘德华的歌”为例,流式语义理解引擎确定出用户语音的最终语义解析结果之后,所述方法还包括:
将所述最终语义解析结果发送至对话管理引擎,所述对话管理引擎根据所述最终语义解析结果生成用于响应用户的交互对话语音。
在本实施方式中,将最终语义解析结果发送至对话管理引擎,通过对话管理引擎生成对应的操作指令,并生成用于反馈用户的交互对话语音,例如“给您播放恭喜发财”与用户完成交互,整体流程如图3所示。
通过该实施方式可以看出,利用流式语音解析引擎,不需要等用户说完整句话之后再进行语音识别,也避免了实时语义理解所需的成倍增长的计算量。本方法语义解析的耗时为末帧延迟(指从有效音频检测模块检测到人说完话,到出最终识别结果的时间),当识别模块实时输出识别结果时,将该识别结果实时输入流式语义解析引擎,那么会实时输出语义解析结果,那么此时语义解析引擎的耗时仅仅是最后一个字的解析时间,该耗时被大大缩减了,在不大幅度增加计算量的基础上,减少了用户的等待时间,提升了用户体验。进一步地,基于本方法的语义理解,还可以实现实时语义打断。在系统播报合成音的时候,如果合成播报太长,用户不想等待合成音播报完成,想插话打断合成音的播报,此时用户的语音通过流式语音识别识别出文本,同时经过流式语义理解模块解析出语义结果,如果语义结果符合设定则打断合成音的播报,这样既能够避免误打断,又能够最快打断合成音的播报。
如图4所示为本发明一实施例提供的一种用于口语对话的实时语义理解系统的结构示意图,该系统可执行上述任意实施例所述的用于口语对话的实时语义理解方法,并配置在终端中。
本实施例提供的一种用于口语对话的实时语义理解系统10包括:语音识别程序模块11,引擎状态确定程序模块12,语义推理程序模块13和语义理解程序模块14。
其中,语音识别程序模块11用于将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;引擎状态确定程序模块12用于利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;语义推理程序模块13用于所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;语义理解程序模块14用于若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于口语对话的实时语义理解方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于口语对话的实时语义理解方法。
图5是本申请另一实施例提供的用于口语对话的实时语义理解方法的电子设备的硬件结构示意图,如图5所示,该设备包括:
一个或多个处理器510以及存储器520,图5中以一个处理器510为例。用于口语对话的实时语义理解方法的设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的用于口语对话的实时语义理解方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于口语对话的实时语义理解方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息。输出装置540可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的用于口语对话的实时语义理解方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于口语对话的实时语义理解方法的步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于口语对话的实时语义理解方法,包括:
将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
2.根据权利要求1所述的方法,其中,若检测到用户语音没有结束,所述方法还包括:
持续的将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果;
利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行持续的推理,得到推理语义解析结果,并持续的对所述引擎状态进行更新。
3.根据权利要求1所述的方法,其中,所述利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态包括:
若所述语音请求标识不存在,将所述流式语义理解引擎设置为初始状态;
若所述语音请求标识存在,读取所述语音请求标识对应的引擎状态。
4.根据权利要求1所述的方法,其中,在所述将所述推理语义解析结果确定为所述用户语音的最终语义解析结果之后,所述方法还包括:
将所述最终语义解析结果发送至对话管理引擎,所述对话管理引擎根据所述最终语义解析结果生成用于响应用户的交互对话语音。
5.一种用于口语对话的实时语义理解系统,包括:
语音识别程序模块,用于将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果,其中,所述语音识别结果包括用于判断是否为同一句话的语音请求标识;
引擎状态确定程序模块,用于利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
语义推理程序模块,用于所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行推理,得到推理语义解析结果,并对所述引擎状态进行更新;
语义理解程序模块,用于若检测到用户语音结束,将所述推理语义解析结果确定为所述用户语音的最终语义解析结果。
6.根据权利要求5所述的系统,其中,所述语义理解程序模块用于:
若检测到用户语音没有结束,持续的将检测到的用户语音实时的输入至流式语音识别引擎,输出流式的语音识别结果;
利用流式语义理解引擎接收所述流式的语音识别结果,查询所述流式的语音识别结果内语音请求标识对应的引擎状态;
所述流式语义理解引擎根据所述引擎状态对所述流式的语音识别结果进行持续的推理,得到推理语义解析结果,并持续的对所述引擎状态进行更新。
7.根据权利要求5所述的系统,其中,所述引擎状态确定程序模块用于:
若所述语音请求标识不存在,将所述流式语义理解引擎设置为初始状态;
若所述语音请求标识存在,读取所述语音请求标识对应的引擎状态。
8.根据权利要求5所述的系统,其中,所述系统还包括交互程序模块,用于:
将所述最终语义解析结果发送至对话管理引擎,所述对话管理引擎根据所述最终语义解析结果生成用于响应用户的交互对话语音。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310074489.6A CN116052664A (zh) | 2023-01-30 | 2023-01-30 | 用于口语对话的实时语义理解方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310074489.6A CN116052664A (zh) | 2023-01-30 | 2023-01-30 | 用于口语对话的实时语义理解方法、系统和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052664A true CN116052664A (zh) | 2023-05-02 |
Family
ID=86133014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310074489.6A Pending CN116052664A (zh) | 2023-01-30 | 2023-01-30 | 用于口语对话的实时语义理解方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052664A (zh) |
-
2023
- 2023-01-30 CN CN202310074489.6A patent/CN116052664A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111049996B (zh) | 多场景语音识别方法及装置、和应用其的智能客服系统 | |
KR102437944B1 (ko) | 음성 웨이크업 방법 및 장치 | |
JP2021018797A (ja) | 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
US9064495B1 (en) | Measurement of user perceived latency in a cloud based speech application | |
WO2017166650A1 (zh) | 语音识别方法及装置 | |
CN108877804B (zh) | 语音服务方法、系统、电子设备及存储介质 | |
CN110223692B (zh) | 用于语音对话平台跨技能的多轮对话方法及系统 | |
US11416687B2 (en) | Method and apparatus for recognizing speech | |
CN111949240A (zh) | 交互方法、存储介质、服务程序和设备 | |
CN110995943A (zh) | 多用户流式语音识别方法、系统、设备及介质 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
CN114155854A (zh) | 语音数据的处理方法及装置 | |
WO2021077528A1 (zh) | 人机对话打断方法 | |
CN110502631B (zh) | 一种输入信息响应方法、装置、计算机设备和存储介质 | |
CN114299955B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN114171016B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN116052664A (zh) | 用于口语对话的实时语义理解方法、系统和电子设备 | |
CN112786031B (zh) | 人机对话方法及系统 | |
CN114078478B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN112397053A (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN111464644A (zh) | 一种数据传输方法及电子设备 | |
CN117496973B (zh) | 一种提升人机对话交互体验感的方法、装置、设备及介质 | |
US11893996B1 (en) | Supplemental content output | |
CN116153310A (zh) | 语音对话交互方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |