CN109524000A - 离线对话实现方法和装置 - Google Patents
离线对话实现方法和装置 Download PDFInfo
- Publication number
- CN109524000A CN109524000A CN201811625795.XA CN201811625795A CN109524000A CN 109524000 A CN109524000 A CN 109524000A CN 201811625795 A CN201811625795 A CN 201811625795A CN 109524000 A CN109524000 A CN 109524000A
- Authority
- CN
- China
- Prior art keywords
- technology
- developer
- speech recognition
- semantic understanding
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000005516 engineering process Methods 0.000 claims abstract description 184
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 42
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 238000009434 installation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开离线对话实现方法和装置,其中,一种离线对话实现方法,包括:获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;若开发者启用所述语音识别技术,获取用户的音频数据;基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。本实施例的方案能够实现全链路的离线对话及其定制,方便开发者的个性化定制及用户在无网络状态下的使用。
Description
技术领域
本发明属于语音对话技术领域,尤其涉及离线对话实现方法和装置。
背景技术
随着科学技术的发展,语音技术已逐步成为人工智能各领域的核心技术,是实现人机交互的纽带。通过将语音识别(Automatic Speech Recongnition,ASR)、自然语言理解(Natural Language Understanding,NLU)、语音合成(Text To Speech,TTS)技术,嵌入以语音交互为核心的人工智能开放平台,实现了人与机器之间的通信,或者将其嵌入以语音交互为核心的对话开放平台(Dialogue User Interface,DUI),设计了一种在线语音对话定制方法,以达到开发者可以定制综合服务的目的。然而,在实现人机交互过程中,由于集成多种功能的繁琐性,以及网络通信的局限性,本文提出了一种全链路离线对话在语音交互中应用方法。
语音识别主要是将人所发出的语音内容转换为可供计算机读入的文本信息。该技术是一种综合性的技术,涉及到多个学科领域,如声学、模式识别以及人工智能等。目前,语音识别主要采用基于统计模型的识别技术应用到大量词汇识别系统中,主要包括下列模块:(1)信号处理及特征提取模块,其任务主要是在经过降噪处理过的语音信号中提取特征,用于建立声学模型以及解码过程;(2)统计声学模型通常采用隐马尔科夫模型对词、音节、音素等基本声学单元进行建模,从而生成声学模型;(3)语言模型是在所需的识别语言的单词层面上进行建模,大多数都采用基于统计N元语法(N-gram)的语言模型或者其变体;(4)发音词典包含能处理的所有单词集合,并标明其发音。通过发音词典来构造声学模型的建模单元与语言模型建模单元间的映射关系,组成一个可供解码器使用的状态空间;(5)解码器是负责读取语音信号的特征序列,在声学模型、语言模型及发音词典生成的状态空间中,搜索出最大概率的信号词串。
自然语言理解是建立一种计算机模型,使其能够模拟人的交际过程,能够理解人类所使用的自然语言,实现与人之间的通信,给出像人那样理解问题、分析问题,并且回答问题,给出人所需要的结果,以至于可减少人的脑力劳动与体力劳动,从而可行使人的部分行为,包括查询天气、解决问题、闲聊,以及涉及一些由于人类自身局限性不能完成的任务。
语音合成又称文语转换,顾名思义是将文本转换为语音,利用计算机等设备将文本信息转换为音频数据,然后用音频播放器播出这些数据。该技术是人机交互过程中的核心之一,其目标是追求计算机输出的声音不仅能够被人所理解、清晰,而且具有亲和力和个性化,主要包括两个模块:语言处理模块负责对输入的文本句子进行分词操作,将短语、词、专有名称、缩略词等单元词汇,将其转为注音符号的表现形式,容易控制与处理;语音处理模块是从语音库中查找每个注音符号的合适实例,然后根据音长、韵律特征,以及停顿时间拼接文本句子对应的所有注音符号的实例,输出一个完整的语音数据流。
发明人在实现本申请的过程中发现:因为语音识别、自然语言理解、语音合成技术都是单一的技术,只能提供某一功能需求,所以开发者必须将各种技术嵌入到项目中才能实现人机交互功能。然而实现这种语音交互方式,须要开发者进行繁琐的集成操作,从输入音频数据到给出识别结果,然后再进行自然语言处理,给出语义结果,直至对话结果进行合成,才完成一轮人机交互。由此可看出,开发者须要承担大量的工作,不仅导致工作效率低下,而且消耗精力较大,从而申请人基于DUI平台推出了一种集语音识别、自然语言理解,以及语音合成技术于一身的在线语音对话定制方法,开发者仅仅须要输入音频数据即可得到对话结果。由此,不仅减少开发者的工作量,而且明显提高开发效率。除此之外,客户端还可定制说法,而服务端进行实时训练,便于开发者操作,实现各种业务功能,但是在网络受限的情况下,无法实现对话功能。
发明内容
本发明实施例提供一种离线对话实现方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种离线对话实现方法,包括:获取开发者初始化语音库时配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;若开发者启用所述语音识别技术,获取用户的音频数据;基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;以及若开发者未启用所述语音识别技术且启用了所述语义理解技术或所述对话管理技术,获取用户输入的第一文本信息。
第二方面,本发明实施例提供一种离线对话实现装置,包括:初始化模块,配置为获取开发者初始化语音库时配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;语音识别模块,配置为若开发者启用所述语音识别技术,获取用户的音频数据;识别结果输出模块,配置为基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;以及第一文本获取模块,配置为若开发者未启用所述语音识别技术且启用了所述语义理解技术或所述对话管理技术,获取用户输入的第一文本信息。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的离线对话实现方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的离线对话实现方法的步骤。
本申请的方法和装置提供的方案是集成语音识别、语义理解以及语音合成与一体的语音交互方案。与目前单项语音技术相比,该方案不仅可以通过配置参数来选择所需要的语音技术,获得相应的产品运行结果,而且还能够方便集成并应用于语音交互。另外,通过预先下载指定的离线资源包,在无网络场景下,不仅能够实现人机交互,而且无网络耗时,达到较高的运行效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种离线对话实现方法的流程图;
图2为本发明一实施例提供的另一种离线对话实现方法的流程图;
图3为本发明一实施例提供的又一种离线对话实现方法的流程图;
图4为本发明一实施例提供的再一种离线对话实现方法的流程图;
图5为本发明一实施例提供的一种离线对话实现方法的具体示例图;
图6为本发明一实施例提供的一种离线对话实现装置的框图;
图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的离线对话实现方法一实施例的流程图,本实施例的离线对话实现方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具、智能车载终端、智能家居等。以下实施例中,平台是开发者开发产品的平台,开发者是产品或技能的开发人,用户是产品或者技能的使用者。
如图1所示,在步骤101中,获取初始化阶段开发者配置的语音功能参数;
在步骤102中,若开发者启用语音识别技术,获取用户的音频数据;
在步骤103中,基于语法文件和语音识别技术对音频数据进行识别并输出语音识别结果;
在步骤104中,若开发者未启用语音识别技术且启用了语义理解技术,获取用户输入的第一文本信息。
在本实施例中,对于步骤101,离线对话实现装置先对数据进行初始化,在该阶段获取开发者配置的语音功能参数,其中,该语音功能参数至少包括语法文件路径和启用的语音技术,语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术中的一种或多种,开发者在定制相应的技能或产品时可能需要启用其中的一种或多种。之后,对于步骤102,若开发者启用了语音识别技术,则需要获取用户的音频数据。然后对于步骤103,基于语法文件和语音识别技术对该音频数据进行语音识别得到相应的语音识别结果。在一些实施例中,若只开启了语音识别技术,则可以直接输出语音识别结果。语法文件可以是开发者自己编写的,也可以是平台上已有的,本申请在此没有限制。最后,对于步骤104,如果开发者未启用语音识别技术,而是启用了之后的语义理解技术或者还有别的技术,则获取用户输入的第一文本信息,这样就是由用户直接提供不需要经过语音识别的文件,例如对于某些通常都只需要输入文字而不需要进行语音识别的产品,此种定制方式尤其适用。
本实施例的方法通过获取开发者初始化的参数信息决定之后启用哪些技术,从而之后生成或者获取相应的文件。其实,为了减少用户端安装包的容量,开发者在开发安装包的时候也只下载了相应的语音技术的模块安装包,从而可以有效地减少用户的负担,也便于开发者定制。
进一步参考图2,其示出了本申请一实施例提供的另一种离线对话实现方法的流程图。该流程图主要是针对流程图1的附加步骤的流程图。
如图2所示,在步骤201中,若开发者启用语义理解技术,对语音识别结果或第一文本信息进行语义理解并输出语义理解结果;
在步骤202中,若开发者未启用语义理解技术且启用了对话管理技术,获取用户输入的第二文本信息。
在本实施例中,对于步骤201,若开发者启用了语义理解技术,则对之前语音识别技术的识别结果或者直接从用户处获取的第一文本信息进行语义理解,并输出语义理解结果供后续的技术使用。当然,在一些实施例中,如果后续没有启用其他技术,也可以直接输出语义理解结果。之后,对于步骤202,若开发者未启用语义理解技术,并且启用了对话管理技术,则需要获取用户输入的第二文本信息供后续的对话管理技术在没有语义理解结果的情况下使用。
本实施例的方法通过对用户是否启用语义理解技术的方案做进一步限定,可以用于定制需要或者不需要语义理解技术的产品。对于不需要语义理解技术的产品,则需要直接获取用户输入的第二文本信息,当然该第二文本信息也可以与第一文本信息是同一文本信息,例如用户既未启用语音识别技术也未启用语义理解技术的话,两个文本信息就是同一种文本信息,本申请在此没有限制。
进一步参考图3,其示出了本申请一实施例提供的又一种离线对话实现方法的流程图。该流程图主要是针对流程图2的附加步骤的流程图。
如图3所示,在步骤301中,若开发者启用对话管理技术,对语义理解结果或第二文本信息进行对话管理处理并输出处理结果;
在步骤302中,若开发者未启用对话管理技术且启用了语音合成技术,获取用户输入的合成文本。
在本实施例中,对于步骤301,若开发者启用了对话管理技术,则对之前语义理解技术输出的语义理解结果或者直接从用户处获取的第二文本信息进行对话管理并输出处理结果。这种情况适用于外部的产品本身具有语音识别能力或者不需要语音识别,以及本身具有语义理解能力或者不需要语义理解能力的时候,需要借助平台的对话管理能力的情况。之后,对于步骤302,若开发者未启用对话管理技术同时启用了语音合成技术,则此时就不存在对话管理技术输出的处理结果,而是需要从用户处获取语音合成技术所需要的合成文本。
本实施例的方法可以对是否需要对话管理技术进行定制,从而更好地满足不同开发者的不同需求。其中,若用户未定制对话管理技术之后的语音合成技术,则可以直接向用户输出对话管理技术的处理结果。
进一步参考图4,其示出了本申请一实施例提供的又一种离线对话实现方法的流程图。该流程图主要是针对流程图1的附加步骤的流程图。
如图4所示,在步骤401中,若开发者启用对话管理技术,对第一文本信息进行对话管理处理并输出处理结果;
在步骤402中,若开发者未启用对话管理技术且启用了语音合成技术,获取用户输入的合成文本。
在本实施例中,主要是针对流程图1中的进一步限定。对于步骤401,对于未启用语音识别技术也未启用语义理解技术的产品,则跳过语音识别和语义理解,直接获取用户的第一文本信息,当然跳过的语音识别和语义理解也可能是因为产品本身具有相应的功能。对于步骤402,若开发者未启用对话管理技术同时启用了语音合成技术,则此时就不存在对话管理技术输出的处理结果,而是需要从用户处获取语音合成技术所需要的合成文本。
本实施例的方法主要是针对是否启用对话管理结束的处理步骤的流程。能够便于开发者对是否启用对话管理技术进行定制。在一些实施例中,若用户未定制对话管理技术之后的语音合成技术,则可以直接向用户输出对话管理技术的处理结果。
在一些可选的实施例中,上述方法还包括:若开发者启用语音合成技术,对处理结果或合成文本进行语音合成并播报语音合成音频。
在另一些可选的实施例中,上述方法还包括:若开发者未启用语音识别技术、语义理解技术、对话管理技术和语音合成技术中的任一项技术,直接结束。
综合上述所有的实施例,构成了一个全链路的离线对话定制方案,可以方便开发者更好地定制更适合自己的离线对话方案,因为可以自由地选择需要哪些技术,则在形成安装包时也可以不用非得带上一些根本不需要用到的模块,为安装包减负,开发者的定制体验好,用户的使用体验也好。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
在线语音对话定制技术是申请人基于DUI平台推出的一种在有网的情况下可以由开发者在对话系统时定制所需要的综合服务技术,如GUI定制、版本管理、私有云部署等。该技术的优势不仅是基于申请人智能语音技术的对话功能,而且完全依据开发者的需求随心所欲定制各种服务。
发明人发现,现有技术中,开发者需要承担繁重的任务,导致开发效率低,主要是由于目前主流的语音技术只提供单一能力,如仅支持语音识别,语义理解,语音合成等,将所有的对话交互操作交由开发者来完成。而在实现人机交互的过程中,首先,开发者须要调研项目中用到的所有技术,进行慎重选择;其次,还要学习使用这些技术;最后集成所需的语音技术与一体来实现人机交互。另外,在无网络的场景下,使用现有的有线语音技术无法实现人与机器之间的通信,进而机器无法行使人的行为。
而从不同的角度的角度分析同一问题可得出不同的结论,目前业内人员仅仅考虑语音技术本身的缺陷,如语音识别错误,语义结果不正确等相关问题,从而忽略了开发者集成这些语音功能的复杂性。另外,现有的语音技术都是支持局部范围内的识别、语义、对话,缺乏灵活性,给众多开发者实现的业务逻辑功能带来不便。而为了尽可能减少开发者工作量,提高工作效率,业内人员又将语音交互的主要工作放在服务端执行。然而这种方案又明显存在网络局限性。
因此,针对特殊场景,本申请提供了人机交互的规模化定制,完全在客户端实现语音识别、语义理解,语音合成等功能于一体,并且具有较高的识别率,特定场景的发音人。
针对网络受限的情况,本申请设计了一种全链路离线对话在语音交互中的应用方法,在客户端直接实现人机交互需要的所有功能,从而可脱离服务操作的局限性。
本申请的方案从开发者的角度来看,由于目前的主流语音技术使开发者完成语音交互的过程中须要承担大量的工作,导致工作率较低,所以推出了全链路集成方案,集语音识别、语义理解、语音合成功能与一体的产品,从而减少开发者工作,提高开发效率,又因为目前语音技术缺乏灵活性,所以本文方法有支持规模化定制,完全由开发者根据业务要求定制自需功能。除此之外,又由于存在无网络场景的人机交互情况,因此本文推出了全链路离线对话方法。
本方案主要是在无网络的场景中应用于语音交互,主要的工作流程分为两部分,其一是从DUI平台下载所需的离线资源包与语音库;其二是将资源包导入到工程项目中,并集成语音库,主要的工作原理,参考图5。
第一步:语音库的初始化,配置语音功能参数。包括识别的语法文件绝对路径,合成音资源路径,需要的语音技术等。
第二步:输入音频数据,根据语法文件对语音进行识别。若仅使用语音识别技术则给出识别结果。
第三步:针对识别结果进行自然语言处理,进行语义分析。若仅使用自然语言处理技术,则输出语义结果。
第四步:用对话管理技术对语义结果进行处理。若仅使用对话管理技术则输出对话结果。
第五步:采用语音合成技术,播报对话结果。若仅使用合成技术,则输出音频数据流。
发明人在实现本申请的过程中,还采用过如下备选方案,并总结了该备选方案的优点和缺点。
针对单项语音技术仅仅提供单独语音功能的缺点,最初提出的离线对话方案是集功能与一体,便于开发者集成语音功能,只需要输入音频数据流,即可得到对话结果,其优点是简洁、鲜明。然而,该方案由于不能让体现单一语音功能,所有在本文提出的方案中,通过配置相关参数,使开发者不仅能使用单项语音技术,而且能达到全链路语音交互的目的。因此,全链路离线对话方案在语音交互中更具有灵活性与耦合性。
全链路离线对话方案目的是为了开发者在无网络的场景下可以更好的实现人与机器之间的通信,并且可以高效、灵活、快捷地满足用户需求。然而完全使用资源一体化的离线方案实现人机交互,则会导致资源包的大小剧增,集成一些不需要的资源。因此,针对不同的任务需求,该方案可定制不同的离线资源包,通过网络下载所需要资源包集成在客户端,已达到节省设备存储空间的目的。但是资源一体化的离线方案优点在于集资源于一体,操作便捷。
全链路离线对话是集成语音识别、语义理解以及语音合成与一体的语音交互方案。与目前单项语音技术相比,该方案不仅可以通过配置参数来选择所需要的语音技术,获得相应的产品运行结果,而且还能够方便集成并应用于语音交互。除此之外,该方案还提供配置识别语法文件,以便满足开发者自定义说法的需求。另外,通过预先下载指定的离线资源包,在无网络场景下,不仅能够实现人机交互,而且无网络耗时,达到较高的运行效率。
请参考图6,其示出了本发明一实施例提供的离线对话实现装置的框图。
如图6所示,离线对话实现装置600,包括初始化模块610、语音识别模块620、识别结果输出模块630和第一文本获取模块640。
其中,初始化模块610,配置为获取开发者初始化语音库时配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;语音识别模块620,配置为若开发者启用所述语音识别技术,获取用户的音频数据;识别结果输出模块630,配置为基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;以及第一文本获取模块640,配置为若开发者未启用所述语音识别技术且启用了所述语义理解技术,获取用户输入的第一文本信息。
在一些可选的实施例中,离线对话实现装置600还包括:理解结果输出模块(图中未示出),配置为若开发者启用所述语义理解技术,对所述语音识别结果或所述第一文本信息进行语义理解并输出语义理解结果;以及第二文本获取模块(图中未示出),配置为若开发者未启用所述语义理解技术且启用了所述对话管理技术,获取用户输入的第二文本信息。
应当理解,图6中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如反馈模块可以描述为向所述客户端反馈是否成功唤醒的结果的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如反馈模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的离线对话实现方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;
若开发者启用所述语音识别技术,获取用户的音频数据;
基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;
若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据离线对话实现装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至离线对话实现装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项离线对话实现方法。
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。离线对话实现方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例离线对话实现方法。输入装置730可接收输入的数字或字符信息,以及产生与离线对话实现装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于离线对话实现装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;
若开发者启用所述语音识别技术,获取用户的音频数据;
基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;
若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种离线对话实现方法,包括:
获取初始化阶段开发者配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;
若开发者启用所述语音识别技术,获取用户的音频数据;
基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;
若开发者未启用所述语音识别技术且启用了所述语义理解技术或对话管理技术,获取用户输入的第一文本信息。
2.根据权利要求1所述的方法,其中,所述方法还包括:
若开发者启用所述语义理解技术,对所述语音识别结果或所述第一文本信息进行语义理解并输出语义理解结果;
若开发者未启用所述语义理解技术且启用了所述对话管理技术,获取用户输入的第二文本信息。
3.根据权利要求2所述的方法,其中,所述方法还包括:
若开发者启用所述对话管理技术,对所述语义理解结果或所述第二文本信息进行对话管理处理并输出处理结果;
若开发者未启用所述对话管理技术且启用了所述语音合成技术,获取用户输入的合成文本。
4.根据权利要求1所述的方法,其中,所述方法还包括:
若开发者启用所述对话管理技术,对所述第一文本信息进行对话管理处理并输出处理结果;
若开发者未启用所述对话管理技术且启用了所述语音合成技术,获取用户输入的合成文本。
5.根据权利要求3或4所述的方法,其中,所述方法还包括:
若开发者启用所述语音合成技术,对所述处理结果或所述合成文本进行语音合成并播报语音合成音频。
6.根据权利要求5所述的方法,其中,所述方法还包括:
若开发者未启用所述语音识别技术、所述语义理解技术、所述对话管理技术和所述语音合成技术中的任一项技术,直接结束。
7.一种离线对话实现装置,包括:
初始化模块,配置为获取开发者初始化语音库时配置的语音功能参数,其中,所述语音功能参数至少包括语法文件路径和启用的语音技术,所述语音技术包括语音识别技术、语义理解技术、对话管理技术和语音合成技术;
语音识别模块,配置为若开发者启用所述语音识别技术,获取用户的音频数据;
识别结果输出模块,配置为基于所述语法文件和所述语音识别技术对所述音频数据进行识别并输出语音识别结果;
第一文本获取模块,配置为若开发者未启用所述语音识别技术且启用了所述语义理解技术,获取用户输入的第一文本信息。
8.根据权利要求7所述的装置,其中,所述装置还包括:
理解结果输出模块,配置为若开发者启用所述语义理解技术,对所述语音识别结果或所述第一文本信息进行语义理解并输出语义理解结果;
第二文本获取模块,配置为若开发者未启用所述语义理解技术且启用了所述对话管理技术,获取用户输入的第二文本信息。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625795.XA CN109524000A (zh) | 2018-12-28 | 2018-12-28 | 离线对话实现方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811625795.XA CN109524000A (zh) | 2018-12-28 | 2018-12-28 | 离线对话实现方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109524000A true CN109524000A (zh) | 2019-03-26 |
Family
ID=65797855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811625795.XA Pending CN109524000A (zh) | 2018-12-28 | 2018-12-28 | 离线对话实现方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109524000A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289301A (zh) * | 2020-11-03 | 2021-01-29 | 苏州思必驰信息科技有限公司 | Tts预合成方法及系统 |
CN112562679A (zh) * | 2020-11-26 | 2021-03-26 | 浪潮金融信息技术有限公司 | 一种离线语音交互方法、装置及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149121A1 (en) * | 2002-12-19 | 2014-05-29 | At&T Intellectual Property Ii, L.P. | Method of Handling Frequently Asked Questions in a Natural Language Dialog Service |
CN104538031A (zh) * | 2014-12-15 | 2015-04-22 | 北京云知声信息技术有限公司 | 智能语音服务开发云平台及方法 |
CN107590718A (zh) * | 2017-08-31 | 2018-01-16 | 科大讯飞股份有限公司 | 共享技能开发平台及方法、共享技能应用平台及方法 |
CN108737324A (zh) * | 2017-04-13 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 生成人工智能服务组件的方法、装置及相关设备、系统 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN108984157A (zh) * | 2018-07-27 | 2018-12-11 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的技能配置和调用方法及系统 |
-
2018
- 2018-12-28 CN CN201811625795.XA patent/CN109524000A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140149121A1 (en) * | 2002-12-19 | 2014-05-29 | At&T Intellectual Property Ii, L.P. | Method of Handling Frequently Asked Questions in a Natural Language Dialog Service |
CN104538031A (zh) * | 2014-12-15 | 2015-04-22 | 北京云知声信息技术有限公司 | 智能语音服务开发云平台及方法 |
CN108737324A (zh) * | 2017-04-13 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 生成人工智能服务组件的方法、装置及相关设备、系统 |
CN107590718A (zh) * | 2017-08-31 | 2018-01-16 | 科大讯飞股份有限公司 | 共享技能开发平台及方法、共享技能应用平台及方法 |
CN108984157A (zh) * | 2018-07-27 | 2018-12-11 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的技能配置和调用方法及系统 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289301A (zh) * | 2020-11-03 | 2021-01-29 | 苏州思必驰信息科技有限公司 | Tts预合成方法及系统 |
CN112562679A (zh) * | 2020-11-26 | 2021-03-26 | 浪潮金融信息技术有限公司 | 一种离线语音交互方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10810997B2 (en) | Automated recognition system for natural language understanding | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
Pieraccini et al. | Where do we go from here? Research and commercial spoken dialogue systems | |
JP2021103328A (ja) | 音声変換方法、装置及び電子機器 | |
US8478578B2 (en) | Mobile speech-to-speech interpretation system | |
US9390725B2 (en) | Systems and methods for noise reduction using speech recognition and speech synthesis | |
US8560321B1 (en) | Automated speech recognition system for natural language understanding | |
CN109637548A (zh) | 基于声纹识别的语音交互方法及装置 | |
US20140028780A1 (en) | Producing content to provide a conversational video experience | |
CN110234032A (zh) | 一种语音技能创建方法及系统 | |
WO2021227308A1 (zh) | 一种视频资源的生成方法和装置 | |
CN110517692A (zh) | 热词语音识别方法和装置 | |
CN110349569A (zh) | 定制化产品语言模型的训练和识别方法及装置 | |
KR20190109651A (ko) | 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 | |
KR20200011198A (ko) | 대화형 메시지 구현 방법, 장치 및 프로그램 | |
CN109243450A (zh) | 一种交互式的语音识别方法及系统 | |
KR102312993B1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
CN111462726B (zh) | 一种外呼应答方法、装置、设备及介质 | |
CN109524000A (zh) | 离线对话实现方法和装置 | |
CN114023309A (zh) | 语音识别系统、相关方法、装置及设备 | |
CN110473524A (zh) | 语音识别系统的构建方法和装置 | |
CN110516043A (zh) | 用于问答系统的答案生成方法和装置 | |
CN109712622A (zh) | 用于语音对话平台的语音交互异常处理的配置方法及系统 | |
CN113823300B (zh) | 语音处理方法及装置、存储介质、电子设备 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |