CN109408799A - 语义决策方法和系统 - Google Patents
语义决策方法和系统 Download PDFInfo
- Publication number
- CN109408799A CN109408799A CN201810923012.XA CN201810923012A CN109408799A CN 109408799 A CN109408799 A CN 109408799A CN 201810923012 A CN201810923012 A CN 201810923012A CN 109408799 A CN109408799 A CN 109408799A
- Authority
- CN
- China
- Prior art keywords
- result
- language
- user
- semantic
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000003860 storage Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000007726 management method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种语义决策方法和系统。所述方法包括:针对用户输入话语进行语义解析以获取多个语义分类结果;根据剧本对所述多个语义分类结果进行预判;基于所述预判进行查询与排序以得到最优的多个排序分类结果;以及基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。本发明采用NLU多路输出的方式,在DM和US模块根据对话状态和多路召回结果内容综合做决策,由此提升对话系统答案准确率并改善用户体验。
Description
技术领域
本发明涉及计算领域,尤其涉及一种语义决策方法和系统,以及可以使用上述方法的语音对话系统。
背景技术
随着计算机和人工智能技术的发展,对话系统或是聊天机器人也已变得愈发智能。现有的对话系统大致可以分为基于文本和基于语音两类。在这其中,语音对话系统(也可称为口语对话系统)以其输入方便而得到越来越广泛的应用。
图1示出了现有口语对话系统的处理流程示意图。如图1所示,用户语音经过语音识别模块(Automatic Speech Recognition,ASR)产生语音识别结果,即用户话语;随后自然语言理解模块(Natural Language Understanding,NLU)对用户话语进行语义解析;对话管理模块(Dialog Management,DM)根据NLU语义解析结果选择需要执行的系统行为。自然语音生成模块(Natural Language Generation,NLG)根据系统行为结果生成自然语言或者说是系统话语;最后,生成的语言由语音合成模块(Text-to-Speech,TTS)朗读给用户听。
现有的对话系统逻辑依赖于NLU识别出一个明确技能,DM根据NLU识别出来的该技能进行接下来的对话处理。这种处理方式在对话系统各技能的数据边界清晰的情况下可以满足需求,随着技能建设步骤加快和技能增多,技能间的边界开始变得模糊,使得NLU通常不具备足够的信息判断是否属于某个特定技能。这在涉及问答、知识图谱(KnowledgeGraph,KG)、百科技能的情况下尤其如此。这时仅凭NLU分类模型将难以实现对查询的精确领域分类。如,“刘德华有哪些歌曲”这个查询在现有系统中会被分到音乐播放领域,但其实问答系统可以给出更好的答案。
针对如上情况,对话系统仍然依赖于NLU给出的唯一分类结果做后续的处理,会加大系统召回错误率,导致用户体验下降。
为此,需要一种能够召回更准确分类结果的方案。
发明内容
为了解决如上至少一个问题,本发明提出了一种语义决策方法和系统,采用NLU多路输出的方式,在DM和US模块根据对话状态和多路召回结果内容综合做决策,由此提升对话系统答案准确率并改善用户体验。
根据本发明的一个方面,提出了一种语义决策方法,包括:针对用户输入话语进行语义解析以获取多个语义分类结果;根据剧本对所述多个语义分类结果进行预判;基于所述预判进行查询与排序以得到最优的多个排序分类结果;以及基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。由此,可以通过综合判断语义分类和排序分类的结果来获取更为精确的最终分类结果。
优选地,针对用户输入话语进行语义解析以获取多个语义分类结果可以包括:针对用户输入的话语进行模型和模式分类以分别获取最优的多个语义分类结果。由此能够基于训练出的模型和挖掘出的规则两者获取更为全面的分类结果。
根据剧本对所述多个语义分类结果进行预判包括:根据多个剧本分别对所述多个语义分类结果进行并行预判。由此提升DM的处理效率。
基于所述预判进行查询与排序以得到最优的多个排序分类结果可以包括:基于所述预判确定需要进行查询的内容服务;查询所述内容服务并返回查询结果;以及对所述查询结果进行排序以得到最优的多个排序分类结果。由此,能够通过针对恰当内容服务的查询,获取所需的排序分类结果。
所述内容服务可以包括如下的至少一项:技能服务;问答服务;以及闲聊服务。优选地,技能服务包括如下的至少一项:精确触发技能服务;非精确触发技能服务;以及第三方技能服务。
根据剧本对所述多个语义分类结果进行预判可以包括:根据剧本以及用户输入话语历史信息对所述多个语义分类结果进行预判。由此能够更好地应对多轮对话的情况。
基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果可以包括:所述剧本基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。优选地,所述剧本还基于用户输入话语历史信息来确定用户输入话语的最终分类结果。
根据本发明的另一个方面,提出了一种语音对话方法,包括:获取用户输入语音以进行语音识别;针对经语音识别的用户输入话语进行根据如上任意方法所述的语义决策;基于所述语义决策的最终分类结果,给出经语音合成的系统输出语音。
根据本发明的又一个方面,提出了一种语义决策系统,包括:自然语言理解模块,用于针对用户输入话语进行语义解析以获取多个语义分类结果;对话管理模块,用于根据剧本对所述多个语义分类结果进行预判;搜索聚合模块,用于基于所述预判进行查询与排序以得到最优的多个排序分类结果,并且所述对话管理模块根据所述剧本基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。
优选地,所述自然语言理解模块可以针对用户输入的话语进行模型和模式分类以分别获取最优的多个语义分类结果。
优选地,所述对话管理模块可以根据多个剧本分别对所述多个语义分类结果进行并行预判。
所述搜索聚合模块可以包括多个内容服务模块,并且所述搜索聚合模块基于所述预判确定需要进行查询的内容服务模块,所述内容服务模块进行查询并返回查询结果,以及所述搜索聚合模块对所述查询结果进行排序以得到最优的多个排序分类结果。
所述内容服务模块可以包括如下的至少一项:技能服务访问统一入口;问答服务访问统一入口;以及闲聊服务访问入口。优选地,技能服务访问统一入口访问如下至少一项的服务:精确触发技能服务;非精确触发技能服务;以及第三方技能服务。
优选地,所述对话管理模块还据用户输入话语历史信息对所述多个语义分类结果进行预判和/或确定所述最终分类结果。
根据本发明的另一个方面,提出了一种语音对话系统,包括:自动语音识别模块,用于获取用户输入语音以进行语音识别;根据如上任一项所述语义决策系统,用于针对经语音识别的用户输入话语进行语义决策;语音合成模块,用于基于所述语义决策的最终分类结果,给出经语音合成的系统输出语音。
根据本发明的再一个方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上任一项所述的语义决策方法。
根据本发明的一个方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上任一项所述的语义决策方法。
在本发明的语义决策方案中,NLU可以基于模型和模式(也可称为规则)给出NBest分类结果;DM根据NBest分类结果;利用对话状态、剧本树预判排序获得结果;US中根据内容服务返回结果进行排序。由此,使得对话系统的准确率和召回率得以提高。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了现有口语对话系统的处理流程示意图。
图2示出了根据本发明一个实施例的语义决策方法的流程示意图。
图3示出了根据本发明一个实施例的语义决策系统的结构示意图。
图4示出了根据本发明一个实施例的语义决策系统的整体架构图。
图5示出了根据本发明一个实施例的NLU分类流程的例子。
图6示出了根据本发明一个实施例可用于实现上述语义决策方法的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
如前所述,现有的对话系统逻辑依赖于NLU识别出一个明确技能,DM根据NLU识别出来的该技能进行接下来的对话处理。这种处理方式在应对技能间的模糊边界时不具备足够好的系统召回率,从而导致用户体验下降。
针对对话系统中众多领域分类中的边界模糊问题,本提案给出了一种结合多路预测和多路结果综合排序,选出最优结果的方法。针对用户语音输入,NLU结合模式(Pattern)和模型(Model)多种分类方法,给出可能的多个分类结果;对话管理模块根据NLU给出多个分类结果进行剧本预判,如果需要访问数据内容服务则请求搜索聚合模块(Union Search,US);US根据DM给出的多个分类结果从技能、问答等服务召回结果,做初步的筛选,返回US认为最优的前N条结果;对话管理模块于是可以根据US返回结果和对话历史返回最优结果。
在上述流程中,在分类阶段给出top N结果,进而在US做排序的时候可以利用结果内容信号做出进一步判断;同时在DM可以根据对话历史针对US给出的top N的结果进一步做排序,在这一步骤还可结合对话历史作为排序信号,进而返回最终结果。因此,本发明的语义决策方法利用结果内容和对话历史作为结果筛选的依据,而不是仅仅依赖于当前查询在NLU侧做出的唯一决策,从而提升了语义决策的准确率。
图2示出了根据本发明一个实施例的语义决策方法的流程示意图。
在步骤S210,可以针对用户输入话语进行语义解析以获取多个语义分类结果。在此,用户输入话语可以是用户输入的文本,也可以是经识别的用户输入语音,本发明在此不做限制。优选地,可以针对用户输入的话语进行模型(Model)和模式(Pattern)分类(如下将详述)以分别获取最优的多个语义分类结果。
在步骤S220,可以根据剧本对所述多个语义分类结果进行预判,优选地,可以根据多个剧本分别对所述多个语义分类结果进行并行预判。在进行预判时,还可以考虑用户输入话语历史信息。例如,在涉及多轮交互,尤其是主题相关的多轮交互时,可以根据在前问答信息来选择剧本和/或进行预判。
在步骤S230,可以基于所述预判进行查询与排序以得到最优的多个排序分类结果。在一个优选实施例中,步骤S230可以包括基于所述预判确定需要进行查询的内容服务(如下将详述);查询所述内容服务并返回查询结果;以及对所述查询结果进行排序以得到最优的多个排序分类结果。
随后在步骤S240,可以基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。类似地,在存在多轮问答的情况下,最终分类结果的确定也需要考虑用户输入话语历史信息。作为替换或者补充,可以根据剧本树的走向确定最终分类结果。
上述语义决策方法可由对应的语义决策系统实现。图3示出了根据本发明一个实施例的语义决策系统的结构示意图。如图3所示,系统300可以包括自然语言理解模块(NLU)310、对话管理模块(DM)320和搜索聚合模块(US)330。在这其中,NLU可用于执行上述步骤S210,即,用于针对用户输入话语进行语义解析以获取多个语义分类结果。DM可以执行步骤S220,即,用于根据剧本对所述多个语义分类结果进行预判。US则可以相应地执行步骤S230,以基于所述预判进行查询与排序以得到最优的多个排序分类结果。随后,步骤S240可由DM执行,例如,DM可以用于根据所述剧本基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。
由此,本发明的语义决策方案通过在NLU模块自然语言处理阶段给出多个可能的分类结果,US模块对多路结果做召回和排序返回,最终DM模块对多个分类结果做进一步的剧本树决策来给出最终的分类结果。
优选地,NLU模块可以综合模型和模式给出可能的多路分类(N-Best)预判结果。在此,模型(Model)可以指代基于数学建模等获取的分类模型。例如,可以采用诸如卷积神经网络(CNN)和循环神经网络(RNN)的深度学习网络或是最大熵模型来实现NLU模型的分类模型,并基于N-Best算法给出最优的N个分类结果。而模式则可指代例如基于大数据学习获取的相关性信息。例如,可以基于“北京天气”这样的用户输入总结出“[地点]+天气”的天气查询模型。
DM则可根据NLU给出的多路分类结果基于不同的剧本或剧本分支同时访问下游US服务获取召回结果。在此,剧本可以指代DM中的对话任务树。对话任务树是对话管理引擎中的重要组成部分,可由不同的代理组件组成。大部分的业务需求都可以描述为一个明确的对话任务,同时也可以细分为几个具体的对话子任务。DM通过对话任务树的形式描述对话任务的分层模型。一个对话任务可由一个对话任务树组成,对话任务树的每个代理节点可以负责处理一个子任务的执行。
US针对DM的多路请求访问内容服务(技能、问答、闲聊),召回结果,并对多路结果做排序,返回可能的多个结果,例如,使用N-Best算法获取。
随后,DM可以根据US返回的多路结果结合对话状态根据剧本树做进一步决策最终返回分值最高的结果。
图4示出了根据本发明一个实施例的语义决策系统的整体架构图。如下将结合图4,详细描述各个模块的功能及其优选实施例。
如图4所示,本发明的语义决策系统可以基于口语对话系统访问统一入口410(Sds_gw,Spoken dialog system gateway)接入口语对话系统。具体地,系统可以从该Sds_gw 410获取用户输入话语,并将经过语义决策的最高分类结果返回给Sds_gw 410。
获取的用户输入话语可以被直接输入给NLU 430,而在如图4所示DM 420作为整体管理框架的情况下,则可由DM 420与Sds_gw 410直接相接,并将获取的待分析的用户输入话语送入NLU 430。
图5示出了根据本发明一个实施例的NLU分类流程的例子。如图5所示,NLU 430首先可以对输入的用户话语(查询)进行预处理,以完成分词、实体识别等基础处理。随后,将经预处理的用户查询分别送入模型分类和模式分类。在这其中,模型分类可以给出NBest分类结果,模式匹配也可以给出其相应的NBest分类结果。如图5所示,用户输入被送入快递和基于位置两个模型中,即图中的Domain:sys.express和Domain:sys.lbs模型,两模型的意图分别在于检查(Intent:check)和休息(Intent:rest),并且可以分别为该用户查询打分(都为Score:0.6)。同时,用户输入还被送入百科模式分类中,即图中的Domain:sys.baike,该模式的意图在搜索(Intent:search)并且同样可以为该用户查询打分(Score:0.5)。在此,模式分类可以基于已有的词条分级或模式挖掘进行构建。
在根据上述获取了多个分类结果之后,可以送入如图5所示的排序处理单元(RankProcessor)进行综合排序过滤并给出最优的N个分类结果。
由NLU 430给出的最优的N个分类结果随后可被返回给DM 420。DM支持NLU所给的Nbest输入结果,并且可以对Nbest结果进行决策判断。决策的主要过程可以包括:
1.剧本预判;对N个分类结果的技能进行剧本预判,判定系统是需要做出回应、询问还是当前状态已具备访问US的条件。DM 420中可以包括回应代理,用于对对话过程中的槽位以及执行外部调用获取的数据进行格式化处理,形成一个回应指令,输出到NLG服务产生自然语言或是直接输出回应文本。DM 420中还可包括询问代理,用于在对话过程中会向用户发起询问行为以获取关联的信息。例如当执行一个寄快递的任务时,快递公司是任务执行必需的数据,当用户的输入中没有此信息时,DM会做出询问用户的行为,比如:“请问您想寄的快递公司是哪家?”
2.US排序;当剧本预判当前状态已具备访问US的条件时,可以将所有具备访问US的技能传给US 440,得到US决策所得最优的N个排序分类结果。
3.综合决策;经过前述流程之后,DM 410对剧本预判和US排序所得结果进行决策;在包括多轮问答的情况下根据DM对话状态的历史信息进行分值计算,同时根据NLU所给每个分类域(Domain)的分值进行综合阈值判断,给出对话系统最终决策结果。
US 440可以包括多个内容服务模块,并且所述搜索聚合模块基于所述预判确定需要进行查询的内容服务模块,所述内容服务模块进行查询并返回查询结果,以及所述搜索聚合模块对所述查询结果进行排序以得到最优的多个排序分类结果。
如图4所示,US 440可以根据DM 420的剧本预判结果访问三类下游服务:第三方用户技能服务、技能服务(可直接触发技能和非直接触发技能)、QS-US(问答US)。
在此,针对技能服务的访问可以通过技能数据访问统一入口441(Skill_Gw)实现,通过该入口441例如可以调用第三方技能服务和常规技能服务。第三方技能服务可以是用户直接配置的对应技能,上述技能可由特定的用户话语输入场景或是用户话语输入内容触发。第三方技能服务的接入提升了本发明的语义决策系统的可扩展性,并且可以通过DM下传US的调用而直接触发。
常规服务技能可以可由系统在ZEUS(宙斯)平台上维护,并且包括精确触发技能和非精确触发技能。精确触发技能可以指代能够直接访问的下游技能,比如输入“北京天气”能够触发天气查询返回精确的结果。非精确触发技能则通常无法直接返回精确结果。例如,输入“星座”的情况。
另外,在查询比较模糊时,还可以通过查询QA_US(问答数据访问统一入口)442来获取结果。通过该统一入口访问的问答数据可以具备多种形制,例如通用、精准、高质量和百科数据库。在其他实施例中,还可以通过Chat_bot(闲聊系统访问入口,图4中未示出)进行更大范围内的查询。
随后,US 440可以对各下游返回的结果做综合决策,返回排序前N个排序分类结果,以供DM 420进行如上所述的决策。
由此,本发明的语义决策方案能够基于NBest算法,采用NLU多路输出的方式,在DM和US模块中根据对话状态和多路召回结果内容进行综合决策获取最终分类结果,由此提升对话系统答案准确率,并改善用户体验。
如上已经结合图2-5描述了根据本发明的语义决策方法和系统及其优选实施例。本发明的语义决策方案可以在各种形式下的人机交互系统中使用。例如,可以在基于文本或是基于口语的系统中使用。
在一个实施例中,本发明还涉及一种语音对话方法,包括:获取用户输入语音以进行语音识别;针对经语音识别的用户输入话语进行如上所述所述的语义决策;以及基于所述语义决策的最终分类结果,给出经语音合成的系统输出语音。
在另一个实施例中,本发明还涉及一种语音对话系统,包括:自动语音识别模块,用于获取用户输入语音以进行语音识别;如上所述语义决策系统,用于针对经语音识别的用户输入话语进行语义决策(例如,可以经由Sds_gw接入);以及语音合成模块,用于基于所述语义决策的最终分类结果,给出经语音合成的系统输出语音。
图6示出了根据本发明一个实施例可用于实现上述语义决策方法的计算设备的结构示意图。
参见图6,计算设备600包括存储器610和处理器620。
处理器620可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器620可以使用定制的电路实现,例如特定用途集成电路(ASIC)或者现场可编程逻辑门阵列(FPGA)。
存储器610可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器610可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器610可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器610上存储有可执行代码,当可执行代码被处理器620处理时,可以使处理器620执行上文述及的语义决策方法。
上文中已经参考附图详细描述了根据本发明的语义决策方法和系统。在本发明的语义决策方案中,NLU可以基于模型和模式(也可称为规则)给出NBest分类结果;DM根据NBest分类结果;利用对话状态、剧本树预判排序获得结果;US中根据内容服务返回结果进行排序。由此,使得对话系统的准确率和召回率得以提高。
[应用例]
当用户输入查询“纽约明天星期几”时,旧有处理流程如下:
NLU:识别出改查询应分到日历技能。
DM:根据NLU语义结果请求下游技能服务。
US:召回日历技能相关结果,给出基于国内日期的回答结果。
此种查询应该应属于时区技能,而此种查询和日历边界很模糊,分类模型很可能出现模糊地带,导致分类出现错误。
而采用本发明的语义决策方案的处理流程如下:
NLU:识别出该查询top N的分类结果,日历、时区。
DM:根据NLU给出的分类结果访问下游进行剧本预判,同时访问下游结果。
US并发访问下游技能服务获取结果,获取时区、日历结果,根据查询和结果相似度判断,返回时区技能结果。
由此,利用本发明的语义决策方案能够提供更为准确的反馈,由此提升用户体验。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (20)
1.一种语义决策方法,包括:
针对用户输入话语进行语义解析以获取多个语义分类结果;
根据剧本对所述多个语义分类结果进行预判;
基于所述预判进行查询与排序以得到最优的多个排序分类结果;以及基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。
2.如权利要求1所述的方法,其中,针对用户输入话语进行语义解析以获取多个语义分类结果包括:
针对用户输入的话语进行模型和模式分类以分别获取最优的多个语义分类结果。
3.如权利要求1所述的方法,其中,根据剧本对所述多个语义分类结果进行预判包括:
根据多个剧本分别对所述多个语义分类结果进行并行预判。
4.如权利要求1所述的方法,其中,基于所述预判进行查询与排序以得到最优的多个排序分类结果包括:
基于所述预判确定需要进行查询的内容服务;
查询所述内容服务并返回查询结果;以及
对所述查询结果进行排序以得到最优的多个排序分类结果。
5.如权利要求4所述的方法,其中,所述内容服务包括如下的至少一项:
技能服务;
问答服务;以及
闲聊服务。
6.如权利要求5所述的方法,其中,所述技能服务包括如下的至少一项:
精确触发技能服务;
非精确触发技能服务;以及
第三方技能服务。
7.如权利要求1所述的方法,其中,根据剧本对所述多个语义分类结果进行预判包括:
根据剧本以及用户输入话语历史信息对所述多个语义分类结果进行预判。
8.如权利要求1所述的方法,其中,基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果包括:
所述剧本基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。
9.如权利要求8所述的方法,其中,所述剧本还基于用户输入话语历史信息来确定用户输入话语的最终分类结果。
10.一种语音对话方法,包括:
获取用户输入语音以进行语音识别;
针对经语音识别的用户输入话语进行根据权利要求1-9中任一项所述的语义决策;
基于所述语义决策的最终分类结果,给出经语音合成的系统输出语音。
11.一种语义决策系统,包括:
自然语言理解模块,用于针对用户输入话语进行语义解析以获取多个语义分类结果;
对话管理模块,用于根据剧本对所述多个语义分类结果进行预判;
搜索聚合模块,用于基于所述预判进行查询与排序以得到最优的多个排序分类结果,并且
所述对话管理模块根据所述剧本基于所述多个语义分类结果和所述多个排序分类结果确定用户输入话语的最终分类结果。
12.如权利要求11所述的系统,其中,所述自然语言理解模块针对用户输入的话语进行模型和模式分类以分别获取最优的多个语义分类结果。
13.如权利要求11所述的系统,其中,所述对话管理模块根据多个剧本分别对所述多个语义分类结果进行并行预判。
14.如权利要求11所述的系统,其中,所述搜索聚合模块包括多个内容服务模块,并且
所述搜索聚合模块基于所述预判确定需要进行查询的内容服务模块,
所述内容服务模块进行查询并返回查询结果,以及
所述搜索聚合模块对所述查询结果进行排序以得到最优的多个排序分类结果。
15.如权利要求14所述的系统,其中,所述内容服务模块包括如下的至少一项:
技能服务访问统一入口;
问答服务访问统一入口;以及
闲聊服务访问入口。
16.如权利要求15所述的系统,其中,所述技能服务访问统一入口访问如下至少一项的服务:
精确触发技能服务;
非精确触发技能服务;以及
第三方技能服务。
17.如权利要求11所述的系统,其中,所述对话管理模块还据用户输入话语历史信息对所述多个语义分类结果进行预判和/或确定所述最终分类结果。
18.一种语音对话系统,包括:
自动语音识别模块,用于获取用户输入语音以进行语音识别;
根据权利要求11-17中任一项所述语义决策系统,用于针对经语音识别的用户输入话语进行语义决策;
语音合成模块,用于基于所述语义决策的最终分类结果,给出经语音合成的系统输出语音。
19.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
20.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810923012.XA CN109408799B (zh) | 2018-08-14 | 2018-08-14 | 语义决策方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810923012.XA CN109408799B (zh) | 2018-08-14 | 2018-08-14 | 语义决策方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109408799A true CN109408799A (zh) | 2019-03-01 |
CN109408799B CN109408799B (zh) | 2024-03-29 |
Family
ID=65463551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810923012.XA Active CN109408799B (zh) | 2018-08-14 | 2018-08-14 | 语义决策方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408799B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110277086A (zh) * | 2019-06-25 | 2019-09-24 | 中国科学院自动化研究所 | 基于电网调度知识图谱的语音合成方法、系统及电子设备 |
CN110866105A (zh) * | 2019-11-15 | 2020-03-06 | 康佳集团股份有限公司 | 一种语义决策方法、移动终端及存储介质 |
CN112035632A (zh) * | 2020-08-21 | 2020-12-04 | 惠州市德赛西威汽车电子股份有限公司 | 一种适用于多对话机器人协作任务的择优分发方法和系统 |
CN112052316A (zh) * | 2020-08-12 | 2020-12-08 | 深圳市欢太科技有限公司 | 模型评估方法、装置、存储介质及电子设备 |
CN115394300A (zh) * | 2022-10-28 | 2022-11-25 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6751591B1 (en) * | 2001-01-22 | 2004-06-15 | At&T Corp. | Method and system for predicting understanding errors in a task classification system |
US20140257792A1 (en) * | 2013-03-11 | 2014-09-11 | Nuance Communications, Inc. | Anaphora Resolution Using Linguisitic Cues, Dialogue Context, and General Knowledge |
US20140257794A1 (en) * | 2013-03-11 | 2014-09-11 | Nuance Communications, Inc. | Semantic Re-Ranking of NLU Results in Conversational Dialogue Applications |
US20150081277A1 (en) * | 2014-08-28 | 2015-03-19 | Kambiz Behi | System and Method for Automatically Classifying Text using Discourse Analysis |
-
2018
- 2018-08-14 CN CN201810923012.XA patent/CN109408799B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6751591B1 (en) * | 2001-01-22 | 2004-06-15 | At&T Corp. | Method and system for predicting understanding errors in a task classification system |
US20140257792A1 (en) * | 2013-03-11 | 2014-09-11 | Nuance Communications, Inc. | Anaphora Resolution Using Linguisitic Cues, Dialogue Context, and General Knowledge |
US20140257794A1 (en) * | 2013-03-11 | 2014-09-11 | Nuance Communications, Inc. | Semantic Re-Ranking of NLU Results in Conversational Dialogue Applications |
US20150081277A1 (en) * | 2014-08-28 | 2015-03-19 | Kambiz Behi | System and Method for Automatically Classifying Text using Discourse Analysis |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110277086A (zh) * | 2019-06-25 | 2019-09-24 | 中国科学院自动化研究所 | 基于电网调度知识图谱的语音合成方法、系统及电子设备 |
CN110277086B (zh) * | 2019-06-25 | 2021-11-19 | 中国科学院自动化研究所 | 基于电网调度知识图谱的语音合成方法、系统及电子设备 |
CN110866105A (zh) * | 2019-11-15 | 2020-03-06 | 康佳集团股份有限公司 | 一种语义决策方法、移动终端及存储介质 |
CN110866105B (zh) * | 2019-11-15 | 2024-05-24 | 康佳集团股份有限公司 | 一种语义决策方法、移动终端及存储介质 |
CN112052316A (zh) * | 2020-08-12 | 2020-12-08 | 深圳市欢太科技有限公司 | 模型评估方法、装置、存储介质及电子设备 |
CN112035632A (zh) * | 2020-08-21 | 2020-12-04 | 惠州市德赛西威汽车电子股份有限公司 | 一种适用于多对话机器人协作任务的择优分发方法和系统 |
CN115394300A (zh) * | 2022-10-28 | 2022-11-25 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互装置、车辆和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109408799B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408799A (zh) | 语义决策方法和系统 | |
US10490186B2 (en) | Parameter collection and automatic dialog generation in dialog systems | |
CN107329967B (zh) | 基于深度学习的问答系统以及方法 | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
US11087094B2 (en) | System and method for generation of conversation graphs | |
US11200886B2 (en) | System and method for training a virtual agent to identify a user's intent from a conversation | |
CN110399609B (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
CN109408800A (zh) | 对话机器人系统及相关技能配置方法 | |
CN109284363A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
US11605376B1 (en) | Processing orchestration for systems including machine-learned components | |
CN107273406A (zh) | 任务对话系统中的对话处理方法及装置 | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN114945914A (zh) | 引用表达生成 | |
CN115064167A (zh) | 语音交互方法、服务器和存储介质 | |
CN117413262A (zh) | 基于经训练的生成式摘要模型确定用于通信转录的主题标签 | |
CN111144132B (zh) | 一种语义识别方法及装置 | |
CN114911929A (zh) | 分类模型训练方法、文本挖掘方法、设备及存储介质 | |
EP4352630A1 (en) | Reducing biases of generative language models | |
CN112559718B (zh) | 对话处理的方法、装置、电子设备和存储介质 | |
Papangelis et al. | Spoken dialogue for information navigation | |
US20230142272A1 (en) | Evaluating natural language processing components | |
CN112102807A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
US20230106590A1 (en) | Question-answer expansion | |
KR20200011251A (ko) | 대화 인지를 위한 규칙 생성 방법, 규칙 기반의 추론 방법 및 그 방법이 적용된 장치 | |
Chung et al. | A question detection algorithm for text analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210111 Address after: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 510627 unit 01, 13th floor, Tower B, Pingyun Plaza, 163 xipingyun Road, Huangpu Avenue, Tianhe District, Guangzhou City, Guangdong Province Applicant before: UC MOBILE (CHINA) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |