CN111128175B - 口语对话管理方法及系统 - Google Patents
口语对话管理方法及系统 Download PDFInfo
- Publication number
- CN111128175B CN111128175B CN202010060660.4A CN202010060660A CN111128175B CN 111128175 B CN111128175 B CN 111128175B CN 202010060660 A CN202010060660 A CN 202010060660A CN 111128175 B CN111128175 B CN 111128175B
- Authority
- CN
- China
- Prior art keywords
- context
- language
- information
- model
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种口语对话管理系统,包括:语音识别器、语言理解单元、对话管理器、语言生成单元、语音合成器、语境指导信息生成器、策略学习单元。此外,本发明还公开了一种口语对话管理方法。采用本发明的技术方案,对话管理器维护对话过程中的对话状态信息,系统根据当前的对话状态信息生成语境指导信息,并动态地指导语音识别器更好地识别当前语境中用户可能会使用的自然语言,大幅提高了语音识别的准确率;语音识别器不需要提前准备特定领域的训练语料并训练领域相关的语言模型,而是根据不同的语境动态调节语言模型,降低了提前训练语言模型的工作量,提高了人机对话系统的生产效率。
Description
技术领域
本发明涉及人机对话技术领域,特别涉及一种口语对话管理方法及系统。
背景技术
口语对话系统(Spoken Dialog System,简称SDS)以语音的形式与用户进行交互,并为用户提供特定的服务;口语对话系统通常由语音识别、语言理解、对话管理、语言生成、语音合成等模块构成。在口语对话系统中,对话管理(Dialog Management,简称DM)和自动语音识别(Automatic Speech Recognition,简称ASR)是两个相互独立的模块。其中,对话管理模块是口语对话系统中的核心模块,其前置模块将用户的输入转化为某种形式化语义表达,对话管理模块在此基础上决定下一步系统输出的形式化语义表达;输出的形式化语义表达在后续模块中被转化为某种输出形式,如图片、语音、文字、链接等。自动语音识别模块将用户语音转化为文字,一般需要声学模型和语言模型(Language Model,简称LM)等资源,其中语言模型负责从自然语言方面为自动语音识别解码器提供线索。发明人经研究发现,现有技术中口语对话系统的自动语音识别的计算过程和对话管理的状态无关。然而事实上,口语对话过程中的任意时刻,用户使用的自然语言都与当前的对话语境密切相关,其中许多信息是在对话过程中才能够动态获取的。
现有技术中,口语对话系统通常包括五个模块,如图1所示:语音识别模块;语言理解模块;对话管理模块;语言生成模块;语音合成模块。其中,语音识别模块主要依赖声学模型和语言模型两种资源,其中声学模型提供将声波识别为语音学建模单元的概率,语言模型提供语音学建模单元组成自然语言句子的概率,语音识别算法根据这两种概率,通过解码得到与输入的声波最匹配的自然语言句子,即语音识别的结果。当前,口语对话系统中语音识别模块的语言模型一般利用领域相关的自然语言数据,经过离线训练过程训练得到,并在执行语言识别任务之前提前加载到系统中。在执行语音识别时,指定使用和当前对话内容相近的特定领域的语言模型,可以有效地提高语音识别的准确率。
然而,经过发明人的研究发现,当前的口语对话系统中的自动语音识别模块和对话管理模块是相对独立的。自动语音识别模块中使用到的语言模型一般由提前收集的语料通过机器学习算法训练获得。从一方面来说,语料一般需要提前准备,并训练定制化模型,导致系统的迭代周期长、生产效率低。另一方面来说,对话过程中,用户使用的语言并非一成不变,而是会随着对话发生的场景、对话的话题、对话题讨论的深入程度、用户的关注点的变化而动态调整。然而提前收集的语料统计规律固定,导致提前训练的语言模型无法应对动态变化的对话语境。从对话管理的角度出发,语境信息也并不会反馈到语音识别模块中帮助其进行更好的识别。目前,尚未有专门解决这一问题的口语对话系统。
发明内容
基于此,为解决现有技术中的技术问题,特提出了一种口语对话管理方法,包括:
语音识别器接收用户输入的语音,利用语言模型及声学模型将用户输入的语音转化生成文字形式的语音识别结果,将语音识别结果输出至与其相连接的语言理解单元。
所述语言理解单元将其接收的语音识别结果转化生成形式化语义表达的语言理解结果,并将语言理解结果输出至与其相连接的对话管理器。
策略学习单元学习得到对话策略信息及语境指导模型,将所述对话策略信息输出至与其相连接的所述对话管理器,将所述语境指导模型输出至与其相连接的语境指导信息生成器。
所述对话管理器根据接收到的所述语言理解结果及所述对话策略信息更新其中保存的对话状态信息,将更新后的当前对话状态信息保存在所述对话管理器本地的同时输出至与其相连接的所述语境指导信息生成器;同时,所述对话管理器根据当前对话状态信息生成形式化语义表达的系统回应结果并输出至与其相连接的语言生成单元。
所述语境指导信息生成器根据接收到的所述语境指导模型以及当前对话状态信息生成当前语境指导信息,并将当前语境指导信息输出至与其相连接的所述语音识别器。
所述语音识别器接收当前语境指导信息,当前语境指导信息指导所述语音识别器动态地构造语言模型,并指导下一轮语音识别解码过程。
所述语言生成单元将所述对话管理器输入的形式化语义表达的系统回应结果转化生成为文字序列形式的语言生成结果,并输出至与其相连接的语音合成器。
所述语音合成器将接收到的文字序列形式的语言生成结果转化为语音并反馈输出至用户。
在一种实施例中,所述语境指导信息包括业务语境指导信息、话题语境指导信息。
在一种实施例中,策略学习单元学习得到对话策略信息及语境指导模型,具体包括:
在所述策略学习单元中学习得到所述对话管理器需要的对话策略信息;
在所述策略学习单元中构建区分不同业务语境的业务语境识别模型;所述策略学习单元构建相应的业务语境指导模型;
在所述策略学习单元中构建区分不同话题语境的话题语境识别模型;所述策略学习单元构建相应的话题语境指导模型;
所述策略学习单元利用其构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。
在一种实施例中,对话语料库连接至所述策略学习单元,所述策略学习单元具有开发者输入接口;
所述策略学习单元获取所述对话语料库中的语料,通过机器学习算法学习生成相应的对话策略信息及语境指导模型;
或者,所述策略学习单元接收通过所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型;
或者,所述策略学习单元获取所述对话语料库中的语料,同时接收通过所述开发者输入接口输入的配置信息,将二者进行信息融合后得到相应的对话策略信息及语境指导模型。
在一种实施例中,所述策略学习单元构建区分不同业务语境的业务语境识别模型时,为每种业务语境配置相应的匹配规则,所述匹配规则包括正则表达式或关键词;或者,所述策略学习单元从所述对话语料库中获取语料,并通过机器学习方法从语料中学习得到区分不同业务语境的业务语境识别模型;
其中,所述策略学习单元构建业务语境指导模型时,所述策略学习单元基于由所述开发者输入接口输入的配置信息中的业务语境知识来配置该业务语境中的常用词和常见说法,从而得到业务语境指导模型;或者,所述策略学习单元基于所述对话语料库的语料,利用机器学习方法训练得到业务语境指导模型。
在一种实施例中,所述策略学习单元构建区分不同话题语境的话题语境识别模型时为每种话题语境配置相应的匹配规则,所述匹配规则包括正则表达式或关键词;或者,所述策略学习单元从所述对话语料库中获取语料,并通过机器学习方法从语料中学习得到区分不同话题语境的话题语境识别模型;
其中,所述策略学习单元构建话题语境指导模型时,所述策略学习单元基于由所述开发者输入接口输入的配置信息中的话题语境知识来配置话题语境中的常用词和常见说法,从而得到话题语境指导模型;或者,所述策略学习单元基于所述对话语料库的语料,利用机器学习方法训练得到话题语境指导模型。
在一种实施例中,所述语言理解单元的一路输出连接至所述对话管理器,所述语言理解单元的另一路输出连接至所述语境指导信息生成器,所述语境指导信息生成器接收所述语言理解单元输入的语言理解结果;所述语境指导信息生成器根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。
此外,为解决现有技术中的技术问题,特提出了一种口语对话管理系统,包括语音识别器、语言理解单元、对话管理器、语言生成单元、语音合成器、语境指导信息生成器、策略学习单元;
所述语音识别器接收用户的语音输入,其输出连接至所述语言理解单元;所述语言理解单元的输出连接至所述对话管理器;所述对话管理器的输出连接至所述语言生成单元;所述语言生成单元的输出连接至所述语音合成器,由所述语音合成器向用户输出系统响应的语音;
所述对话管理器连接至所述语境指导信息生成器,所述语境指导信息生成器连接至所述语音识别器;
所述策略学习单元的一路输出连接至所述对话管理器,所述策略学习单元的另一路输出连接至所述语境指导信息生成器。
在一种实施例中,所述口语对话管理系统还包括对话语料库,所述对话语料库连接至所述策略学习单元;所述策略学习单元具有开发者输入接口。
在一种实施例中,所述语言理解单元的一路输出连接至所述对话管理器,所述语言理解单元的另一路输出连接至所述语境指导信息生成器。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为现有技术中口语对话系统的结构示意图;
图2为本发明公开的口语对话管理系统实施例一的结构示意图;
图3为本发明公开的口语对话管理系统实施例二的结构示意图;
包括,语音识别器1、语言理解单元2、对话管理器3、语言生成单元4、语音合成器5、策略学习单元6、语境指导信息生成器7。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种口语对话管理系统,如图2所示,所述口语对话管理系统包括语音识别器1、语言理解单元2、对话管理器3、语言生成单元4、语音合成器5、语境指导信息生成器7、策略学习单元6;
所述语音识别器1接收用户的语音输入,其输出连接至所述语言理解单元2;所述语言理解单元2的输出连接至所述对话管理器3;所述对话管理器3的输出连接至所述语言生成单元4;所述语言生成单元4的输出连接至所述语音合成器5,由所述语音合成器5向用户输出系统响应的语音;
所述对话管理器3连接至所述语境指导信息生成器7,所述语境指导信息生成器7连接至所述语音识别器1;
所述策略学习单元6的一路输出连接至所述对话管理器3,所述策略学习单元6的另一路输出连接至所述语境指导信息生成器7。
所述口语对话管理系统还包括对话语料库,所述对话语料库连接至所述策略学习单元6;所述策略学习单元6具有开发者输入接口。
其中,所述语境指导信息生成器7生成适用于当前的语境指导信息,并将该语境指导信息输出至与其相连接的所述语音识别器1;所述语音识别器1利用当前的语境指导信息来动态地构成语言模型,并指导下一轮语音识别解码过程。
如图3所示,在另一种实施例中,所述语言理解单元2的一路输出连接至所述对话管理器3,所述语言理解单元2的另一路输出连接至所述语境指导信息生成器7。
本发明还公开了一种口语对话管理方法,包括:
语音识别器1接收用户输入的语音,利用语言模型及声学模型将用户输入的语音转化生成文字形式的的语音识别结果,将语音识别结果输出至与其相连接的语言理解单元2;
所述语言理解单元2将其接收的语音识别结果转化生成形式化语义表达的语言理解结果,并将语言理解结果输出至与其相连接的对话管理器3;
策略学习单元6学习得到对话策略信息及语境指导模型,将所述对话策略信息输出至与其相连接的所述对话管理器3,将所述语境指导模型输出至与其相连接的语境指导信息生成器7;
所述对话管理器3根据接收到的所述语言理解结果及所述对话策略信息更新其中保存的对话状态信息,将更新后的当前对话状态信息保存在所述对话管理器3本地的同时输出至与其相连接的所述语境指导信息生成器7;同时,所述对话管理器3根据当前对话状态信息生成形式化语义表达的系统回应结果并输出至与其相连接的语言生成单元4;
所述语境指导信息生成器7根据接收到的所述语境指导模型以及当前对话状态信息生成当前语境指导信息,并将当前语境指导信息输出至与其相连接的所述语音识别器1;
所述语音识别器1接收当前语境指导信息,当前语境指导信息指导所述语音识别器1动态地构造语言模型,并指导下一轮语音识别解码过程;
所述语言生成单元4将所述对话管理器3输入的形式化语义表达的系统回应结果转化生成为文字序列形式的语言生成结果,并输出至与其相连接的语音合成器5;
所述语音合成器5将接收到的文字序列形式的语言生成结果转化为语音并反馈输出至用户。
其中,所述语境指导信息包括业务语境指导信息、话题语境指导信息。
其中,对话语料库连接至所述策略学习单元6,所述策略学习单元6具有开发者输入接口;
所述对话状态信息包括业务语境描述信息、话题语境描述信息、对话变量信息、由外部数据库或第三方接口获取的数据信息。
具体地,业务语境描述信息是指与具体业务相关的语境信息,例如保险业务中特有的犹豫期、续保等概念,或者完成某项业务流程所需执行的步骤,或者对话历史等;而话题语境描述信息是指具体的对话上下文中的语境信息,例如在客房服务业务中,客户在上一轮对话中提到需要送拖鞋到客房,但尚未提及数量,则当前话题语境中至少要包含拖鞋、拖鞋数量等内容。
其中,策略学习单元6学习得到对话策略信息及语境指导模型,具体包括:
在所述策略学习单元6中学习得到所述对话管理器3需要的对话策略信息;
在所述策略学习单元6中构建区分不同业务语境的业务语境识别模型;所述策略学习单元6构建相应的业务语境指导模型;
在所述策略学习单元6中构建区分不同话题语境的话题语境识别模型;所述策略学习单元6构建相应的话题语境指导模型;
所述策略学习单元6利用其构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。
其中,所述策略学习单元6构建区分不同业务语境的业务语境识别模型时,为每种业务语境配置相应的匹配规则,所述匹配规则包括正则表达式或关键词;或者,所述策略学习单元6从所述对话语料库中获取语料,并通过机器学习方法从语料中学习得到区分不同业务语境的业务语境识别模型;所述机器学习方法可以采用任意类型的机器学习模型,包括基于神经网络的分类模型或相似度匹配模型等。
其中,所述策略学习单元6构建业务语境指导模型时,所述策略学习单元6基于由所述开发者输入接口输入的配置信息中的业务语境知识来配置该业务语境中的常用词和常见说法,从而得到业务语境指导模型;或者,所述策略学习单元6基于所述对话语料库的语料,利用机器学习方法训练得到业务语境指导模型;所述机器学习方法可以采用任意类型的机器学习模型,包括TF-IDF(Term Frequency–Inverse Document Frequency)、基于表征学习的文本聚类等。
其中,所述策略学习单元6构建区分不同话题语境的话题语境识别模型时为每种话题语境配置相应的匹配规则,所述匹配规则包括正则表达式或关键词;或者,所述策略学习单元6从所述对话语料库中获取语料,并通过机器学习方法从语料中学习得到区分不同话题语境的话题语境识别模型;所述机器学习方法可以采用任意类型的机器学习模型,包括基于神经网络的分类模型或相似度匹配模型等。
其中,所述策略学习单元6构建话题语境指导模型时,所述策略学习单元6基于由所述开发者输入接口输入的配置信息中的话题语境知识来配置话题语境中的常用词和常见说法,从而得到话题语境指导模型;或者,所述策略学习单元6基于所述对话语料库的语料,利用机器学习方法训练得到话题语境指导模型;所述机器学习方法可以采用任意类型的机器学习模型,包括TF-IDF、基于表征学习的文本聚类等。
最后,所述策略学习单元6利用构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。
具体地,所述对话策略单元所生成的语境指导模型可以表达为四元组数据<B,BM, C, CM>,其中,B表示业务语境识别模型,BM表示业务语境指导模型,C表示话题语境识别模型,CM表示话题语境指导模型。
所述策略学习单元6具有开发者输入接口,在以上各个步骤中,开发者皆可以通过策略学习单元6的开发者输入接口向所述策略学习单元6输入配置信息,通过该种方式直接参与对话策略信息及语境指导模型的学习生成过程,得到相应的对话策略信息及语境指导模型。
特别地,所述策略学习单元6获取所述对话语料库中的语料,通过机器学习算法学习生成相应的对话策略信息及语境指导模型;
或者,所述策略学习单元6接收由所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型;
或者,所述策略学习单元6获取所述对话语料库中的语料,同时接收由所述开发者输入接口输入的配置信息,将二者进行信息融合后得到相应的对话策略信息及语境指导模型。
例如,在一种实际对话场景中,用户希望实时地获取附近餐馆的列表,并通过语音输入指示获取其中某家餐馆的位置和菜品信息。在此对话场景中,所有餐馆的名称、选中餐馆的菜品信息等构成了该对话的动态语境,而这些语言现象很可能在语音识别的训练过程中从未出现过。
具体地,在所述口语对话管理系统的工作过程中,所述对话管理器3向所述语境指导信息生成器7输出的对话状态信息可以表达为四元组数据<BI,CI,PI,DI>,其中BI、CI所表示的意义分别是业务语境描述信息、话题语境描述信息;PI表示当前对话中所有的对话变量信息,例如用户的电话号码、姓名,或者银行业务场景中用户的银行账号,或者电信业务场景中用户的花销花费等;DI表示由外部数据库或第三方接口获取的数据信息;
具体地,所述对话管理器3具有外部数据接口,所述外部数据接口连接至外部数据库或第三方接口;在对话策略信息的指示下,口语对话管理系统通过所述外部数据接口由外部数据库或第三方接口实时地获取数据信息;
如图3所示,在另一种实施例中,所述语言理解单元2的一路输出连接至所述对话管理器3,所述语言理解单元2的另一路输出连接至所述语境指导信息生成器7,所述语境指导信息生成器7接收所述语言理解单元2输入的语言理解结果;所述语境指导信息生成器7根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。
实施本发明实施例,将具有如下有益效果:
首先,对话管理器可以维护对话过程中的动态语境,系统根据当前的对话状态信息生成语境指导信息,并动态地指导语音识别器更好地识别当前语境中用户可能会使用的自然语言,大幅提高了语音识别的准确率;其次,对于语音识别器来说,不需要提前准备特定领域的训练语料并训练领域相关的语言模型,而是根据不同的语境来动态调节语言模型,降低了提前训练语言模型的工作量,提高了人机对话系统的生产效率。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种口语对话管理方法,其特征在于,包括:
语音识别器接收用户输入的语音,利用语言模型及声学模型将用户输入的语音转化生成文字形式的语音识别结果,将语音识别结果输出至与其相连接的语言理解单元;
所述语言理解单元将其接收的语音识别结果转化生成形式化语义表达的语言理解结果,并将语言理解结果输出至与其相连接的对话管理器;
策略学习单元学习得到对话策略信息及语境指导模型,将所述对话策略信息输出至与其相连接的所述对话管理器,将所述语境指导模型输出至与其相连接的语境指导信息生成器;
所述对话管理器根据接收到的所述语言理解结果及所述对话策略信息更新其中保存的对话状态信息,将更新后的当前对话状态信息保存在所述对话管理器本地的同时输出至与其相连接的所述语境指导信息生成器;同时,所述对话管理器根据当前对话状态信息生成形式化语义表达的系统回应结果并输出至与其相连接的语言生成单元;
所述语境指导信息生成器根据接收到的所述语境指导模型以及当前对话状态信息生成当前语境指导信息,并将当前语境指导信息输出至与其相连接的所述语音识别器;
所述语音识别器接收当前语境指导信息,当前语境指导信息指导所述语音识别器动态地构造语言模型,并指导下一轮语音识别解码过程;
所述语言生成单元将所述对话管理器输入的形式化语义表达的系统回应结果转化生成为文字序列形式的语言生成结果,并输出至与其相连接的语音合成器;
所述语音合成器将接收到的文字序列形式的语言生成结果转化为语音并反馈输出至用户。
2.根据权利要求1所述的口语对话管理方法,其特征在于,
其中,所述语境指导信息包括业务语境指导信息、话题语境指导信息。
3.根据权利要求2所述的口语对话管理方法,其特征在于,
其中,策略学习单元学习得到对话策略信息及语境指导模型,具体包括:
在所述策略学习单元中学习得到所述对话管理器需要的对话策略信息;
在所述策略学习单元中构建区分不同业务语境的业务语境识别模型;所述策略学习单元构建相应的业务语境指导模型;
在所述策略学习单元中构建区分不同话题语境的话题语境识别模型;所述策略学习单元构建相应的话题语境指导模型;
所述策略学习单元利用其构建的所述业务语境识别模型、所述话题语境识别模型、所述业务语境指导模型、所述话题语境指导模型中的一种或多种构成所述语境指导模型。
4.根据权利要求3所述的口语对话管理方法,其特征在于,
对话语料库连接至所述策略学习单元,所述策略学习单元具有开发者输入接口;
所述策略学习单元获取所述对话语料库中的语料,通过机器学习算法学习生成相应的对话策略信息及语境指导模型;
或者,所述策略学习单元接收由所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型;
或者,所述策略学习单元获取所述对话语料库中的语料,同时接收由所述开发者输入接口输入的配置信息,将二者进行信息融合后得到相应的对话策略信息及语境指导模型。
5.根据权利要求4所述的口语对话管理方法,其特征在于,
其中,所述策略学习单元构建区分不同业务语境的业务语境识别模型时,为每种业务语境配置相应的匹配规则,所述匹配规则包括正则表达式或关键词;或者,所述策略学习单元从所述对话语料库中获取语料,并通过机器学习方法从语料中学习得到区分不同业务语境的业务语境识别模型;
其中,所述策略学习单元构建业务语境指导模型时,所述策略学习单元基于由所述开发者输入接口输入的配置信息中的业务语境知识来配置业务语境中的常用词和常见说法,从而得到业务语境指导模型;或者,所述策略学习单元基于所述对话语料库的语料,利用机器学习方法训练得到业务语境指导模型。
6.根据权利要求4所述的口语对话管理方法,其特征在于,
其中,所述策略学习单元构建区分不同话题语境的话题语境识别模型时为每种话题语境配置相应的匹配规则,所述匹配规则包括正则表达式或关键词;或者,所述策略学习单元从所述对话语料库中获取语料,并通过机器学习方法从语料中学习得到区分不同话题语境的话题语境识别模型;
其中,所述策略学习单元构建话题语境指导模型时,所述策略学习单元基于由所述开发者输入接口输入的配置信息中的话题语境知识来配置话题语境中的常用词和常见说法,从而得到话题语境指导模型;或者,所述策略学习单元基于所述对话语料库的语料,利用机器学习方法训练得到话题语境指导模型。
7.根据权利要求1所述的口语对话管理方法,其特征在于,
所述语言理解单元的一路输出连接至所述对话管理器,所述语言理解单元的另一路输出连接至所述语境指导信息生成器,所述语境指导信息生成器接收所述语言理解单元输入的语言理解结果;所述语境指导信息生成器根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。
8.一种口语对话管理系统,其特征在于,包括语音识别器、语言理解单元、对话管理器、语言生成单元、语音合成器、语境指导信息生成器、策略学习单元;
所述语音识别器接收用户的语音输入,其输出连接至所述语言理解单元;
其中,所述语音识别器利用语言模型及声学模型将用户输入的语音转化生成文字形式的语音识别结果,将语音识别结果输出至与其相连接的语言理解单元;
所述语言理解单元的输出连接至所述对话管理器;
其中,所述语言理解单元将其接收的语音识别结果转化生成形式化语义表达的语言理解结果,并将语言理解结果输出至与其相连接的对话管理器;
所述对话管理器的输出连接至所述语言生成单元;所述语言生成单元的输出连接至所述语音合成器,由所述语音合成器向用户输出系统响应的语音;所述对话管理器连接至所述语境指导信息生成器,所述语境指导信息生成器连接至所述语音识别器;
其中,所述对话管理器根据接收到的所述语言理解结果及对话策略信息更新其中保存的对话状态信息,将更新后的当前对话状态信息保存在所述对话管理器本地的同时输出至与其相连接的所述语境指导信息生成器;同时,所述对话管理器根据当前对话状态信息生成形式化语义表达的系统回应结果并输出至与其相连接的语言生成单元;
所述语言生成单元将所述对话管理器输入的形式化语义表达的系统回应结果转化生成为文字序列形式的语言生成结果,并输出至与其相连接的语音合成器;
所述语音合成器将接收到的文字序列形式的语言生成结果转化为语音并反馈输出至用户;
所述语境指导信息生成器根据接收到的语境指导模型以及当前对话状态信息生成当前语境指导信息,并将当前语境指导信息输出至与其相连接的所述语音识别器;
所述语音识别器接收当前语境指导信息,当前语境指导信息指导所述语音识别器动态地构造语言模型,并指导下一轮语音识别解码过程;
所述策略学习单元的一路输出连接至所述对话管理器,所述策略学习单元的另一路输出连接至所述语境指导信息生成器;
其中,所述策略学习单元学习得到对话策略信息及语境指导模型,将所述对话策略信息输出至与其相连接的所述对话管理器,将所述语境指导模型输出至与其相连接的语境指导信息生成器。
9.根据权利要求8所述的口语对话管理系统,其特征在于,
所述口语对话管理系统还包括对话语料库,所述对话语料库连接至所述策略学习单元;所述策略学习单元具有开发者输入接口;
所述策略学习单元获取所述对话语料库中的语料,通过机器学习算法学习生成相应的对话策略信息及语境指导模型;
或者,所述策略学习单元接收由所述开发者输入接口输入的配置信息而得到相应的对话策略信息及语境指导模型;
或者,所述策略学习单元获取所述对话语料库中的语料,同时接收由所述开发者输入接口输入的配置信息,将二者进行信息融合后得到相应的对话策略信息及语境指导模型。
10.根据权利要求8所述的口语对话管理系统,其特征在于,
所述语言理解单元的一路输出连接至所述对话管理器,所述语言理解单元的另一路输出连接至所述语境指导信息生成器;
所述语境指导信息生成器接收所述语言理解单元输入的语言理解结果;所述语境指导信息生成器根据接收到的当前对话状态信息、所述语言理解结果及所述语境指导模型生成当前的语境指导信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060660.4A CN111128175B (zh) | 2020-01-19 | 2020-01-19 | 口语对话管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060660.4A CN111128175B (zh) | 2020-01-19 | 2020-01-19 | 口语对话管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128175A CN111128175A (zh) | 2020-05-08 |
CN111128175B true CN111128175B (zh) | 2021-04-16 |
Family
ID=70491097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010060660.4A Active CN111128175B (zh) | 2020-01-19 | 2020-01-19 | 口语对话管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128175B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761136B (zh) * | 2020-06-02 | 2024-07-19 | 阿里巴巴集团控股有限公司 | 对话处理、信息处理、模型训练方法、设备及存储介质 |
CN111933129B (zh) * | 2020-09-11 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN114238606A (zh) * | 2021-12-17 | 2022-03-25 | 北京斗米优聘科技发展有限公司 | 一种智能语音客服机器人对话管理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468894B2 (en) * | 2017-12-29 | 2022-10-11 | DMAI, Inc. | System and method for personalizing dialogue based on user's appearances |
CN108597509A (zh) * | 2018-03-30 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 智能语音交互实现方法、装置、计算机设备及存储介质 |
CN110209791B (zh) * | 2019-06-12 | 2021-03-26 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
CN110413752B (zh) * | 2019-07-22 | 2021-11-16 | 中国科学院自动化研究所 | 基于对话逻辑的多轮口语理解方法、系统、装置 |
-
2020
- 2020-01-19 CN CN202010060660.4A patent/CN111128175B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111128175A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679613B2 (en) | Spoken language understanding system and method using recurrent neural networks | |
US11823678B2 (en) | Proactive command framework | |
US10319381B2 (en) | Iteratively updating parameters for dialog states | |
US20210142794A1 (en) | Speech processing dialog management | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
US11093110B1 (en) | Messaging feedback mechanism | |
EP2453436B1 (en) | Automatic language model update | |
US20240153489A1 (en) | Data driven dialog management | |
CN111128175B (zh) | 口语对话管理方法及系统 | |
JP2019528512A (ja) | 人工知能に基づくヒューマンマシンインタラクション方法及び装置 | |
US11756532B2 (en) | Intelligence-driven virtual assistant for automated idea documentation | |
US11276403B2 (en) | Natural language speech processing application selection | |
US20200058295A1 (en) | System and method for analyzing partial utterances | |
US11532301B1 (en) | Natural language processing | |
US11711469B2 (en) | Contextualized speech to text conversion | |
US11893310B2 (en) | System command processing | |
CN116226338A (zh) | 基于检索和生成融合的多轮对话系统及方法 | |
KR20110080096A (ko) | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 | |
US11626107B1 (en) | Natural language processing | |
CN117524202A (zh) | 一种ip电话语音数据检索方法及系统 | |
CN114238606A (zh) | 一种智能语音客服机器人对话管理方法及装置 | |
KR20240087228A (ko) | 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법 | |
Kuo et al. | Advances in natural language call routing | |
CN116915916A (zh) | 通话处理方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |