CN106844627B - 基于对话系统的在线学习方法及装置 - Google Patents
基于对话系统的在线学习方法及装置 Download PDFInfo
- Publication number
- CN106844627B CN106844627B CN201710041542.7A CN201710041542A CN106844627B CN 106844627 B CN106844627 B CN 106844627B CN 201710041542 A CN201710041542 A CN 201710041542A CN 106844627 B CN106844627 B CN 106844627B
- Authority
- CN
- China
- Prior art keywords
- current
- information
- dialogue
- answer
- dialog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于对话系统的在线学习方法及装置,其中,方法包括,获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;根据当前对话信息,以及历史对话信息对预先构建的应答决策器进行更新;根据当前对话信息以及更新后的应答决策器,确定当前应答输出。本发明提供的基于对话系统的在线学习方法及装置,针对用户输入的对话信息,动态地对对话系统中的应答决策器进行更新,以适应不同用户的对话习惯,可以实现提高对话系统的对话灵活性。
Description
技术领域
本发明涉及聊天机器人领域以及人工智能对话系统领域,尤其涉及一种基于对话系统的在线学习方法及装置。
背景技术
随着人工智能技术的不断发展,用于人机进行交流的对话系统也需要进行适应性地发展,以提升用户与对话系统进行交流时的交互体验,从而提高用户对对话系统的信任度。现有的对话系统,针对用户输入的对话信息,通常是直接从语料库中匹配出语句进行应答,这导致对于不同的用户输入的同样内容的对话信息,对话系统所做出的应答往往是一样的,也就是说,现有的对话系统不能够根据用户本身的不同而做出相应的调整,灵活性不高,不够智能。
发明内容
本发明要解决的技术问题是提供一种基于对话系统的在线学习方法及装置,针对用户输入的对话信息,动态地对对话系统中的应答决策器进行更新,以适应不同用户的对话习惯,可以实现提高对话系统的对话灵活性。
为解决上述技术问题,本发明提供的技术方案是:
一方面,本发明提供一种基于对话系统的在线学习方法,包括,
获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;
根据当前对话信息,以及历史对话信息对预先构建的应答决策器进行更新;
根据当前对话信息以及更新后的应答决策器,确定当前应答输出。
进一步地,根据当前对话信息,以及历史对话信息对应答决策器进行更新,具体包括,
将当前对话信息输入预先构建的应答决策器,以生成第一回复R1,并将第一回复R1输入应答决策器以生成第二回复R2,依此,循环m次,以生成一个模拟对话段落R,其中,R={R1,R2,…,Ri…Rm};
采用预先构建的奖励函数,分别对前N轮的历史对话信息和模拟对话段落进行评分,以分别获取历史评分和当前评分;
根据历史评分与当前评分的差值对应答决策器进行更新。
进一步地,奖励函数进行评分的计算规则为,采用A、B、C中的至少一种方式获取评分,其中,
A、计算句与句之间的相互信息熵;
B、通过预先构建的评分模型直接进行评分;
C、统计对话中断的信号次数。
进一步地,应答决策器为序列到序列循环神经网络。
另一方面,本发明提供一种基于对话系统的在线学习装置,包括,
信息获取模块,用于获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;
决策器更新模块,用于根据当前对话信息,以及历史对话信息对预先构建的应答决策器进行更新;
应答输出模块,用于根据当前对话信息以及更新后的应答决策器,确定当前应答输出。
进一步地,决策器更新模块,具体用于,
将当前对话信息输入预先构建的应答决策器,以生成第一回复R1,并将第一回复R1输入应答决策器以生成第二回复R2,依此,循环m次,以生成一个模拟对话段落R,其中,R={R1,R2,…,Ri…Rm};
采用预先构建的奖励函数,分别对前N轮的历史对话信息和模拟对话段落进行评分,以分别获取历史评分和当前评分;
根据历史评分与当前评分的差值对应答决策器进行更新。
进一步地,奖励函数进行评分的计算规则为,采用A、B、C中的至少一种方式获取评分,其中,
A、计算句与句之间的相互信息熵;
B、通过预先构建的评分模型直接进行评分;
C、统计对话中断的信号次数。
进一步地,应答决策器为序列到序列循环神经网络。
本发明提供的基于对话系统的在线学习方法及装置,针对用户输入的对话信息,动态地对对话系统中的应答决策器进行更新,以适应不同用户的对话习惯,可以实现提高对话系统的对话灵活性。
附图说明
图1是本发明实施例提供的基于对话系统的在线学习方法的流程图;
图2是本发明实施例提供的基于对话系统的在线学习方法的又一流程图;
图3是本发明实施例提供的模拟对话段落生成图;
图4是本发明实施例提供的基于对话系统的在线学习装置的框图。
具体实施方式
下面通过具体的实施例进一步说明本发明,但是,应当理解为,这些实施例仅仅是用于更详细具体地说明之用,而不应理解为用于以任何形式限制本发明。
实施例一
结合图1,本实施例提供的基于对话系统的在线学习方法,包括,
步骤S1:获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;
步骤S2:根据当前对话信息,以及历史对话信息对预先构建的应答决策器100进行更新;
步骤S3:根据当前对话信息以及更新后的应答决策器100,确定当前应答输出。
本发明实施例提供的基于对话系统的在线学习方法,针对用户输入的对话信息,动态地对对话系统中的应答决策器100进行更新,以适应不同用户的对话习惯,可以实现提高对话系统的对话灵活性。
优选地,如图2所示地,步骤S2具体包括,
步骤S2.1:将当前对话信息输入预先构建的应答决策器100,以生成第一回复R1,并将第一回复R1输入应答决策器100以生成第二回复R2,依此,循环m次,以生成一个模拟对话段落R,其中,R={R1,R2,…,Ri…Rm};
步骤S2.2:采用预先构建的奖励函数,分别对前N轮的历史对话信息和模拟对话段落进行评分,以分别获取历史评分和当前评分;
步骤S2.3:根据历史评分与当前评分的差值对应答决策器100进行更新。
本实施例中,对于每一条用户输入的对话信息,都将进行一次应答决策器100的更新。针对当前对话信息,先进行m次的循环输入输出,即,如图3所示地,首先将当前对话信息输入进行应答决策器100,以获得第一回复R1,之后,将所生成的第一回复R1,作为输入,返回给应答决策器100以生成第二回R2,如此进行循环,并循环m次,以获得一个模拟对话段落R,且R={R1,R2,…,Ri…Rm}。由于该模拟对话段落与当前对话信息的相关性极大,也就是说,能够较好地拟合出用户的独特性,如此,可以使得对话系统更好地掌握该用户的对话习惯,从而提高对话系统的对话灵活性。需要说明的是,本实施例中,m的取值较为关键,若m的取值太小,则会降低奖励函数对计算结果的稳定性,若m的取值太大又将加大计算复杂度,增加不必要的耗时,降低系统性能。此外,m的取值需要结合实际需要进行设定,且需要经过多次试验获得,本实施例不作具体限定。
本实施例中,通过采用预先构建的奖励函数,分别对前N轮的历史对话信息和模拟对话段落进行评分,以分别获取历史评分和当前评分,然后再根据历史评分与当前评分的差值对应答决策器100进行更新。具体地,假定奖励函数为F,且计算获得当前评分为f1,以及历史评分为f1’,则历史评分与当前评分的差值loss=f1’-f1。本实施例中,采用loss,即历史评分与当前评分的差值对应答决策器100运用向后传导(back propagation)算法进行参数更新,继而实现对应答决策器100的更新。本实施例中,优选地,N的取值为1,即只考虑前一轮的历史对话,且当没有前一轮历史对话时,即当前对话即为第一轮对话时,则默认f1’=0,且loss=0。
进一步优选地,奖励函数进行评分的计算规则为,采用A、B、C中的至少一种方式获取评分,其中,
A、计算句与句之间的相互信息熵;
B、通过预先构建的评分模型直接进行评分;
C、统计对话中断的信号次数。
本实施例中,句与句之间的相互信息熵可以刻画两个句子之间的关联程度;预先构建的评分模型可以刻画句与句之间的流畅程度;对话中断也是对流畅程度的另一种描述方式。此外,本实施例中,采用预先训练好的中断分类器统计对话中断的信号次数。具体地,中断分类器的输入是一对句子,输出是0或者1,其中,0代表第一句和第二句之间产生了中断,1代表没有产生中断。优选地,中断分类器为卷积神经网络。
进一步优选地,应答决策器100为序列到序列循环神经网络。本实施例中,应答决策器100的选择需要符合输入为句子且输出也为句子这一输入输出特征。此外,应答决策器100为序列到序列循环神经网络仅为本实施例的一个优选方案,也可以是其他的神经网络,本实施例不作具体限定。此外,需要说明的是,本实施例中所提及的句子,是指一个任意长度的字符串。
实施例二
结合图4,本实施例提供一种基于对话系统的在线学习装置,包括,
信息获取模块1,用于获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;
决策器更新模块2,用于根据当前对话信息,以及历史对话信息对预先构建的应答决策器100进行更新;
应答输出模块3,用于根据当前对话信息以及更新后的应答决策器100,确定当前应答输出。
本发明实施例提供的基于对话系统的在线学习装置,针对用户输入的对话信息,动态地对对话系统中的应答决策器100进行更新,以适应不同用户的对话习惯,可以实现提高对话系统的对话灵活性。
优选地,决策器更新模块2,具体用于,
将当前对话信息输入预先构建的应答决策器100,以生成第一回复R1,并将第一回复R1输入应答决策器100以生成第二回复R2,依此,循环m次,以生成一个模拟对话段落R,其中,R={R1,R2,…,Ri…Rm};
采用预先构建的奖励函数,分别对前N轮的历史对话信息和模拟对话段落进行评分,以分别获取历史评分和当前评分;
根据历史评分与当前评分的差值对应答决策器100进行更新。
本实施例中,对于每一条用户输入的对话信息,都将进行一次应答决策器100的更新。针对当前对话信息,先进行m次的循环输入输出,即,如图3所示地,首先将当前对话信息输入进行应答决策器100,以获得第一回复R1,之后,将所生成的第一回复R1,作为输入,返回给应答决策器100以生成第二回R2,如此进行循环,并循环m次,以获得一个模拟对话段落R,且R={R1,R2,…,Ri…Rm}。由于该模拟对话段落与当前对话信息的相关性极大,也就是说,能够较好地拟合出用户的独特性,如此,可以使得对话系统更好地掌握该用户的对话习惯,从而提高对话系统的对话灵活性。需要说明的是,本实施例中,m的取值较为关键,若m的取值太小,则会降低奖励函数对计算结果的稳定性,若m的取值太大又将加大计算复杂度,增加不必要的耗时,降低系统性能。此外,m的取值需要结合实际需要进行设定,且需要经过多次试验获得,本实施例不作具体限定。
本实施例中,通过采用预先构建的奖励函数,分别对前N轮的历史对话信息和模拟对话段落进行评分,以分别获取历史评分和当前评分,然后再根据历史评分与当前评分的差值对应答决策器100进行更新。具体地,假定奖励函数为F,且计算获得当前评分为f1,以及历史评分为f1’,则历史评分与当前评分的差值loss=f1’-f1。本实施例中,采用loss,即历史评分与当前评分的差值对应答决策器100运用向后传导(back propagation)算法进行参数更新,继而实现对应答决策器100的更新。本实施例中,优选地,N的取值为1,即只考虑前一轮的历史对话,且当没有前一轮历史对话时,即当前对话即为第一轮对话时,则默认f1’=0,且loss=0。
进一步优选地,奖励函数进行评分的计算规则为,采用A、B、C中的至少一种方式获取评分,其中,
A、计算句与句之间的相互信息熵;
B、通过预先构建的评分模型直接进行评分;
C、统计对话中断的信号次数。
本实施例中,句与句之间的相互信息熵可以刻画两个句子之间的关联程度;预先构建的评分模型可以刻画句与句之间的流畅程度;对话中断也是对流畅程度的另一种描述方式。此外,本实施例中,采用预先训练好的中断分类器统计对话中断的信号次数。具体地,中断分类器的输入是一对句子,输出是0或者1,其中,0代表第一句和第二句之间产生了中断,1代表没有产生中断。优选地,中断分类器为卷积神经网络。
进一步优选地,应答决策器100为序列到序列循环神经网络。本实施例中,应答决策器100的选择需要符合输入为句子且输出也为句子这一输入输出特征。此外,应答决策器100为序列到序列循环神经网络仅为本实施例的一个优选方案,也可以是其他的神经网络,本实施例不作具体限定。此外,需要说明的是,本实施例中所提及的句子,是指一个任意长度的字符串。
尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。
Claims (6)
1.一种基于对话系统的在线学习方法,其特征在于,包括:
获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;
根据所述当前对话信息,以及所述历史对话信息对预先构建的应答决策器进行更新;
根据所述当前对话信息以及所述更新后的应答决策器,确定当前应答输出;
所述根据所述当前对话信息,以及所述历史对话信息对应答决策器进行更新,具体包括,
将所述当前对话信息输入预先构建的应答决策器,以生成第一回复R1,并将所述第一回复R1输入所述应答决策器以生成第二回复R2,依此,循环m次,以生成一个模拟对话段落R,其中,R={R1,R2,…,Ri…Rm};
采用预先构建的奖励函数,分别对所述前N轮的历史对话信息和所述模拟对话段落进行评分,以分别获取历史评分和当前评分;
根据所述历史评分与所述当前评分的差值对所述应答决策器进行更新。
2.根据权利要求1所述的基于对话系统的在线学习方法,其特征在于,所述奖励函数进行评分的计算规则为,采用A、B、C中的至少一种方式获取评分,其中,
A、计算句与句之间的相互信息熵;
B、通过预先构建的评分模型直接进行评分;
C、统计对话中断的信号次数。
3.根据权利要求1所述的基于对话系统的在线学习方法,其特征在于,所述应答决策器为序列到序列循环神经网络。
4.一种基于对话系统的在线学习装置,其特征在于,包括:
信息获取模块,用于获取用户输入的当前对话信息,以及获取前N轮的历史对话信息;
决策器更新模块,用于根据所述当前对话信息,以及所述历史对话信息对预先构建的应答决策器进行更新;
应答输出模块,用于根据所述当前对话信息以及所述更新后的应答决策器,确定当前应答输出;
所述决策器更新模块,具体用于,
将所述当前对话信息输入预先构建的应答决策器,以生成第一回复R1,并将所述第一回复R1输入所述应答决策器以生成第二回复R2,依此,循环m次,以生成一个模拟对话段落R,其中,R={R1,R2,…,Ri…Rm};
采用预先构建的奖励函数,分别对所述前N轮的历史对话信息和所述模拟对话段落进行评分,以分别获取历史评分和当前评分;
根据所述历史评分与所述当前评分的差值对所述应答决策器进行更新。
5.根据权利要求4所述的基于对话系统的在线学习装置,其特征在于,所述奖励函数进行评分的计算规则为,采用A、B、C中的至少一种方式获取评分,其中,
A、计算句与句之间的相互信息熵;
B、通过预先构建的评分模型直接进行评分;
C、统计对话中断的信号次数。
6.根据权利要求4所述的基于对话系统的在线学习装置,其特征在于,所述应答决策器为序列到序列循环神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041542.7A CN106844627B (zh) | 2017-01-20 | 2017-01-20 | 基于对话系统的在线学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041542.7A CN106844627B (zh) | 2017-01-20 | 2017-01-20 | 基于对话系统的在线学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106844627A CN106844627A (zh) | 2017-06-13 |
CN106844627B true CN106844627B (zh) | 2020-06-19 |
Family
ID=59120024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710041542.7A Active CN106844627B (zh) | 2017-01-20 | 2017-01-20 | 基于对话系统的在线学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844627B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480766B (zh) * | 2017-07-18 | 2021-01-22 | 北京光年无限科技有限公司 | 多模态虚拟机器人的内容生成的方法和系统 |
CN107832844A (zh) | 2017-10-30 | 2018-03-23 | 上海寒武纪信息科技有限公司 | 一种信息处理方法及相关产品 |
CN108182942B (zh) * | 2017-12-28 | 2021-11-26 | 瑞芯微电子股份有限公司 | 一种支持不同虚拟角色交互的方法和装置 |
US11996105B2 (en) | 2018-09-13 | 2024-05-28 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN109493186A (zh) * | 2018-11-20 | 2019-03-19 | 北京京东尚科信息技术有限公司 | 确定推送信息的方法和装置 |
CN111400463B (zh) * | 2019-01-03 | 2023-06-06 | 百度在线网络技术(北京)有限公司 | 对话响应方法、装置、设备和介质 |
CN110413754B (zh) * | 2019-07-22 | 2023-01-13 | 清华大学 | 对话(中)奖励评估和对话方法、介质、装置和计算设备 |
CN112988956A (zh) * | 2019-12-17 | 2021-06-18 | 北京搜狗科技发展有限公司 | 自动生成对话的方法及装置、信息推荐效果检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8935277B2 (en) * | 2012-03-30 | 2015-01-13 | Sap Se | Context-aware question answering system |
JP2015014834A (ja) * | 2013-07-03 | 2015-01-22 | 株式会社Lassic | 機械対話による感情推定システム及びそのプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679815B (zh) * | 2014-12-08 | 2018-02-23 | 北京云知声信息技术有限公司 | 一种筛选问答对并实时更新问答库的方法及系统 |
CN105608221B (zh) * | 2016-01-11 | 2018-08-21 | 北京光年无限科技有限公司 | 一种面向问答系统的自学习方法和装置 |
-
2017
- 2017-01-20 CN CN201710041542.7A patent/CN106844627B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8935277B2 (en) * | 2012-03-30 | 2015-01-13 | Sap Se | Context-aware question answering system |
JP2015014834A (ja) * | 2013-07-03 | 2015-01-22 | 株式会社Lassic | 機械対話による感情推定システム及びそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN106844627A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844627B (zh) | 基于对话系统的在线学习方法及装置 | |
CN108319599B (zh) | 一种人机对话的方法和装置 | |
US11729120B2 (en) | Generating responses in automated chatting | |
KR20170053527A (ko) | 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치 | |
US20160019280A1 (en) | Identifying question answerers in a question asking system | |
CN107590139B (zh) | 一种基于循环矩阵翻译的知识图谱表示学习方法 | |
KR20210081309A (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
CN112115247A (zh) | 一种基于长短时记忆信息的个性化对话生成方法和系统 | |
JP2021108115A (ja) | 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 | |
CN108962221B (zh) | 在线对话状态跟踪模型的优化方法及系统 | |
KR20200050373A (ko) | 전자 장치 및 그의 제어 방법 | |
CN111402894A (zh) | 语音识别方法及电子设备 | |
CN113641807A (zh) | 对话推荐模型的训练方法、装置、设备和存储介质 | |
CN113392640B (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN111539222B (zh) | 语义相似度任务模型的训练方法、装置、设备及存储介质 | |
CN109977409A (zh) | 一种基于用户聊天习惯的智能表情推荐方法和系统 | |
CN114550705A (zh) | 对话推荐方法、模型的训练方法、装置、设备及介质 | |
CN108053826B (zh) | 用于人机交互的方法、装置、电子设备及存储介质 | |
Keerthana et al. | Evaluating the performance of various deep reinforcement learning algorithms for a conversational chatbot | |
CN111986659A (zh) | 建立音频生成模型的方法以及装置 | |
CN112307166B (zh) | 一种智能问答方法、装置、存储介质以及计算机设备 | |
CN117744796A (zh) | 基于生成式大模型的构建提示词的方法、装置和智能设备 | |
CN117216223A (zh) | 对话文本的生成方法和装置、存储介质及电子设备 | |
CN115472279B (zh) | 一种基于人工智能的远程按摩控制方法及系统 | |
WO2021066903A1 (en) | Providing explainable product recommendation in a session |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |