CN111611382A - 话术模型训练方法、对话信息生成方法及装置、系统 - Google Patents

话术模型训练方法、对话信息生成方法及装置、系统 Download PDF

Info

Publication number
CN111611382A
CN111611382A CN202010442462.4A CN202010442462A CN111611382A CN 111611382 A CN111611382 A CN 111611382A CN 202010442462 A CN202010442462 A CN 202010442462A CN 111611382 A CN111611382 A CN 111611382A
Authority
CN
China
Prior art keywords
user
model
broker
training
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010442462.4A
Other languages
English (en)
Inventor
王宏
王贺青
王文彬
武晓飞
梁杰
汪洁
田育珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beike Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN202010442462.4A priority Critical patent/CN111611382A/zh
Publication of CN111611382A publication Critical patent/CN111611382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种话术模型训练方法、对话信息生成方法及装置、系统,其中,根据用户问题训练文本分类模型,根据用户问题分析得到用户询问意图;根据用户询问意图和经纪人回答记录获取回答信息特征,并训练聚类模型,得到每个分类的聚类中心句子;根据这些中心句子和用户询问意图训练生成话术模型。通过话术模型,可以对接收到的用户输入用户问题通过话术模型生成回答话术模板。本发明各个实施例中,能够精准的命中用户问题中的用户意图,进而快速提供多个回答话术模板供经纪人选择使用,很好的满足了经纪人对于用户意图分析和话术模板提供多方面的需求,极大的提高了经纪人回答用户问题的准确度。

Description

话术模型训练方法、对话信息生成方法及装置、系统
技术领域
本发明涉及机器学习技术领域,尤其是一种话术模型训练方法、对话信息生成方法及装置、系统。
背景技术
在具体的网络交互过程中,用户与从业经纪人聊天时,为了提升经纪人的作业效率,一般会设置辅助经纪人提示信息的智能助手。智能助手能够自动识别用户询问的房源详情意图,根据识别的意图调取回答话术模板,结合房源数据生成回答话术,并以提示卡片的形式反馈给经纪人,由经纪人决定是否将提示卡片中的回答话术发送给用户。
现有技术中,通常智能助手生成的回答话术模板过于单一,不能命中所有聊天上下文场景,因而造成提示卡片中的回答话术无法满足用户实际需求,对经纪人的帮助也不大。
如何能够准确识别用户意图,提高回答话术的命中率,是现有技术中的智能助手必须解决的问题。
发明内容
本发明实施例所要解决的一个技术问题是:提供话术模型训练方法、对话信息生成方法及装置、系统,解决现有技术中针对用户咨询的回答话术无法准确识别用户意图、命中率低等问题。
根据本发明的一个方面,提供了一种话术模型训练方法,所述方法包括:
获取用户问题与对应的经纪人回答信息记录;
根据所述用户问题训练生成文本分类模型,并根据所述文本分类模型获取与所述用户问题对应的用户询问意图;
根据所述对应的经纪人回答信息记录获取回答信息特征,并根据所述回答信息特征训练聚类模型;
根据所述用户询问意图与所述聚类模型,生成话术模型。
较佳的,所述获取用户问题与对应的经纪人回答信息记录,包括:
获取用户问题与经纪人回答信息的历史数据;
根据所述历史数据整理用户问题与经纪人回答信息的对应关系;
根据所述对应关系将用户问题与经纪人回答信息对应。
较佳的,所述根据所述用户问题训练生成文本分类模型,包括:
根据用户问题抽取用户意图分类标签;
根据所述用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本;
抽取设定量级的所述样本构成训练数据,利用训练数据训练文本分类模型;所述文本分类模型能够根据用户问题识别对应的用户询问意图。
较佳的,所述利用训练数据训练文本分类模型,包括:
将所述训练数据输入fasttext快速文本分类模型;
利用所述fasttext快速文本分类模型,对所述训练数据中的用户问题和用户意图分类标签进行分类,生成用户问题与用户询问意图的对应。
较佳的,所述根据所述对应的经纪人回答信息记录获取回答信息特征,进一步包括:
根据所述用户问题与经纪人回答信息的对应关系,从所述经纪人回答信息记录中获取与所述用户问题对应的经纪人回答信息;
根据所述经纪人回答信息,抽取回答信息特征;
根据所述用户问题训练生成的文本分类模型,将所述用户询问意图与对应的回答信息特征对应。
较佳的,所述根据所述回答信息特征训练聚类模型,进一步包括:
将所述回答信息特征输入word2vec词向量模型训练词向量,并根据所述组成句子的词的词向量训练句子向量;
根据所述词向量和句子向量进行k-means聚类,得到每个分类的聚类中心句子,训练聚类模型;所述聚类模型能够根据所述回答信息特征对应得到分类的回答话术。
较佳的,所述方法还包括:
根据tf-idf词频-逆向文件频率算法获得所述每个分类的聚类中心句子词频矩阵;
将所述词频矩阵输入k-means聚类算法进行二级聚类,得到二次聚类后的每个分类的聚类中心句子。
较佳的,所述根据所述用户询问意图与所述聚类模型,生成话术模型,包括:
获取所述用户询问意图对应的回答信息特征;
将所述回答信息特征输入所述聚类模型,得到与所述回答信息特征对应的每个回答信息特征分类的聚类中心句子;
根据所述聚类中心句子生成话术模型。
根据本发明实施例的另一个方面,提供了一种对话信息生成方法,采用如上所述的话术模型,所述方法包括:
获取用户输入的用户问题,并识别用户询问意图;
根据所述用户询问意图,调用所述话术模型,生成回答话术模板。
较佳的,所述方法还包括:
根据所述用户询问意图,调取所述用户针对信息的信息描述字段,并将所述信息描述字段补充入所述回答话术模板。
较佳的,所述方法还包括:
一条所述用户询问意图生成两条或两条以上的回答话术模板;
根据经纪人采纳比例,为所述回答话术模板设定权重;
根据所述权重为所述回答话术模板排序。
较佳的,所述方法还包括:
获取所述经纪人对所述回答话术模板的修改;
获取修改后的回答话术模板和对应的回答信息特征;
根据所述修改后的回答话术模板和对应的回答信息特征,训练调整所述话术模型。
根据本发明实施例的另一个方面,还提供了一种话术模型训练装置,所述装置包括:
历史数据获取单元,用于获取用户问题与对应的经纪人回答信息记录;
文本分类模型单元,用于根据所述用户问题训练生成文本分类模型,并根据所述文本分类模型获取与所述用户问题对应的用户询问意图;
聚类模型单元,用于根据所述对应的经纪人回答信息记录获取回答信息特征,并根据所述回答信息特征训练聚类模型;
话术模型单元,用于根据所述用户询问意图与所述聚类模型,生成话术模型。
较佳的,所述历史数据获取单元,具体用于:
获取用户问题与经纪人回答信息的历史数据;
根据所述历史数据整理用户问题与经纪人回答信息的对应关系;
根据所述对应关系将用户问题与经纪人回答信息对应。
较佳的,所述文本分类模型单元,具体用于根据用户问题抽取用户意图分类标签;根据所述用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本;抽取设定量级的所述样本构成训练数据,利用训练数据训练文本分类模型;所述文本分类模型能够根据用户问题识别对应的用户询问意图。
较佳的,所述聚类模型单元,具体用于:
根据所述用户问题与经纪人回答信息的对应关系,从所述经纪人回答信息记录中获取与所述用户问题对应的经纪人回答信息;根据所述经纪人回答信息,抽取回答信息特征;根据所述用户问题训练生成的文本分类模型,将所述用户询问意图与对应的回答信息特征对应。
较佳的,所述话术模型单元,具体用于:
获取所述用户询问意图对应的回答信息特征;将所述回答信息特征输入所述聚类模型,得到与所述回答信息特征对应的每个回答信息特征分类的聚类中心句子;根据所述聚类中心句子生成话术模型。
根据本发明实施例的另一个方面,还提供了一种对话信息生成系统,采用如上所述的话术模型训练装置训练生成的话术模型,具体包括:
用户询问意图获取单元,用于获取用户输入的用户问题,并识别用户询问意图;
回答话术生成单元,用于根据所述用户询问意图,调用所述话术模型,生成回答话术模板。
较佳的,所述系统还包括:
描述信息获取单元,用于根据所述用户询问意图,调取所述用户针对信息的信息描述字段,并将所述信息描述字段发送所述回答话术生成单元;
所述回答话术生成单元,用于将所述信息描述字段补充入所述回答话术模板。
较佳的,所述系统还包括:
权重设定单元,用于将一条所述用户询问意图生成两条或两条以上的回答话术模板,根据经纪人采纳比例,为所述回答话术模板设定权重,并发送所述回答话术生成单元;
所述回答话术生成单元,用于根据所述权重为所述回答话术模板排序。
较佳的,所述系统还包括:
话术模板修改单元,用于获取所述经纪人对所述回答话术模板的修改;获取修改后的回答话术模板和对应的回答信息特征;
所述话术模型,根据所述修改后的回答话术模板和对应的回答信息特征训练调整。
根据本发明的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述所述的方法。
根据本发明的另一个方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述所述的方法。
基于本发明上述实施例提供的方案,主要包括如下有益效果:
首先根据用户问题与经纪人回答信息的历史数据,提取相互对应的用户问题和回答信息记录;然后根据用户问题训练文本分类模型,根据用户问题分析得到用户询问意图;根据用户询问意图和经纪人回答记录获取回答信息特征,并训练聚类模型,得到每个分类的聚类中心句子,从而根据这些中心句子和用户询问意图训练生成话术模型。进一步的,可以进行二次聚类,以使聚类效果更好。进而,通过话术模型,可以对接收到的用户输入用户问题通过话术模型生成多个回答话术模板,由经纪人挑选采用。本实施例还提供了话术模板的反馈模式。本发明各个实施例中,能够精准的命中用户问题中的用户意图,进而快速提供多个回答话术模板供经纪人选择使用,很好的满足了经纪人对于用户意图分析和话术模板提供多方面的需求,极大的提高了经纪人回答用户问题的准确度。进一步的,本发明实施例的方案不仅限于用户与经纪人的对话,还可以用于智能机器人的自动回复话术等各个智能机器学习领域。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明一个实施例提供的话术模型训练方法原理流程图。
图2为本发明一个实施例提供的对话信息生成方法原理流程图。
图3为本发明一个实施例提供的话术模型训练装置结构示意图。
图4为本发明一个实施例提供的对话信息生成系统结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
本发明实施例中,自然语言理解(NLU,Natural Language Understanding),俗称人机对话,是人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。本发明实施例利用NLU技术进行用户意图的识别。
本发明实施例中,利用NLU技术识别用户意图,通过历史聊天数据,训练回答话术模板挖掘模型,提取房源数据,结合数据和模板生成回答话术,以卡片的形式推荐给经纪人。本发明各个实施例以用户和经纪人就用户感兴趣的房源信息进行交互的过程为例,说明本发明实施例的原理和过程。实际上,本发明各个实施例的技术并不局限于经纪人与用户就房源信息的交互,而是可以扩展到各种利用机器学习进行自动回复的人工智能领域中。
如图1所示,为本实施例提供的话术模型训练方法源流流程图,其中,
步骤11,获取用户问题与对应的经纪人回答信息记录;
步骤12,根据所述用户问题训练生成文本分类模型,并根据所述文本分类模型获取与所述用户问题对应的用户询问意图;
步骤13,根据所述对应的经纪人回答信息记录获取回答信息特征,并根据所述回答信息特征训练聚类模型;
步骤14,根据所述用户询问意图与所述聚类模型,生成话术模型。
在本发明的一个实施例中,所述获取用户问题与对应的经纪人回答信息记录,包括:
获取用户问题与经纪人回答信息的历史数据。历史信息数据可以是设定时长内的用户与经纪人的聊天记录,也可以是系统自身的日志记录等。
根据所述历史数据整理用户问题与经纪人回答信息的对应关系。历史数据中包含着用户问题和对应的经纪人回答信息,这两个信息是对应的。
根据所述对应关系将用户问题与经纪人回答信息对应。通常,用户问题对应一个或者多个经纪人回答信息。也可能是多个用户问题和多个经纪人回答信息对应在一起。
在本发明的一个实施例中,所述根据所述用户问题训练生成文本分类模型,包括:
根据用户问题抽取用户意图分类标签。
根据所述用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本;
抽取设定量级的所述样本构成训练数据,利用训练数据训练文本分类模型;所述文本分类模型能够根据用户问题识别对应的用户询问意图。
处理好的用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本,抽取一定量级的样本构成训练数据,利用训练数据训练文本分类模型。训练好的分类模型可以根据输入的用户问题,识别出用户询问的具体意图。
在本发明的一个实施例中,所述利用训练数据训练文本分类模型,包括:
将所述训练数据输入fasttext快速文本分类模型;
利用所述fasttext快速文本分类模型,对所述训练数据中的用户问题和用户意图分类标签进行分类,生成用户问题与用户询问意图的对应。
在本发明的一个实施例中,所述根据所述对应的经纪人回答信息记录获取回答信息特征,进一步包括:
根据所述用户问题与经纪人回答信息的对应关系,从所述经纪人回答信息记录中获取与所述用户问题对应的经纪人回答信息;
根据所述经纪人回答信息,抽取回答信息特征;
根据所述用户问题训练生成的文本分类模型,将所述用户询问意图与对应的回答信息特征对应。
在本发明的一个实施例中,所述根据所述回答信息特征训练聚类模型,进一步包括:
将所述回答信息特征输入word2vec词向量模型训练词向量,并根据所述组成句子的词的词向量训练句子向量;
根据所述词向量和句子向量进行k-means聚类,得到每个分类的聚类中心句子,训练聚类模型;所述聚类模型能够根据所述回答信息特征对应得到分类的回答话术。
在本发明的一个实施例中,根据tf-idf词频-逆向文件频率算法获得所述每个分类的聚类中心句子词频矩阵;
将所述词频矩阵输入k-means聚类算法进行二级聚类,得到二次聚类后的每个分类的聚类中心句子。
在本发明的一个实施例中,所述根据所述用户询问意图与所述聚类模型,生成话术模型,包括:
获取所述用户询问意图对应的回答信息特征;
将所述回答信息特征输入所述聚类模型,得到与所述回答信息特征对应的每个回答信息特征分类的聚类中心句子;
根据所述聚类中心句子生成话术模型。
具体来说,本发明实施例中,首先需要进行数据准备。也就是从历史聊天数据中抽取用户的问题;从历史聊天数据中抽取经纪人对用户问题的回答话术。对于用户问题,需要进一步抽取用户的意图分类标签。对于经纪人回答信息,需要进一步抽取针对用户特定意图的回答信息的特征标签
进而,需要进行NLU用户意图识别模型训练。
具体训练方法可以包括:将用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本,抽取一定量级的样本构成训练数据,利用训练数据训练文本分类模型。训练好的分类模型可以根据输入的用户问题,识别出用户询问的具体意图。
也即从聊天日志中抽取用户的问题,人工打标签,组成(问题+意图标签)的训练语料。利用训练数据训练fasttext分类模型,通过不断地优化标注数据语料提升模型的准确度,最终获得的模型可以根据输入的一条用户问题数据,识别出用户的询问意图。
进而,针对经纪人回答信息,利用三中训练好的意图识别模型,识别出经纪人针对不同意图的回答信息,抽取回答信息的特征,训练特征向量以及特征组成的句子向量组成训练样本,通过很多的样本去训练聚类模型。训练好的聚类模型能够将输入的经纪人回答信息自动识别为不同的类别,输出不同类型的回答话术模板。
从聊天记录(或者日志文件)中过滤出经纪人针对用户的回答信息,利用上述训练的NLU模型,识别出经纪人的回答意图,组成(经纪人回答信息-意图标签)的训练数据。
利用word2vec模型训练词向量,输入语料为准备好的经纪人回答信息,获得经纪人回答语料的词向量,进而获得句子向量(句子向量为组成句子的词的词向量相加)。
利用k-means聚类算法和a中准备好的词向量进行一级聚类,这种方式能够加好的保留句子的结构信息。
当语料较多时,一级聚类效果较粗糙,则需要进行二级聚类,二级聚类方法采用tf-idf+k-means的方法,先用tf-idf获得训练语料的词频矩阵,然后用k-means根据输入的词频矩阵进行二级聚类,提升聚类效果,tf-idf在数据量较少,句子比较规整时聚类效果更好。
根据聚类的分类结果,获得每个分类的聚类中心句子,将中心句子作为该分类结果的回答模板。
本发明实施例还提供一种对话信息生成方法,如图2所示,采用如上述各个实施例提供的话术模型,所述方法包括:
步骤21,获取用户输入的用户问题,并识别用户询问意图;
步骤22,根据所述用户询问意图,调用所述话术模型,生成回答话术模板。
在本发明的一个实施例中,根据所述用户询问意图,调取所述用户针对信息的信息描述字段,并将所述信息描述字段补充入所述回答话术模板。
在本发明的一个实施例中,一条所述用户询问意图生成两条或两条以上的回答话术模板;
根据经纪人采纳比例,为所述回答话术模板设定权重;
根据所述权重为所述回答话术模板排序。
在本发明的一个实施例中,获取所述经纪人对所述回答话术模板的修改;
获取修改后的回答话术模板和对应的回答信息特征;
根据所述修改后的回答话术模板和对应的回答信息特征,训练调整所述话术模型。
本发明实施例中,用户与经纪人聊天的时候抽取用户的问题及用户询问的具体房源。利用训练好的意图识别模型识别用户的询问意图,根据意图调用训练话术模板生成模型生成的回答话术模板。根据用户询问的具体房源调取准备的房源信息描述字段,(如根据房源id调取相关房源数据),结合用户意图和生成的回答模板,填充房源数据生成回答话术。
进一步的,在本发明的一个实施例中,用户询问的问题一般是针对具体的房源的,经纪人的回答也是结合具体的房源和用户的询问意图调取相应的房源数据,在模板生成前准备好每个房源针对不同意图的数据字段,在识别用户意图后调用回答模板,然后调取相应房源的该意图对应的数据进行填充,生成回答话术,推荐给经纪人。如询问房源id为1234的房源,用户意图为楼高,则调用id为1234的房源数据的楼层字段数据填充模板生成回答话术。
在本发明的一个实施例中,每个用户意图下抽取的话术模板为多个,给每个模板配置一个权重,权重大的模板出现概率相对更高,权重配置方式根据线上回答话术的采纳情况,越容易被采纳的答案,即经纪人采纳高的回答话术相应的模板权重更高。经纪人可以决定是否使用回答话术。
经纪人可以根据聊天的上下文语境和推荐的回答话术准确程度决定是否采用回答话术和具体使用回答话术中的某一个(回答话术有多个),同时经纪人可以对回答话术进行修改,后续我们会收集修改的回答话术,利用修改信息进行模型训练,训练出更加符合经纪人需求的回答话术。
在本发明的一个实施例中,推荐给经纪人的回答模板,经纪人有权决定是否采纳以及是否修改,我们会通过日志回收经纪人针对不同模板的采纳及修改情况,为了提升模板的准确度,我们会回收经纪人修改后的回答话术,然后将修改后的回答话术和分类意图加入到模型训练语料中,根据更新的训练语料训练聚类模型,重新获得聚类结果,抽取模板。
在本发明的一个实施例中,在模板推荐给经纪人后,通过日志回收经纪人针对不同模板的采纳情况,根据采纳情况更新模板权重,调整模板出现的概率,提升经纪人的作业效率。
具体的,在本发明的一个实施例中,获取用户问题,分配意图标签,用于训练NLU意图识别模型;
获取经纪人回答话术,结合用户意图训练聚类模型,获取回答模板。
训练fasttext分类模型,识别用户意图。
训练word2vec模型和td-idf算法,获取经纪人回答话术的句子向量
结合NLU模型和句子向量,利用k-measn聚类模型,对经纪人回答话术进行聚类,获得聚类中心点,作为该聚类结果的回答话术模板。
利用生成的模板调用房源数据,生成回答话术推荐给经纪人。
本发明的一个实施例提供了一种话术模型训练装置,如图3所示,所述装置包括:
历史数据获取单元31,用于获取用户问题与对应的经纪人回答信息记录;
文本分类模型单元32,用于根据所述用户问题训练生成文本分类模型,并根据所述文本分类模型获取与所述用户问题对应的用户询问意图;
聚类模型单元33,用于根据所述对应的经纪人回答信息记录获取回答信息特征,并根据所述回答信息特征训练聚类模型;
话术模型单元34,用于根据所述用户询问意图与所述聚类模型,生成话术模型。
所述历史数据获取单元31,具体用于:
获取用户问题与经纪人回答信息的历史数据;
根据所述历史数据整理用户问题与经纪人回答信息的对应关系;
根据所述对应关系将用户问题与经纪人回答信息对应。
所述文本分类模型单元32,具体用于根据用户问题抽取用户意图分类标签;根据所述用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本;抽取设定量级的所述样本构成训练数据,利用训练数据训练文本分类模型;所述文本分类模型能够根据用户问题识别对应的用户询问意图。
所述聚类模型单元33,具体用于:根据所述用户问题与经纪人回答信息的对应关系,从所述经纪人回答信息记录中获取与所述用户问题对应的经纪人回答信息;根据所述经纪人回答信息,抽取回答信息特征;根据所述用户问题训练生成的文本分类模型,将所述用户询问意图与对应的回答信息特征对应。
所述话术模型单元34,具体用于:获取所述用户询问意图对应的回答信息特征;将所述回答信息特征输入所述聚类模型,得到与所述回答信息特征对应的每个回答信息特征分类的聚类中心句子;根据所述聚类中心句子生成话术模型。
在本发明的一个实施例中,还提供了一种对话信息生成系统,如图4所示,采用如上述各个实施例所述的话术模型训练装置训练生成的话术模型,具体包括:
用户询问意图获取单元41,用于获取用户输入的用户问题,并识别用户询问意图;
回答话术生成单元42,用于根据所述用户询问意图,调用所述话术模型,生成回答话术模板。
所述系统还包括:描述信息获取单元43,用于根据所述用户询问意图,调取所述用户针对信息的信息描述字段,并将所述信息描述字段发送所述回答话术生成单元;
所述回答话术生成单元42,用于将所述信息描述字段补充入所述回答话术模板。
所述系统还包括:权重设定单元44,用于将一条所述用户询问意图生成两条或两条以上的回答话术模板,根据经纪人采纳比例,为所述回答话术模板设定权重,并发送所述回答话术生成单元;
所述回答话术生成单元42,用于根据所述权重为所述回答话术模板排序。
所述系统还包括:话术模板修改单元45,用于获取所述经纪人对所述回答话术模板的修改;获取修改后的回答话术模板和对应的回答信息特征;
所述话术模型,根据所述修改后的回答话术模板和对应的回答信息特征训练调整。
在本发明的一个实施例中,还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的方法。
在本发明的一个实施例中,还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的方法。
基于本发明上述实施例提供的方案,主要包括如下有益效果:
首先根据用户问题与经纪人回答信息的历史数据,提取相互对应的用户问题和回答信息记录;然后根据用户问题训练文本分类模型,根据用户问题分析得到用户询问意图;根据用户询问意图和经纪人回答记录获取回答信息特征,并训练聚类模型,得到每个分类的聚类中心句子,从而根据这些中心句子和用户询问意图训练生成话术模型。进一步的,可以进行二次聚类,以使聚类效果更好。进而,通过话术模型,可以对接收到的用户输入用户问题通过话术模型生成多个回答话术模板,由经纪人挑选采用。本实施例还提供了话术模板的反馈模式。本发明各个实施例中,能够精准的命中用户问题中的用户意图,进而快速提供多个回答话术模板供经纪人选择使用,很好的满足了经纪人对于用户意图分析和话术模板提供多方面的需求,极大的提高了经纪人回答用户问题的准确度。进一步的,本发明实施例的方案不仅限于用户与经纪人的对话,还可以用于智能机器人的自动回复话术等各个智能机器学习领域。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种话术模型训练方法,其特征在于,所述方法包括:
获取用户问题与对应的经纪人回答信息记录;
根据所述用户问题训练生成文本分类模型,并根据所述文本分类模型获取与所述用户问题对应的用户询问意图;
根据所述对应的经纪人回答信息记录获取回答信息特征,并根据所述回答信息特征训练聚类模型;
根据所述用户询问意图与所述聚类模型,生成话术模型。
2.如权利要求1所述的方法,其特征在于,所述获取用户问题与对应的经纪人回答信息记录,包括:
获取用户问题与经纪人回答信息的历史数据;
根据所述历史数据整理用户问题与经纪人回答信息的对应关系;
根据所述对应关系将用户问题与经纪人回答信息对应。
3.如权利要求1所述的方法,其特征在于,所述根据所述用户问题训练生成文本分类模型,包括:
根据用户问题抽取用户意图分类标签;
根据所述用户问题和用户意图分类标签,将用户问题和用户意图分类标签配置成一条样本;
抽取设定量级的所述样本构成训练数据,利用训练数据训练文本分类模型;所述文本分类模型能够根据用户问题识别对应的用户询问意图。
4.如权利要求3所述的方法,其特征在于,所述利用训练数据训练文本分类模型,包括:
将所述训练数据输入fasttext快速文本分类模型;
利用所述fasttext快速文本分类模型,对所述训练数据中的用户问题和用户意图分类标签进行分类,生成用户问题与用户询问意图的对应。
5.如权利要求1所述的方法,其特征在于,所述根据所述对应的经纪人回答信息记录获取回答信息特征,进一步包括:
根据所述用户问题与经纪人回答信息的对应关系,从所述经纪人回答信息记录中获取与所述用户问题对应的经纪人回答信息;
根据所述经纪人回答信息,抽取回答信息特征;
根据所述用户问题训练生成的文本分类模型,将所述用户询问意图与对应的回答信息特征对应。
6.一种对话信息生成方法,其特征在于,采用如权利要求1~5任一所述的话术模型,所述方法包括:
获取用户输入的用户问题,并识别用户询问意图;
根据所述用户询问意图,调用所述话术模型,生成回答话术模板。
7.一种话术模型训练装置,其特征在于,所述装置包括:
历史数据获取单元,用于获取用户问题与对应的经纪人回答信息记录;
文本分类模型单元,用于根据所述用户问题训练生成文本分类模型,并根据所述文本分类模型获取与所述用户问题对应的用户询问意图;
聚类模型单元,用于根据所述对应的经纪人回答信息记录获取回答信息特征,并根据所述回答信息特征训练聚类模型;
话术模型单元,用于根据所述用户询问意图与所述聚类模型,生成话术模型。
8.一种对话信息生成系统,其特征在于,采用如权利要求7所述的话术模型训练装置训练生成的话术模型,具体包括:
用户询问意图获取单元,用于获取用户输入的用户问题,并识别用户询问意图;
回答话术生成单元,用于根据所述用户询问意图,调用所述话术模型,生成回答话术模板。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序用于执行上述权利要求1-6任一所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-6任一所述的方法。
CN202010442462.4A 2020-05-22 2020-05-22 话术模型训练方法、对话信息生成方法及装置、系统 Pending CN111611382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010442462.4A CN111611382A (zh) 2020-05-22 2020-05-22 话术模型训练方法、对话信息生成方法及装置、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010442462.4A CN111611382A (zh) 2020-05-22 2020-05-22 话术模型训练方法、对话信息生成方法及装置、系统

Publications (1)

Publication Number Publication Date
CN111611382A true CN111611382A (zh) 2020-09-01

Family

ID=72203799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010442462.4A Pending CN111611382A (zh) 2020-05-22 2020-05-22 话术模型训练方法、对话信息生成方法及装置、系统

Country Status (1)

Country Link
CN (1) CN111611382A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328871A (zh) * 2020-10-27 2021-02-05 深圳集智数字科技有限公司 一种基于rpa模块的回复生成方法、装置、设备及存储介质
CN112765331A (zh) * 2020-12-31 2021-05-07 杭州摸象大数据科技有限公司 对话知识模板构建方法、装置、计算机设备及存储介质
CN112988948A (zh) * 2021-02-05 2021-06-18 支付宝(杭州)信息技术有限公司 业务处理方法以及装置
CN113239006A (zh) * 2021-05-12 2021-08-10 中国联合网络通信集团有限公司 日志检测模型的生成方法和装置、日志检测方法和装置
CN113570401A (zh) * 2021-06-18 2021-10-29 北京房江湖科技有限公司 用户回访管理方法、存储介质及程序产品
CN113705248A (zh) * 2021-07-21 2021-11-26 上海原圈网络科技有限公司 一种基于结果评价的话术训练数据处理方法和装置
WO2023102889A1 (zh) * 2021-12-10 2023-06-15 华为技术有限公司 语音交互的方法和装置
CN116303922A (zh) * 2022-12-08 2023-06-23 腾讯科技(深圳)有限公司 咨询消息应答方法、装置、计算机设备、存储介质和产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335400A (zh) * 2014-07-22 2016-02-17 阿里巴巴集团控股有限公司 针对用户的提问意图获取答案信息的方法及装置
CN109460502A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 答案聚类方法及其装置、电子设备、计算机可读介质
CN109815321A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 问答方法、装置、设备及存储介质
CN110516057A (zh) * 2019-08-23 2019-11-29 深圳前海微众银行股份有限公司 一种信访问题答复方法及装置
CN111104511A (zh) * 2019-11-18 2020-05-05 腾讯科技(深圳)有限公司 一种提取热点话题的方法、装置及存储介质
CN111159367A (zh) * 2019-12-11 2020-05-15 中国平安财产保险股份有限公司 一种信息处理方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335400A (zh) * 2014-07-22 2016-02-17 阿里巴巴集团控股有限公司 针对用户的提问意图获取答案信息的方法及装置
CN109460502A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 答案聚类方法及其装置、电子设备、计算机可读介质
CN109815321A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 问答方法、装置、设备及存储介质
CN110516057A (zh) * 2019-08-23 2019-11-29 深圳前海微众银行股份有限公司 一种信访问题答复方法及装置
CN111104511A (zh) * 2019-11-18 2020-05-05 腾讯科技(深圳)有限公司 一种提取热点话题的方法、装置及存储介质
CN111159367A (zh) * 2019-12-11 2020-05-15 中国平安财产保险股份有限公司 一种信息处理方法及相关设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328871A (zh) * 2020-10-27 2021-02-05 深圳集智数字科技有限公司 一种基于rpa模块的回复生成方法、装置、设备及存储介质
CN112328871B (zh) * 2020-10-27 2024-04-26 深圳集智数字科技有限公司 一种基于rpa模块的回复生成方法、装置、设备及存储介质
CN112765331A (zh) * 2020-12-31 2021-05-07 杭州摸象大数据科技有限公司 对话知识模板构建方法、装置、计算机设备及存储介质
CN112765331B (zh) * 2020-12-31 2022-11-18 杭州摸象大数据科技有限公司 对话知识模板构建方法、装置、计算机设备及存储介质
CN112988948A (zh) * 2021-02-05 2021-06-18 支付宝(杭州)信息技术有限公司 业务处理方法以及装置
CN112988948B (zh) * 2021-02-05 2023-09-19 蚂蚁胜信(上海)信息技术有限公司 业务处理方法以及装置
CN113239006A (zh) * 2021-05-12 2021-08-10 中国联合网络通信集团有限公司 日志检测模型的生成方法和装置、日志检测方法和装置
CN113570401A (zh) * 2021-06-18 2021-10-29 北京房江湖科技有限公司 用户回访管理方法、存储介质及程序产品
CN113705248A (zh) * 2021-07-21 2021-11-26 上海原圈网络科技有限公司 一种基于结果评价的话术训练数据处理方法和装置
WO2023102889A1 (zh) * 2021-12-10 2023-06-15 华为技术有限公司 语音交互的方法和装置
CN116303922A (zh) * 2022-12-08 2023-06-23 腾讯科技(深圳)有限公司 咨询消息应答方法、装置、计算机设备、存储介质和产品

Similar Documents

Publication Publication Date Title
CN111611382A (zh) 话术模型训练方法、对话信息生成方法及装置、系统
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN110164447B (zh) 一种口语评分方法及装置
CN111177359A (zh) 多轮对话方法和装置
CN111177310A (zh) 电力服务机器人智能场景会话方法及装置
US20130173251A1 (en) Electronic device and natural language analysis method thereof
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN112699686A (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN116166688A (zh) 基于自然语言交互的业务数据检索方法、系统及处理设备
CN115509485A (zh) 一种业务表单的填写方法、装置、电子设备和存储介质
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN117235213A (zh) 一种交互式客服方法及系统
CN115146124A (zh) 问答系统应答方法及其装置、设备、介质、产品
CN114742032A (zh) 交互式数据分析方法、装置、设备、介质及程序产品
CN113362815A (zh) 语音交互方法、系统、电子设备及存储介质
CN113918679A (zh) 一种知识问答方法、装置及工程机械
CN115345177A (zh) 意图识别模型训练方法和对话方法及装置
CN112579666A (zh) 智能问答系统和方法及相关设备
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN116542676A (zh) 一种基于大数据分析的智能客服系统及其方法
CN116304046A (zh) 对话数据的处理方法、装置、存储介质及电子设备
CN110472032A (zh) 医疗自定义实体词词性标签的多分类智能问答检索方法
CN111930909B (zh) 一种面向地质智能问答的数据自动化序列标注识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination