CN113688636A - 扩展问的推荐方法、装置、计算机设备和存储介质 - Google Patents

扩展问的推荐方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113688636A
CN113688636A CN202110848835.2A CN202110848835A CN113688636A CN 113688636 A CN113688636 A CN 113688636A CN 202110848835 A CN202110848835 A CN 202110848835A CN 113688636 A CN113688636 A CN 113688636A
Authority
CN
China
Prior art keywords
question
expanded
template
character
extended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110848835.2A
Other languages
English (en)
Inventor
黄健
李锋
杨洋
潘仰耀
张琛
万化
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202110848835.2A priority Critical patent/CN113688636A/zh
Publication of CN113688636A publication Critical patent/CN113688636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种扩展问的推荐方法、装置、计算机设备和存储介质。所述方法包括:根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。采用本方法能够降低人工成本。

Description

扩展问的推荐方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种扩展问的推荐方法、装置、计算机设备和存储介质。
背景技术
随着金融业快速发展,商业银行可以为客户提供丰富的标准化金融产品和服务(例如:存款,住房贷款,消费贷款等业务)。海量客户在使用这些金融产品过程中,往往会产生大量的问题。这样一来,客户服务系统每天会收到大量的客户电话。
目前,智能客服系统会将客户的语音转为文本(Audio Speech Recognition,ASR),再利用NLP(Natural Language Processing,自然语言处理)技术对客户的意图进行分类,然后,针对不同的意图,客服系统为用户提供不同的服务和反馈。为了提高客户的意图识别准确性,针对每个意图,需要预先撰写大量的样本(即标准问),然而,人工撰写的标准问数量有限,因此需要在标准问的基础上,推荐大量相关的样本(即扩展问)。
相关技术中通常采用正则表达式(或模板)的方法,由人工整理若干常见的高频用户表达模式模板,进而根据当前文本中的关键术语,对模板进行相应替换,从而实现扩展问推荐,但该方法依赖大量的人工标注,人工成本过高且推荐精度低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低人工成的扩展问的推荐方法、装置、计算机设备和存储介质。
一种扩展问的推荐方法,所述方法包括:
根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;
从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;
根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;
从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
在其中一个实施例中,所述根据历史对话语料库生成模板库,包括:
对历史对话语料库中的历史对话语料进行字符类型预测处理,得到所述历史对话语料对应的类型标签序列,所述类型标签序列包括所述历史对话语料中各字符对应的字符类型;
根据所述各字符对应的字符类型,对所述历史对话语料进行分词,得到所述历史对话语料中的待替换词句及所述待替换词句对应的语义类型;
采用所述待替换词句的语义类型对应的占位符,替换所述历史对话语料中的所述待替换词句,得到扩展问模板;
根据所述历史对话语料对应的所述扩展问模型,构建得到模板库。
在其中一个实施例中,所述根据所述各字符对应的字符类型,对所述历史对话语料进行分词,得到所述历史对话语料中的待替换词句及所述待替换词句对应的语义类型,包括:
遍历所述历史对话语料,在确定当前遍历的字符对应的字符类型对应第一语义类型的情况下,确定所述当前遍历的字符为第一字符,并继续遍历下一个字符;
若遍历到字符类型对应第二语义类型或者空类型的第二字符,则将所述第一字符划分为待替换词句,所述待替换词句对应所述第一语义类型;
其中,所述第一语义类型为语义类型中的任一语义类型,所述第二语义类型为所述语义类型中除所述第一语义类型外的任一语义类型。
在其中一个实施例中,所述从所述模板库中获取与待扩展标准问匹配的目标扩展问模板,包括:
对待扩展标准问进行字符类型预测处理,得到所述待扩展标准问对应的类型标签序列,所述类型标签序列包括所述待扩展标准问中各字符对应的字符类型;
根据各所述字符对应的字符类型,对所述待扩展标准问进行分词,得到所述待扩展标准问中的关键词句及所述关键词句对应的语义类型;
根据所述待扩展标准问中各所述关键词句对应的语义类型,从模板库中获取至少一个与所述待扩展标准问匹配的目标扩展问模板,所述目标扩展问模板中包括占位符,所述占位符的数量与所述关键词句的数量相同,且各所述占位符对应的语义类型分别与各所述关键词句的语义类型相同。
在其中一个实施例中,所述候选扩展问包括第一候选扩展问,所述根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问,包括:
针对任一所述目标扩展问模板,采用所述关键词句替换所述目标扩展问模板中与所述关键词句对应的所述占位符,得到第一候选扩展问。
在其中一个实施例中,所述候选扩展问还包括第二候选扩展问,所述根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问,还包括:
对所述第一候选扩展问进行分词,得到所述第一候选扩展问的至少一个待扩展词句;
针对任一待扩展词句,将所述待扩展词句进行领域词向量转换处理,得到所述待扩展词句对应的领域词向量;
根据所述待扩展词句对应的领域词向量,从同义词库中获取与所述待扩展词句关联的关联词句;
采用所述关联词句替换所述第一候选扩展问中对应的所述待扩展词句,得到第二候选扩展问。
在其中一个实施例中,所述从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问,包括:
将所述待扩展标准问转换为对应的语义词向量,及将各所述候选扩展问,转换为对应的语义词向量;
根据所述待扩展标准问对应的语义词向量,及所述各所述候选扩展问对应的语义词向量,从所述候选扩展问中确定所述待扩展标准问的推荐扩展问。
在其中一个实施例中,所述字符类型预测处理通过预测网络实现,所述方法还包括:
采用预设训练集训练所述预测网络,所述预设训练集包括多个样本组,所述样本组包括样本对话语料及所述样本对话语料对应的类型标注序列,所述类型标注序列包括所述样本对话语料中各字符对应的字符类型。
一种扩展问的推荐装置,所述装置包括:
生成模块,用于根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;
获取模块,用于从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;
构造模块,用于根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;
确定模块,用于从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;
从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;
根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;
从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;
从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;
根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;
从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
上述扩展问的推荐方法、装置、计算机设备和存储介质,可以根据历史对话语料库生成模板库,历史对话语料库中包括多个历史对话语料,模板库中包括至少一个历史对话语料对应的扩展问模板。从模板库中获取与待扩展标准问匹配的目标扩展问模板,并根据待扩展标准问及目标扩展问模板,构造候选扩展问,进而根据候选扩展问,得到待扩展标准问对应的推荐扩展问。本公开实施例提供的扩展问的推荐方法、装置、计算机设备和存储介质,扩展问模板是基于大量的历史对话语料生成的,缓解了推荐扩展问的过程对人工标注的依赖,因此可以降低人工成本,并大大提高扩展问推荐的精度。
附图说明
图1为一个实施例中扩展问的推荐方法的流程示意图;
图2为一个实施例中扩展问的推荐方法步骤的流程示意图;
图3为一个实施例中扩展问的推荐方法步骤的流程示意图;
图4为一个实施例中扩展问的推荐方法步骤的流程示意图;
图5为一个实施例中扩展问的推荐方法步骤的流程示意图;
图6为一个实施例中扩展问的推荐方法步骤的流程示意图;
图7为一个实施例中扩展问的推荐方法的示意图;
图8为一个实施例中扩展问的推荐装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种扩展问的推荐方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,根据历史对话语料库生成模板库,历史对话语料库中包括多个历史对话语料,模板库中包括至少一个历史对话语料对应的扩展问模板。
本公开实施例中,历史对话语料库中包括多个历史对话语料,历史对话语料可以包括在指定场景中客户的咨询信息,例如:在银行业务场景中,历史对话语料可以包括客户通过语音咨询时,语音信息对应的文本信息、或者客户通过在线咨询时输入的文本信息等。
可以预先根据采集的历史对话语料构建历史对话语料库,并根据历史对话语料库生成模板库。示例性的,可以分析历史对话语料中的关键词,并根据历史对话语料及对应的关键词生成该历史对话语料对应的扩展问模板。进一步的可以根据基于历史对话语料库生成的多个扩展问模板构建模板库。其中,扩展问模板中对应关键词的部分为可替代部分。
步骤104,从模板库中获取与待扩展标准问匹配的目标扩展问模板。
举例来说,在确定待扩展标准问之后,可以从模板库中获取与该待扩展标准问相匹配的目标扩展问模板。示例性的,可以获取关键词的部分与待扩展标准问的关键词相一致或者相关联的扩展问模板,为与待扩展标准问相匹配的目标扩展问模板。
步骤106,根据待扩展标准问及目标扩展问模板,构造候选扩展问。
举例来说,在得到目标扩展问模板后,可以根据待扩展标准问与目标扩展问模板,构造候选扩展问。例如:将目标扩展问模板中的关键词部分替换为待扩展标准问中的关键词,或者将目标扩展问模板中的关键词部分替换为待扩展标准问中的关键词的关联词等,以构造得到待扩展标准问的候选扩展问。
步骤108,从候选扩展问中,确定待扩展标准问对应的推荐扩展问。
举例来说,在构造候选扩展问之后,可以从候选扩展问之中确定待扩展标准问对应的推荐扩展问。例如:在候选扩展问的数量较少的情况下,可以将全部候选扩展问均作为待扩展标准问对应的推荐扩展问,或者在候选扩展问的数量较多的情况下,可以选择与待扩展标准问关联度最高的候选扩展问,作为待扩展标准问对应的推荐扩展问。
上述扩展问的推荐方法,可以根据历史对话语料库生成模板库,历史对话语料库中包括多个历史对话语料,模板库中包括至少一个历史对话语料对应的扩展问模板。从模板库中获取与待扩展标准问匹配的目标扩展问模板,并根据待扩展标准问及目标扩展问模板,构造候选扩展问,进而根据候选扩展问,得到待扩展标准问对应的推荐扩展问。本公开实施例提供的扩展问的推荐方法,扩展问模板是基于大量的历史对话语料生成的,缓解了推荐扩展问的过程对人工标注的依赖,因此可以降低人工成本,并大大提高扩展问推荐的精度。
在一个实施例中,参照图2所示,上述步骤102可以包括:
步骤202,对历史对话语料库中的历史对话语料进行字符类型预测处理,得到历史对话语料对应的类型标签序列,类型标签序列包括历史对话语料中各字符对应的字符类型;
步骤204,根据各字符对应的字符类型,对历史对话语料进行分词,得到历史对话语料中的待替换词句及待替换词句对应的语义类型;
步骤206,采用待替换词句的语义类型对应的占位符,替换历史对话语料中的所述待替换词句,得到扩展问模板;
步骤208,根据历史对话语料对应的扩展问模型,构建得到模板库。
举例来说,可以通过对历史对话语料库中各历史对话语料进行字符类型预测,得到历史对话语料对应的类型标签序列,该类型标签序列中包括历史对话语料中各字符对应的字符类型,也即类型标签序列由历史对话语料中各字符对应的字符类型组成。
本公开实施例中,可以预设置多种语义类型。例如:可以将客户意图定义为五元组:<V,N,A,C,E>,也即预设置五种语义类型,其中,V表示语义类型为动作类型(例如:查询,咨询等),N表示语义类型为业务名称(例如:借记卡,密码等),A表示语义类型为业务属性(例如:余额,到期日等),C表示语义类型为渠道(例如:网银,手机银行APP等),E表示语义类型为异常(例如:不能用了,上不去等)。
各语义类型具有与之相应的字符类型。举例来说,针对任一语义类型,该语义类型具有对应的第一字符类型和第二字符类型,其中,第一字符类型指示该语义类型的词句的首个字符,第二字符类型指示该语义类型的词句的中间字符。例如:语义类型为V,则对应的第一字符类型为B-V,第二字符类型为I-V、语义类型为N,则对应的第一字符类型为B-N,第二字符类型为I-N、语义类型为A,则对应的第一字符类型为B-A,第二字符类型为I-A、语义类型为C,则对应的第一字符类型为B-C,第二字符类型为I-C、语义类型为E,则对应的第一字符类型为B-E,第二字符类型为I-E。需要说明的是,不对应任一语义类型的字符对应的字符类型为空(例如为O),其对应的语义类型为空类型。
示例性的,可以采用预训练的神经网络对历史对话语料进行字符类型预测处理,得到历史对话语料对应的类型标签序列,本公开实施例中不对该神经网络的训练过程做任何限定,凡是可以训练用于预测语句的类型标签序列的神经网络的训练方式,均适用于本公开实施例。
在得到历史对话语料对应的类型标签序列的情况下,可以根据历史对话语料中各字符在类型标签系列中对应的字符类型,对历史对话语料进行分词,以得到历史对话语料中的待替换词及待替换词句对应的语义类型。例如:可以将连续且字符类型对应同一语义类型的字符划分为一个待替换词句,该待替换词句对应的语义类型即为字符类型对应的语义类型。
在得到历史对话语料对应的待替换词句后,可以根据该待替换词句及待替换词句对应的语义类型,得到对应的扩展问模板。具体地,任一语义类型可以具有与之对应的占位符,可以将历史对话语料中的待替换词句,替换为该待替换词句的语义类型对应的占位符,进而得到扩展问模板。
示例性的,可以预置语义类型V对应的占位符为“#V”、语义类型N对应的占位符为“#N”、语义类型A对应的占位符为“#A”、语义类型C对应的占位符为“#C”、语义类型E对应的占位符为“#E”。假设历史对话语料为:我想查询一下余额,得到的类型标签序列为<O O B-VI-V O O B-A I-A>,其中“查询”对应的“B-V I-V”对应语义类型V,“余额”对应的“B-A I-A”对应语义类型A,则可以确定“查询”为待替换词句,语义类型为V,“余额”为待替换词句,语义类型为A。则采用语义类型V对应的占位符“#V”替换“查询”,采用语义类型A对应的占位符“#A”替换“余额”后,生成该历史对话语料对应的扩展问模板:我想#V一下#A。
依次类推,可以得到历史对话语料库中各历史对应语料对应的扩展问模板,并可以在对各扩展问模板进行合并、去重处理后,得到对应的模板库。
需要说明的是,上述将客户意图定义为五元组:<V,N,A,C,E>,也即预置五种语义类型仅作为本公开实施例中的一种示例,而不理解为是对本公开实施例的一种限定。实际上,可以根据实际场景需求预置语义类型,例如:可以预置为三种语义类型、四种语义类型、六种语义类型等等,本公开实施例对此不做具体限定。
本公开实施例提供的扩展问的推荐方法,可以根据各字符对应的字符类型分析历史对话语料中的待替换词句,进而构建对应的扩展问模板,可以丰富扩展问模板,缓解推荐扩展问的过程对人工标注的依赖,可以降低人工成本,并大大提高扩展问推荐的精度。
在一个实施例中,参照图3所示,上述步骤204可以包括:
步骤302,遍历历史对话语料,在确定当前遍历的字符对应的字符类型对应第一语义类型的情况下,确定当前遍历的字符为第一字符,并继续遍历下一个字符;
步骤304,若遍历到字符类型对应第二语义类型或者空类型的第二字符,则将第一字符划分为待替换词句,待替换词句对应第一语义类型;其中,第一语义类型为语义类型中的任一语义类型,第二语义类型为语义类型中除第一语义类型外的任一语义类型。
举例来说,可以对历史对话语料进行遍历,确定当前遍历的字符对应的字符类型是否为空类型,若是空类型则继续遍历下一字符,否则,则确定当前字符类型对应的语义类型为第一语义类型,并将该当前字符作为第一字符,继续遍历下一个字符。在下一个字符仍为第一语义类型的情况下,将该下一个字符作为第一字符,并继续向下遍历,直至遍历至字符类型对应第二语义类型(除第一语义类型外的任一语义类型)或者空类型的第二字符,将连续的第一字符划分为待替换词句,该待替换词句对应的语义类型为第一语义类型。
依次类推,直至结束历史对话语料的遍历操作,可以得到历史对话语料中的待替换词句及待替换词句对应的语义类型。
仍以上述示例为例,对历史对话语料“我想查询一下余额”中的字符进行遍历,“我”对应的字符类型“O”对应的语义类型为空字符,则继续遍历“想”。“想”对应的字符类型“O”对应的语义类型为空字符,则继续遍历“查”。“查”对应的字符类型“B-V”对应的语义类型为V,则将“查”作为第一字符,并继续遍历“询”。“询”对应的字符类型“I-V”对应的语义类型为V,则将“询”作为第一字符,继续遍历“一”。“一”对应的字符类型“O”对应的语义类型为空字符,则将第一字符“查”、“询”划分为对应语义类型V的待替换词句“查询”,并继续遍历“下”。“下”对应的字符类型“O”对应的语义类型为空字符,则继续遍历“余”。“余”对应的字符类型“B-A”对应的语义类型为A,则将“余”作为第一字符,并继续遍历“额”。“额”对应的字符类型“I-A”对应的语义类型为A,则将“额”作为第一字符,此时不存在待遍历字符了,则将第一字符“余”、“额”划分为对应语义类型A的待替换词句“余额”,并结束遍历。也即,历史对话语料“我想查询一下余额”包括对应语义类型V的待替换词句“查询”以及对应语义类型A的待替换词句“余额”。
本公开实施例提供的扩展问的推荐方法,可以根据各字符对应的字符类型分析历史对话语料中的待替换词句,进而构建对应的扩展问模板,可以丰富扩展问模板,缓解推荐扩展问的过程对人工标注的依赖,可以降低人工成本,并大大提高扩展问推荐的精度。
在一个实施例中,参照图4所示,上述步骤104可以包括:
步骤402,对待扩展标准问进行字符类型预测处理,得到待扩展标准问对应的类型标签序列,类型标签序列包括待扩展标准问中各字符对应的字符类型;
步骤404,根据各字符对应的字符类型,对待扩展标准问进行分词,得到待扩展标准问中的关键词句及关键词句对应的语义类型;
步骤406,根据待扩展标准问中各关键词句对应的语义类型,从模板库中获取至少一个与待扩展标准问匹配的目标扩展问模板,目标扩展问模板中包括占位符,所述占位符的数量与关键词句的数量相同,且各占位符对应的语义类型分别与各关键词句的语义类型相同。
举例来说,可以对待扩展标准问进行字符类型预测处理,得到该待扩展标准问对应的类型标签序列,该类型标签序列中可以包括待扩展标准问中各字符对应的字符类型。针对待扩展标准问的字符类型预测处理,可以参照前述实施例针对历史对话语料的字符类型预测处理,本公开实施例在此不再赘述。
在得到待扩展标准问对应的类型标签序列后,可以根据该类型标签序列中待扩展标准问各字符对应的字符类型,对待扩展标准问进行分词,得到待扩展标准问中的关键词句及关键词句对应的语义类型。针对待扩展标准问的分词操作可以参照前述实时例中针对历史对话语料分词操作的过程,本公开实施例同样在此不再赘述。
在得到待扩展标准问中的关键词句及关键词句对应的语义类型后,可以根据待扩展标准问中的关键词句及关键词句对应的语义类型从模板库中获取至少一个与待扩展标准问匹配的目标扩展问模板。示例性的,可以确定占位符的数量及占位符对应的语义类型与待扩展标准问中关键词句的数量及关键词句对应的语义类型完全一致的扩展问模板,将该扩展问模板作为与待扩展标准问匹配的目标扩展问模板。
示例性的,假设当前的待扩展标准问为:我今天主要想咨询一下到期日,则进行分词后,得到的关键词句包括对应语义类型V的“咨询”及对应语义类型A的“到期日”,则可以从模板库中查找具有两个占位符、且占位符分别为对应语义类型V的#V和对应语义类型A的#A的扩展问模板。假设查到扩展问模板“我想#V一下#A”,则可以确定该扩展问模板“我想#V一下#A”为待扩展标准问的目标扩展问模板。
本公开实施例提供的扩展问的推荐方法,可以根据待扩展标准问中关键词句的语义类型,从模板库中获取与之相匹配的目标扩展问模板,由于可以缓解推荐扩展问的过程对人工标注的依赖,因此可以降低人工成本,并大大提高扩展问推荐的精度。并且,由于本公开实施例中扩展问模板是基于语义类型构造的,因此构造的推荐扩展问不仅可以覆盖高频意图表达模式,而且还能覆盖长尾意图表达模式,可以提高推荐扩展问的适用性。
在一个实施例中,候选扩展问包括第一候选扩展问,上述步骤106可以包括:
针对任一目标扩展问模板,采用关键词句替换目标扩展问模板中与关键词句对应的占位符,得到第一候选扩展问。
举例来说,在得到待扩展标准问对应的目标扩展问模板后,可以采用待扩展标准问中的关键词句,替换目标扩展问模板中与该关键词句对应相同语义类型的占位符,进而得到第一候选扩展问。
仍以上述示例为例,待扩展标准问包括对应语义类型V的“咨询”及对应语义类型A的“到期日”,目标扩展问模板为“我想#V一下#A”。则可以采用对应语义类型V的关键词句“咨询”替换目标扩展问模板中的“#V”,采用对应语义类型A的关键词句“到期日”替换目标扩展问模板中的“#A”,得到第一候选扩展问:我想咨询一下到期日。
依此类推,通过各目标扩展问模板可以得到多个第一候选扩展问,进而可以根据第一候选扩展问得到推荐扩展问,例如:将第一候选扩展问作为推荐扩展问,或者从第一候选扩展问中选取与待扩展标准问关联度较高的第一候选扩展问作为推荐扩展问。
本公开实施例提供的扩展问的推荐方法,可以基于历史对话语料构建扩展问模板,并从中选择目标扩展问模板后,根据待扩展标准问及目标扩展问模板构造第一候选扩展问,并从该第一候扩展问中确定推荐扩展问,可以缓解推荐扩展问的过程对人工标注的依赖,可以降低人工成本,并大大提高扩展问推荐的精度。
在一个实施例中,候选扩展问还包括第二候选扩展问,参照图5,上述步骤106可以包括:
步骤502,对第一候选扩展问进行分词,得到第一候选扩展问的至少一个待扩展词句;
步骤504,针对任一待扩展词句,将待扩展词句进行领域词向量转换处理,得到待扩展词句对应的领域词向量;
步骤506,根据待扩展词句对应的领域词向量,从同义词库中获取与待扩展词句关联的关联词句;
步骤508,采用关联词句替换第一候选扩展问中对应的待扩展词句,得到第二候选扩展问。
举例来说,可以对第一候选扩展问进行分词,得到第一候选扩展问的至少一个待扩展词句。本公开实施例不对分词方式做具体限定,分词方式包括且不限于:正向最大匹配法、逆向最大匹配法、双向最大匹配等。在分词后,可以将得到的词句中的非预设的停用词,作为待扩展词句。
示例性的,可以使用相同领域的历史对话语料构造同义词库(例如:金融等领域)。可以采用CBOW(连续词袋模型,Continuous Bag-of-Words)或Skip-gram模型等方法,训练领域词向量模型,从而根据该领域词向量模型能够得到对应领域内历史对话语料中各词句的领域词向量,进而根据各词句的领域词向量的相似度,构建对应的同义词库。
可以遍历第一候选扩展问,对其进行分词处理,得到第一候选扩展问的待扩展词句,并通过领域词向量模型将该待扩展词句转换为对应的领域词向量后,使用该领域词向量,从同义词中获取与该领域词向量相似度较高的N个同义词句,将该N个同义词句作为该待扩展词句的关联词句(其中,N可以为预设的数值或者可以为根据预设的比例获取的数值等)。可以分别将这N个关联词句替换对应的待扩展词句后,从而得到N个第二候选扩展问。
依此类推,针对第一候选扩展问中各待扩展词句,均可以获取对应的关联词句,并可以采用各关联词句替换该第一候选扩展问中的待扩展词句,得到多个第二候选扩展问。此时,候选扩展问可以包括第一候选扩展问和第二候选扩展问,进而可以从候选扩展问中得到推荐扩展问。
本公开实施例提供的扩展问的推荐方法,通过历史对话语料训练了偏向口语化的领域词向量模型,通过该领域词向量模型可以构建同义词库,不需要人工维护同义词库,可以提高扩展问的同义词泛化能力,并且通过该同义词库可以丰富候选扩展问,进而可以缓解推荐扩展问表达形式单一、多样性不佳、推荐数量不足等问题,从而提高客户意图识别准确率以及模型泛化能力。
在一个实施例中,参照图6,上述步骤108可以包括:
步骤602,将待扩展标准问转换为对应的语义词向量,及将各候选扩展问,转换为对应的语义词向量;
步骤604,根据待扩展标准问对应的语义词向量,及各所述候选扩展问对应的语义词向量,从候选扩展问中确定待扩展标准问的推荐扩展问。
举例来说,可以使用自编码或自回归的方式,训练语言模型,该语言模型可以实现对文本信息进行向量化表示。可以采用该语言模型将待扩展标准问转换为对应的语义词向量、以及将各候选扩展问转换为对应的语义词向量,并通过语义相似度计算方法(例如:余弦相似度算法等),分别计算待扩展标准问对应的语义词向量与各候选扩展问对应的语义词向量的相似度,并根据该相似度从候选扩展问中确定待扩展标准问的推荐扩展问。例如:可以从候选扩展问中选取相似度大于或者等于相似度阈值的候选扩展问,作为待扩展标准问的推荐扩展问;或者,可以从候选扩展问中选取相似度最高的M个候选扩展问,作为待扩展标准问的推荐扩展问,其中M为预设的数值。
进一步的,在得到多个推荐扩展问后,可以按照各推荐扩展问对应的相似度的大小,进行降序排列,从而得到推荐扩展问列表。
本公开实施例提供的扩展问的推荐方法,通过扩展问模板及同义词库可以得到大量的候选扩展问,并从可以从候选扩展问中得到推荐扩展问,可以提高推荐扩展问的精度,进而可以提高客户意图识别准确率。
在一个实施例中,字符类型预测处理可以通过预测网络实现,上述方法还可以包括:
采用预设训练集训练预测网络,预设训练集包括多个样本组,样本组包括样本对话语料及样本对话语料对应的类型标注序列,类型标注序列包括样本对话语料中各字符对应的字符类型。
举例来说,智能客服对话系统往往是基于客户询问的意图,做出相应的反馈、回复。以上述示例为例,结合人工构造的动作、业务、属性、渠道和异常情况,本公开实施例中将客户意图定义为五元组:<V,N,A,C,E>,即对应五种语义类型。其中V,N,A,C,E对应的语义类型可以参照前述实施例,本公开实施例对此不做赘述。
可以预先从大规模历史对话语料中筛选出样本对话语料。可以采用BIO方法,对样本对话语料中字符的字符类型进行标注(包括:B_V,I_V,B_N,I_N,B_A,I_A,B_C,I_C,B_E,I_E,O等标签),得到样本对话语料的类型标注序列,根据各样本对话语料及样本对话语料对应的类型标注序列,可以得到多个样本组,进而根据多个样本组,构造预设训练集。
可以将各样本对话语料输入预测网络进行字符类型预测处理,得到样本对话语料对应的类型标签序列,根据样本对话语料对应的类型标签序列及类型标注序列,可以确定预测网络的网络损失,并可以根据该网络损失调整预测网络的网络参数,直至预测网络的网络损失满足训练要求(例如:网络损失小于损失阈值),完成预测网络的训练,得到预训练的预测网络。
本公开实施例中,可以将预设训练集进一步拆分为训练集和测试集,在训练集上训练该预测模型后,在测试集上评估预测模型的效果,并可以选取在测试集上效果最好的预测模型,作为后续扩展问推荐的核心模型。
例如:采用该预测模型对历史对话语料进行字符类型预测处理,以得到历史对话语料的类型标签序列,进而根据历史对话语料的类型标签序列构造扩展问模板,或者采用该预测模型对待扩展标准问进行字符类型预测处理,得到待扩展标准问对应的类型标签序列,进而根据待扩展标准问对应的类型标签序列确定目标扩展问模板,根据目标扩展问模板构造候选扩展问。
本公开实施例提供的扩展问的推荐方法,采用轻量型的预测网络即可实现扩展问模板的构建及构造候选扩展问,可以提高推荐速度。
为使本领域技术人员更好的理解本公开实施例,以下通过具体事例对本公开实施例加以说明。
参照图7所示,可以根据大规模的历史对话语料构建预设训练集,并采用预设训练集训练预测模型。采用预测模型对历史对话语料库中的历史对话语料进行字符类型预测处理,得到各历史对话语料对应的类型标签序列后,根据各历史对话语料对应的类型标签序列,确定各历史对话语料对应的待替换词句及待替换词句对应的语义类型。根据各历史对话语料对应的待替换词句及待替换词句对应的语义类型构建对应的扩展问模板后,并对扩展问模板进行合并、去重等处理,得到对应的模板库。
采用预测模型对待扩展标准问进行字符类型预测处理,得到待扩展标准问对应的类型标签序列,并根据待扩展标准问的类型标签序列,确定待扩展标准问的关键词句及关键词句对应的语义类型。根据待扩展标准问的类型标签序列确定关键词句及关键词句对应的语义类型,从模板库中获取与该待扩展标准问匹配的目标扩展问模板,并采用待扩展标准问的关键词句替换目标扩展问模板中的占位符,可以得到第一候选扩展问。
可以预训练领域词向量模型,对第一候选扩展问进行分词处理后,可以得到第一候选扩展问的待扩展词句,根据该领域词向量模型得到各待扩展词句对应的领域词向量,并可以根据各待扩展词句对应的领域词向量,从基于领域词向量模型及历史对话语料库构建的同义词库中,确定各待扩展词句的关联词句。采用各待扩展词句的关联词句替换第一候选扩展问中对应的待扩展词句,可以得到第二候选扩展问。
采用预训练的语言模型将待扩展标准问转换为对应的语义词向量,及将各候选扩展问(包括第一候选扩展问及第二候选扩展问)转换为对应的语义词向量后,可以根据待扩展标准问对应的语义词向量与各候选扩展问对应的语义词向量的相似度,从候选扩展问中得到待扩展标准问的推荐标准问。
本公开实施例提供的扩展问的推荐方法,基于丰富的历史对话语料构建模板库,可以得到大规模的推荐扩展问,可以提高扩展问的多样性。根据该模板库中的扩展问模板得到的推荐扩展问,不仅可以覆盖高频意图表达模式,而且还能覆盖长尾意图表达模式,可以提高扩展问的适用性。并且本公开实施例基于历史对话语料训练领域词向量模型,并根据该领域词向量模型创建同义词库,能够从大规模领域语料中学习到同义词,无需人工维护同义词库,可以减少人为构造同义词库的投入,并可以提高扩展问的泛化能力。本公开实施例涉及的神经网络均为轻量级网络,故响应速度快。
应该理解的是,虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种扩展问的推荐装置,包括生成模块802、获取模块804、构造模块806和确定模块808,其中:
生成模块802,用于根据历史对话语料库生成模板库,历史对话语料库中包括多个历史对话语料,模板库中包括至少一个历史对话语料对应的扩展问模板;
获取模块804,用于从模板库中获取与待扩展标准问匹配的目标扩展问模板;
构造模块806,用于根据待扩展标准问及目标扩展问模板,构造候选扩展问;
确定模块808,用于从候选扩展问中,确定待扩展标准问对应的推荐扩展问。
上述扩展问的推荐装置,可以根据历史对话语料库生成模板库,历史对话语料库中包括多个历史对话语料,模板库中包括至少一个历史对话语料对应的扩展问模板。从模板库中获取与待扩展标准问匹配的目标扩展问模板,并根据待扩展标准问及目标扩展问模板,构造候选扩展问,进而根据候选扩展问,得到待扩展标准问对应的推荐扩展问。本公开实施例提供的扩展问的推荐装置,扩展问模板是基于大量的历史对话语料生成的,缓解了推荐扩展问的过程对人工标注的依赖,因此可以降低人工成本,并大大提高扩展问推荐的精度。
在一个实施例中,上述生成模块802还用于:
对历史对话语料库中的历史对话语料进行字符类型预测处理,得到历史对话语料对应的类型标签序列,类型标签序列包括历史对话语料中各字符对应的字符类型;
根据各字符对应的字符类型,对历史对话语料进行分词,得到历史对话语料中的待替换词句及待替换词句对应的语义类型;
采用待替换词句的语义类型对应的占位符,替换历史对话语料中的待替换词句,得到扩展问模板;
根据历史对话语料对应的扩展问模型,构建得到模板库。
在一个实施例中,上述生成模块802还用于:
遍历历史对话语料,在确定当前遍历的字符对应的字符类型对应第一语义类型的情况下,确定当前遍历的字符为第一字符,并继续遍历下一个字符;
若遍历到字符类型对应第二语义类型或者空类型的第二字符,则将第一字符划分为待替换词句,待替换词句对应第一语义类型;
其中,第一语义类型为语义类型中的任一语义类型,第二语义类型为语义类型中除第一语义类型外的任一语义类型。
在一个实施例中,上述获取模块804还用于:
对待扩展标准问进行字符类型预测处理,得到待扩展标准问对应的类型标签序列,类型标签序列包括待扩展标准问中各字符对应的字符类型;
根据各字符对应的字符类型,对待扩展标准问进行分词,得到待扩展标准问中的关键词句及关键词句对应的语义类型;
根据待扩展标准问中各关键词句对应的语义类型,从模板库中获取至少一个与待扩展标准问匹配的目标扩展问模板,目标扩展问模板中包括占位符,占位符的数量与关键词句的数量相同,且各占位符对应的语义类型分别与各关键词句的语义类型相同。
在一个实施例中,候选扩展问包括第一候选扩展问,上述获取模块804还用于:
针对任一目标扩展问模板,采用关键词句替换目标扩展问模板中与关键词句对应的占位符,得到第一候选扩展问。
在一个实施例中,候选扩展问还包括第二候选扩展问,上述获取模块804还用于:
对第一候选扩展问进行分词,得到第一候选扩展问的至少一个待扩展词句;
针对任一待扩展词句,将待扩展词句进行领域词向量转换处理,得到待扩展词句对应的领域词向量;
根据待扩展词句对应的领域词向量,从同义词库中获取与待扩展词句关联的关联词句;
采用关联词句替换第一候选扩展问中对应的待扩展词句,得到第二候选扩展问。
在一个实施例中,上述确定模块808还用于:
将待扩展标准问转换为对应的语义词向量,及将各候选扩展问,转换为对应的语义词向量;
根据待扩展标准问对应的语义词向量,及各候选扩展问对应的语义词向量,从候选扩展问中确定待扩展标准问的推荐扩展问。
在一个实施例中,字符类型预测处理通过预测网络实现,所述装置还包括:
训练模块,用于采用预设训练集训练所述预测网络,所述预设训练集包括多个样本组,所述样本组包括样本对话语料及所述样本对话语料对应的类型标注序列,所述类型标注序列包括所述样本对话语料中各字符对应的字符类型。
关于扩展问的推荐装置的具体限定可以参见上文中对于扩展问的推荐方法的限定,在此不再赘述。上述扩展问的推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种扩展问的推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对历史对话语料库中的历史对话语料进行字符类型预测处理,得到所述历史对话语料对应的类型标签序列,所述类型标签序列包括所述历史对话语料中各字符对应的字符类型;根据所述各字符对应的字符类型,对所述历史对话语料进行分词,得到所述历史对话语料中的待替换词句及所述待替换词句对应的语义类型;采用所述待替换词句的语义类型对应的占位符,替换所述历史对话语料中的所述待替换词句,得到扩展问模板;根据所述历史对话语料对应的所述扩展问模型,构建得到模板库。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
遍历所述历史对话语料,在确定当前遍历的字符对应的字符类型对应第一语义类型的情况下,确定所述当前遍历的字符为第一字符,并继续遍历下一个字符;若遍历到字符类型对应第二语义类型或者空类型的第二字符,则将所述第一字符划分为待替换词句,所述待替换词句对应所述第一语义类型;其中,所述第一语义类型为语义类型中的任一语义类型,所述第二语义类型为所述语义类型中除所述第一语义类型外的任一语义类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对待扩展标准问进行字符类型预测处理,得到所述待扩展标准问对应的类型标签序列,所述类型标签序列包括所述待扩展标准问中各字符对应的字符类型;根据各所述字符对应的字符类型,对所述待扩展标准问进行分词,得到所述待扩展标准问中的关键词句及所述关键词句对应的语义类型;根据所述待扩展标准问中各所述关键词句对应的语义类型,从模板库中获取至少一个与所述待扩展标准问匹配的目标扩展问模板,所述目标扩展问模板中包括占位符,所述占位符的数量与所述关键词句的数量相同,且各所述占位符对应的语义类型分别与各所述关键词句的语义类型相同。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对任一所述目标扩展问模板,采用所述关键词句替换所述目标扩展问模板中与所述关键词句对应的所述占位符,得到第一候选扩展问。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对所述第一候选扩展问进行分词,得到所述第一候选扩展问的至少一个待扩展词句;针对任一待扩展词句,将所述待扩展词句进行领域词向量转换处理,得到所述待扩展词句对应的领域词向量;根据所述待扩展词句对应的领域词向量,从同义词库中获取与所述待扩展词句关联的关联词句;采用所述关联词句替换所述第一候选扩展问中对应的所述待扩展词句,得到第二候选扩展问。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述待扩展标准问转换为对应的语义词向量,及将各所述候选扩展问,转换为对应的语义词向量;根据所述待扩展标准问对应的语义词向量,及所述各所述候选扩展问对应的语义词向量,从所述候选扩展问中确定所述待扩展标准问的推荐扩展问。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
采用预设训练集训练所述预测网络,所述预设训练集包括多个样本组,所述样本组包括样本对话语料及所述样本对话语料对应的类型标注序列,所述类型标注序列包括所述样本对话语料中各字符对应的字符类型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对历史对话语料库中的历史对话语料进行字符类型预测处理,得到所述历史对话语料对应的类型标签序列,所述类型标签序列包括所述历史对话语料中各字符对应的字符类型;根据所述各字符对应的字符类型,对所述历史对话语料进行分词,得到所述历史对话语料中的待替换词句及所述待替换词句对应的语义类型;采用所述待替换词句的语义类型对应的占位符,替换所述历史对话语料中的所述待替换词句,得到扩展问模板;根据所述历史对话语料对应的所述扩展问模型,构建得到模板库。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
遍历所述历史对话语料,在确定当前遍历的字符对应的字符类型对应第一语义类型的情况下,确定所述当前遍历的字符为第一字符,并继续遍历下一个字符;若遍历到字符类型对应第二语义类型或者空类型的第二字符,则将所述第一字符划分为待替换词句,所述待替换词句对应所述第一语义类型;其中,所述第一语义类型为语义类型中的任一语义类型,所述第二语义类型为所述语义类型中除所述第一语义类型外的任一语义类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对待扩展标准问进行字符类型预测处理,得到所述待扩展标准问对应的类型标签序列,所述类型标签序列包括所述待扩展标准问中各字符对应的字符类型;根据各所述字符对应的字符类型,对所述待扩展标准问进行分词,得到所述待扩展标准问中的关键词句及所述关键词句对应的语义类型;根据所述待扩展标准问中各所述关键词句对应的语义类型,从模板库中获取至少一个与所述待扩展标准问匹配的目标扩展问模板,所述目标扩展问模板中包括占位符,所述占位符的数量与所述关键词句的数量相同,且各所述占位符对应的语义类型分别与各所述关键词句的语义类型相同。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
针对任一所述目标扩展问模板,采用所述关键词句替换所述目标扩展问模板中与所述关键词句对应的所述占位符,得到第一候选扩展问。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对所述第一候选扩展问进行分词,得到所述第一候选扩展问的至少一个待扩展词句;针对任一待扩展词句,将所述待扩展词句进行领域词向量转换处理,得到所述待扩展词句对应的领域词向量;根据所述待扩展词句对应的领域词向量,从同义词库中获取与所述待扩展词句关联的关联词句;采用所述关联词句替换所述第一候选扩展问中对应的所述待扩展词句,得到第二候选扩展问。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述待扩展标准问转换为对应的语义词向量,及将各所述候选扩展问,转换为对应的语义词向量;根据所述待扩展标准问对应的语义词向量,及所述各所述候选扩展问对应的语义词向量,从所述候选扩展问中确定所述待扩展标准问的推荐扩展问。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
采用预设训练集训练所述预测网络,所述预设训练集包括多个样本组,所述样本组包括样本对话语料及所述样本对话语料对应的类型标注序列,所述类型标注序列包括所述样本对话语料中各字符对应的字符类型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种扩展问的推荐方法,其特征在于,所述方法包括:
根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;
从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;
根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;
从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
2.根据权利要求1所述的方法,其特征在于,所述根据历史对话语料库生成模板库,包括:
对历史对话语料库中的历史对话语料进行字符类型预测处理,得到所述历史对话语料对应的类型标签序列,所述类型标签序列包括所述历史对话语料中各字符对应的字符类型;
根据所述各字符对应的字符类型,对所述历史对话语料进行分词,得到所述历史对话语料中的待替换词句及所述待替换词句对应的语义类型;
采用所述待替换词句的语义类型对应的占位符,替换所述历史对话语料中的所述待替换词句,得到扩展问模板;
根据所述历史对话语料对应的所述扩展问模型,构建得到模板库。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各字符对应的字符类型,对所述历史对话语料进行分词,得到所述历史对话语料中的待替换词句及所述待替换词句对应的语义类型,包括:
遍历所述历史对话语料,在确定当前遍历的字符对应的字符类型对应第一语义类型的情况下,确定所述当前遍历的字符为第一字符,并继续遍历下一个字符;
若遍历到字符类型对应第二语义类型或者空类型的第二字符,则将所述第一字符划分为待替换词句,所述待替换词句对应所述第一语义类型;
其中,所述第一语义类型为语义类型中的任一语义类型,所述第二语义类型为所述语义类型中除所述第一语义类型外的任一语义类型。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述从所述模板库中获取与待扩展标准问匹配的目标扩展问模板,包括:
对待扩展标准问进行字符类型预测处理,得到所述待扩展标准问对应的类型标签序列,所述类型标签序列包括所述待扩展标准问中各字符对应的字符类型;
根据各所述字符对应的字符类型,对所述待扩展标准问进行分词,得到所述待扩展标准问中的关键词句及所述关键词句对应的语义类型;
根据所述待扩展标准问中各所述关键词句对应的语义类型,从模板库中获取至少一个与所述待扩展标准问匹配的目标扩展问模板,所述目标扩展问模板中包括占位符,所述占位符的数量与所述关键词句的数量相同,且各所述占位符对应的语义类型分别与各所述关键词句的语义类型相同。
5.根据权利要求4所述的方法,其特征在于,所述候选扩展问包括第一候选扩展问,所述根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问,包括:
针对任一所述目标扩展问模板,采用所述关键词句替换所述目标扩展问模板中与所述关键词句对应的所述占位符,得到第一候选扩展问。
6.根据权利要求5所述的方法,其特征在于,所述候选扩展问还包括第二候选扩展问,所述根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问,还包括:
对所述第一候选扩展问进行分词,得到所述第一候选扩展问的至少一个待扩展词句;
针对任一待扩展词句,将所述待扩展词句进行领域词向量转换处理,得到所述待扩展词句对应的领域词向量;
根据所述待扩展词句对应的领域词向量,从同义词库中获取与所述待扩展词句关联的关联词句;
采用所述关联词句替换所述第一候选扩展问中对应的所述待扩展词句,得到第二候选扩展问。
7.根据权利要求1~3、5~6中任一项所述的方法,其特征在于,所述从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问,包括:
将所述待扩展标准问转换为对应的语义词向量,及将各所述候选扩展问,转换为对应的语义词向量;
根据所述待扩展标准问对应的语义词向量,及所述各所述候选扩展问对应的语义词向量,从所述候选扩展问中确定所述待扩展标准问的推荐扩展问。
8.根据权利要求4所述的方法,其特征在于,所述字符类型预测处理通过预测网络实现,所述方法还包括:
采用预设训练集训练所述预测网络,所述预设训练集包括多个样本组,所述样本组包括样本对话语料及所述样本对话语料对应的类型标注序列,所述类型标注序列包括所述样本对话语料中各字符对应的字符类型。
9.一种扩展问的推荐装置,其特征在于,所述装置包括:
生成模块,用于根据历史对话语料库生成模板库,所述历史对话语料库中包括多个历史对话语料,所述模板库中包括至少一个所述历史对话语料对应的扩展问模板;
获取模块,用于从所述模板库中获取与待扩展标准问匹配的目标扩展问模板;
构造模块,用于根据所述待扩展标准问及所述目标扩展问模板,构造候选扩展问;
确定模块,用于从所述候选扩展问中,确定所述待扩展标准问对应的推荐扩展问。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202110848835.2A 2021-07-27 2021-07-27 扩展问的推荐方法、装置、计算机设备和存储介质 Pending CN113688636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848835.2A CN113688636A (zh) 2021-07-27 2021-07-27 扩展问的推荐方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848835.2A CN113688636A (zh) 2021-07-27 2021-07-27 扩展问的推荐方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113688636A true CN113688636A (zh) 2021-11-23

Family

ID=78577896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848835.2A Pending CN113688636A (zh) 2021-07-27 2021-07-27 扩展问的推荐方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113688636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN112307168B (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
US20230350929A1 (en) Method and system for generating intent responses through virtual agents
CN117609444B (zh) 一种基于大模型的搜索问答方法
CN113254613B (zh) 对话问答方法、装置、设备及存储介质
CN113343108B (zh) 推荐信息处理方法、装置、设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN114220461A (zh) 客服话术的引导方法、装置、设备及存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
WO2024073087A1 (en) Revision of and attribution for output of text generation models
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
Zhuang et al. An ensemble approach to conversation generation
CN117709358A (zh) 保险智能问答系统的对话应答方法、装置、设备和介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN110795547A (zh) 文本识别方法和相关产品
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
CN113688636A (zh) 扩展问的推荐方法、装置、计算机设备和存储介质
CN112597292A (zh) 问题回复推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination