CN111552787A - 问答处理方法、装置、设备及存储介质 - Google Patents

问答处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111552787A
CN111552787A CN202010328553.5A CN202010328553A CN111552787A CN 111552787 A CN111552787 A CN 111552787A CN 202010328553 A CN202010328553 A CN 202010328553A CN 111552787 A CN111552787 A CN 111552787A
Authority
CN
China
Prior art keywords
record
dialogue
question
text
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010328553.5A
Other languages
English (en)
Other versions
CN111552787B (zh
Inventor
陈晓军
陈显玲
杨明晖
崔恒斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010328553.5A priority Critical patent/CN111552787B/zh
Publication of CN111552787A publication Critical patent/CN111552787A/zh
Application granted granted Critical
Publication of CN111552787B publication Critical patent/CN111552787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种问答处理方法、装置、设备及存储介质,获取用户问题匹配的候选对话记录集,针对候选对话记录集中每段对话记录,以用户问题替换对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对文本对象进行分类,得到表征用户问题与对话记录之间的匹配程度文本对象的文本分类结果,根据每个文本对象的文本分类结果,从候选对话记录集选出目标对话记录,并将目标对话记录提供给当前提问用户。

Description

问答处理方法、装置、设备及存储介质
技术领域
本说明书实施例文本处理技术,尤其涉及一种问答处理方法、装置、设备及存储介质。
背景技术
随着移动互联的发展和智能终端的普及,用户能够随时随地的使用企业通过互联网提供的各种服务,使得企业客服更需要面临大大增加的整体服务需求和更为碎片、多元化的客户服务需要。在这样的需求驱动下,云客服成为企业的选择。智能云客服基于互联网,依托云服务,帮助企业建立虚拟客户服务中心,云客服依托大数据平台,凭借数据挖掘,搜索,语音转文本,自然语音处理,机器学习等前沿技术,打造一套完整的智能服务体系。最终达到以智能自助服务逐渐取代大部分人工服务;以智能引导和智能决策、机器人辅助人工服务;让客户随时随地享受到方便、快捷、贴心以及个性化的服务。
发明内容
本说明书实施例提供一种问答处理方法、装置、设备及存储介质,从而提高了智能回答用户问题的准确性。
第一方面,本说明书实施例提供一种问答处理方法,包括:获取当前提问用户的用户问题;获取所述用户问题匹配的候选对话记录集,所述候选对话记录集中包含一段以上对话记录,每段所述对话记录是包含代表问题的语句序列;针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,所述文本分类结果表征所述用户问题与所述对话记录之间的匹配程度;根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,并将所述目标对话记录提供给所述当前提问用户。
第二方面,本说明书实施例提供一种文本分类模型的训练方法,包括:收集多段真实对话记录,形成正样本集;从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集;以所述正样本集和所述负样本集对初始的二分类模型进行训练,得到所述文本分类模型。
第三方面,本说明书实施例提供一种问答处理装置,包括:问题获取单元,用于获取当前提问用户的用户问题;对话集获取单元,用于获取所述用户问题匹配的候选对话记录集,所述候选对话记录集中包含一段以上对话记录,每段所述对话记录是包含代表问题的语句序列;文本分类单元,用于针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,所述文本分类结果表征所述用户问题与所述对话记录之间的匹配程度;对话选择单元,用于根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,并将所述目标对话记录提供给所述当前提问用户。
第四方面,本说明书实施例提供一种文本分类模型的训练装置,包括正样本收集单元,用于收集多段真实对话记录,形成正样本集;负样本构建单元,用于从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集;训练单元,用于以所述正样本集和所述负样本集对初始的二分类模型进行训练,得到所述文本分类模型。
第五方面,本说明书实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或者第二方面所述方法的步骤。
第六方面、本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或者第二方面所述方法的步骤。
本说明书实施例提供的一个或者多个技术方案,至少实现了如下技术效果或者优点:
在本说明书实施例中,是以用户问题替换对话记录的代表问题,形成待分类的文本对象,通过文本分类模型对文本对象进行分类,得到表征用户问题与所述对话记录之间的匹配程度的文本分类结果,以评价用户问题是否适合这段对话记录,形成的文本对象包含了用户问题和对话记录中除代表问题之外的对话内容,从而充分利用了对话记录的上下文和序列信息,而不仅仅是基于用户问题与代表问题之间的匹配程度来判断提供给用户的对话记录是否合适,因此,使得提供给用户的对话记录更为准确。
进一步的,应用于云客服领域,就能够更快、更准确的提问用户找到问题对应的答案内容的对话记录,提高了云客服的客服质量,进而减少因智能客服不满意而触发的人工客服。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本说明书实施例中问答处理方法的流程示意图;
图2为本说明书实施例中对话记录的示意图;
图3为本说明书实施例中以用户问题替换对话记录中代表问题的示意图;
图4为本说明书实施例中文本分类模型的训练方法的流程示意图;
图5为本说明书实施例中问答处理装置的功能模块图;
图6为本说明书实施例中文本分类模型的训练装置的功能模块图;
图7为本说明书实施例中电子设备的结构示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
第一方面,本说明书实施例提供一种问答处理方法,应用于云客服服务端,云客服服务端接收到当前提问用户的用户问题之后,从多段对话记录中确定出针对用户问题的目标对话记录,并将确定出的目标对话记录提供给当前提问用户,使得当前提问用户能够从目标对话记录中获得所提用户问题的答案。云客服服务端可以是运行在一台到多台具有计算和存储能力的物理设备上,当前提问用户可以通过各种渠道接入到云客服服务端,如热线电话、网页链接、即时通信工具等。
下面参考图1至图3所示,对本说明书实施例提供的问答处理方法进行详细描述,以理解本说明书实施例提供的技术方案:
S100、获取当前提问用户的用户问题。其中,在本说明书实施例中,用户问题可以是一个以上问题语句、或者是一个或多个问题关键词。
S102、获取用户问题匹配的候选对话记录集,候选对话记录集中包含一段以上对话记录,每段对话记录是包含代表问题的语句序列。
本说明书实施例中,候选对话记录集中的每段对话记录,可以是预先收集的是用户与客服之间历史的问答对话记录,因此,每段对话记录中包含用户与客服之间一问一答的对话内容,因此,其中会包含用户的一个或者多个问题语句以及客服的一个或者多个答案语句。具体形式可以为文本对话记录或语音对话记录。当然,如果应用于其他场景,收集的对话记录也可以是其他问答形式的对话内容。
在本说明书实施例中,在将收集的对话记录存储至对话记录库之前,先标定对话记录的代表问题。或者可以是从对话记录库中获取到候选对话记录集之后,仅对候选对话记录集中每段对话记录进行标定代表问题。
具体的,对于对话记录中代表问题的标定可以有多种实施方式,下面给出两种标定代表问题的实施方式举例:
①、将对话记录中预定位置的语句标定为对话记录的代表问题,比如,将对话记录中属于用户的第一个问题语句标定为代表问题。参考图2所示的一段对话记录中,可以将属于用户的第一个问题语句“收到卡后,需要充值吗”标定为代表问题。因为,在实际应用场景下,对话记录中属于用户的第一个问题语句是云客服服务端不能获得对应答案的问题语句,该问题语句就会成为转入人工客服的触发条件,成为用户与人工客服之间沟通过程中,用户的第一个问题语句。因此,将对话记录中属于用户的第一个问题语句标定为代表问题是合理、且简单高效的。
②、通过问题评估模型从对话记录中的每个语句进行评估,以识别出目标问题语句,并将目标问题语句标定为对话记录的代表问题,从而能够更准确标定对话记录的代表问题。其中,问题评估模型是通过已标记代表问题的样本进行训练得到。
具体的,对于获取候选对话记录集可以采用如下实施方式,以快速从对话记录库中召回候选对话记录集:
对用户问题进行分词处理,得到搜索关键词;根据搜索关键词,从对话记录库中检索出与用户问题匹配的一段以上对话记录,形成候选对话记录集,其中,对话记录库是以对话记录中代表问题的关键词作为索引标目建立了索引。
更具体来讲,根据搜索关键词从对话记录库中检索出多段对话记录,根据检索出的多段对话记录与搜索关键词之间的匹配度进行排序,召回预定数量段对话记录,形成候选对话记录集。
S104、针对候选对话记录集中每段对话记录,以用户问题替换该对话记录的代表问题,得到待分类的文本对象,通过文本分类模型对文本对象进行分类,得到文本对象的文本分类结果,文本分类结果表征用户问题与该对话记录之间的匹配程度。
以用户问题替换对话记录的代表问题得到的待分类的文本对象可以参考图3所示。文本分类模型可以是使用任意一种基于编码器的模型进行训练得到的二分类模型,比如,可以是由:CNN(Convolutional Neural Networks,卷积神经网络)模型、LSTM(LongShort-Term Memory,长短期记忆网络)模型或者BERT(Bidirectional EncoderRepresentation from Transformers)语言模型训练得到的二分类模型。
具体的,由于待分类的文本对象是仍然是对话记录,而对话记录并不是一个整体文本,而是包含一个以上语句文本的文本集合,比如,用户、客服的每次说话内容都会形成一个单独的语句文本,比如,用户的一次问题就是一个语句文本,客服的一次问答也是一个语句文本,如图3所示的文本对象中包含7个语句文本。因此,如果待分类的文本对象包含K个语句文本,K为大于1的整数,则对文本对象的K个语句文本进行拼接处理,形成对应该语句序列的长文本向量;通过文本分类模型对长文本向量进行分类,得到文本分类结果。而拼接处理过程可以由文本分类模型来完成,或者在输入文本分类模型之前完成,基于此,文本分类模型可以采用如下任意一种方式对文本对象进行分类:
实施方式一:将文本对象中每个语句文本进行文本拼接,形成对话记录长文本;将对话记录长文本输入至文本分类模型,通过文本分类模型对对话记录长文本进行编码得到长文本向量,根据长文本向量进行分类得到文本分类结果。
实施方式二:将文本对象中每个语句文本依次输入到文本分类模型,通过文本分类模型对文本对象中每个语句文本分别进行编码,得到每个语句文本的语句向量。根据文本对象中每个语句文本对应的语句向量进行合成编码,得到长文本向量,根据长文本向量进行分类得到文本分类结果。举例来讲,如图3所示的文本对象中包含7个语句文本,针对每个语句文本进行句子编码,得到7个语句向量,针对7个语句编码进行合成编码,得到针对文本对象的长文本向量。
S106、根据每个文本对象的文本分类结果,从候选对话记录集选出目标对话记录,并将目标对话记录提供给当前提问用户。
具体的,根据每个所述文本对象的文本分类结果进行筛选,得到目标文本对象;从候选对话记录集中,选择目标文本对象对应的对话记录作为目标对话记录。具体的,文本分类结果是匹配概率值,根据匹配概率值的从高至低排序,根据排序结果选择Top t个目标文本对象,t为正整数。
进一步的,为了不断更新、丰富对话记录库中的对话记录,使得后续能够更准确向用户提供针对用户问题的答案,在将目标对话记录提供给当前提问用户之后,还包括如下技术方案:
如果当前提问用户对目标对话记录不满意,则会发起人工客服请求。如果服务端接收到当前提问用户的人工客服请求,则建立当前提问用户与人工客服之间的对话通道,并记录当前提问用户与人工客服之间的本次对话内容;根据本次对话内容生成新的对话记录,并将新的对话记录加入至对话记录库。
本实施例,通过文本分类模型对文本对象进行分类,得到表征用户问题与对话记录之间的匹配程度的文本分类结果,以评价用户问题是否适合这段对话记录,从而充分利用了对话记录的上下文和序列信息,使得提供给用户的对话记录更为准确。
第二方面,本说明书实施例中提供一种文本分类模型的训练方法,参考图4所示,包括如下步骤:
S400、收集多段真实对话记录,形成正样本集,其中,每段真实对话记录就是用户与客服之间历史的对话记录。
S402、从正样本集选取一段以上真实对话记录,并替换选取的每段真实对话记录中代表问题,形成负样本集。
具体的,对于负样本集中负样本的构造过程可以是:
针对正样本集中第i段对话记录,从正样本集中除第i段对话记录之外的各段对话记录中随机选择M段对话记录,其中,正样本集中包含N段对话记录,i取1至N中每个或者多个,M、N为正整数;用从M段对话记录中提取的M个代表问题,分别替换第i段对话记录中真实的代表问题,形成针对第i段对话记录的M段虚假对话记录,并将形成的M段虚假对话记录作为负样本集中的M个负样本。通过选取正样本集中每段或者部分段真实对话记录,针对选取的每段对话记录均采用上述方式进行替换代表问题,从而不需要人工标注就能完成负样本集的构造。
下面,以正样本集中包含10万段对话记录进行举例,针对第1段对话记录,从第2~10万段对话记录中,随机选择3段对话记录,从这3段对话记录中提取每段对话记录的代表问题,得到3个代表问题,以这3个代表问题分别对第1段对话记录中真实的代表进行一次替换,就生成3个不同的虚假对话记录,作为3个负样本,10万段对话记录中其他对话记录的处理方式类似,在此不再赘述,可见,直接随机替换代表问题就可以构造正负样本,不需要人工进行标注,大大减少人工标注成本,更容易收集训练样本。
当然,构造负样本时,用于替换真实对话记录中真实的代表问题的语句,并不限于来自于其他真实对话记录,也可以为其他问句语句。
S404、以正样本集和负样本集对初始的二分类模型进行训练,得到文本分类模型。
其中,初始的二分类模型可以为长短期记忆网络模型、卷积神经网络模型或者BERT语言模型等等。
第三方面,基于与前述问答处理方法的同样发明构思,本说明实施例提供一种问答处理装置,参考图5所示,该装置包括:
问题获取单元501,用于获取当前提问用户的用户问题;
对话集获取单元502,用于获取所述用户问题匹配的候选对话记录集,所述候选对话记录集中包含一段以上对话记录,每段所述对话记录是包含代表问题的语句序列;
文本分类单元503,用于针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,所述文本分类结果表征所述用户问题与所述对话记录之间的匹配程度;
对话选择单元504,用于根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,并将所述目标对话记录提供给所述当前提问用户。
在一可选的实施方式下,所述对话选择单元504,具体用于:
根据每个所述文本对象的文本分类结果进行筛选,得到目标文本对象;
从所述候选对话记录集中,选择所述目标文本对象对应的对话记录作为所述目标对话记录。
在一可选的实施方式下,所述对话集获取单元502,具体用于:
对所述用户问题进行分词处理,得到搜索关键词;
根据所述搜索关键词,从对话记录库中检索出与所述用户问题匹配的一段以上对话记录,形成所述候选对话记录集,其中,所述对话记录库中包含一段以上对话记录。
在一可选的实施方式下,所述装置还包括:
对话记录单元,用于将所述目标对话记录提供给所述当前提问用户之后,如果接收到所述当前提问用户的人工客服请求,则建立所述当前提问用户与人工客服之间的对话通道,并记录所述当前提问用户与所述人工客服之间的本次对话内容;
记录保存单元,用于根据所述本次对话内容生成新的对话记录,并将所述新的对话记录加入至所述对话记录库。
在一可选的实施方式下,所述装置还包括标定单元,用于:
针对所述候选对话记录集中每段对话记录,将所述对话记录中预定位置的语句标定为所述对话记录的代表问题,或者
通过问题评估模型从所述对话记录中识别出目标问题语句,并将所述目标问题语句标定为所述对话记录的代表问题。
在一可选的实施方式下,所述文本对象是包含K个语句文本的语句序列,K为大于1的整数,所述文本分类单元503,包括:
拼接处理子单元,用于对所述文本对象的K个语句文本进行拼接处理,形成对应所述语句序列的长文本向量;
分类处理子单元,用于通过所述文本分类模型对所述长文本向量进行分类,得到所述文本分类结果。
上述装置,其中各个单元的具体功能已经前述问答处理方法实施例中进行了详细描述,该装置的具体实施细节可以参考前述问答处理方法实施例的描述,为了说明书的简洁,在此不再赘述。
第四方面,本说明书实施例提供一种文本分类模型的训练装置,参考图6所示,该训练装置包括:
正样本收集单元601,用于收集多段真实对话记录,形成正样本集;
负样本构建单元602,用于从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集;
训练单元603,用于以所述正样本集和所述负样本集对初始的二分类模型进行训练,得到所述文本分类模型。
在一可选的实施方式下,所述负样本构建单元602,具体用于:
针对所述正样本集中第i段对话记录,从所述正样本集中除所述第i段对话记录之外的各段对话记录中随机选择M段对话记录,所述正样本集中包含N段对话记录,i取1至N中每个或者多个,M、N为正整数;
用从所述M段对话记录中提取的M个代表问题,分别替换所述第i段对话记录中真实的代表问题,形成M段虚假对话记录,并将所述M段虚假对话记录作为所述负样本集中的M个负样本。
上述装置,其中各个单元的具体功能已经在本说明书实施例提供的前述文本分类模型的训练方法中进行了详细描述,该装置的具体实施细节可以参考文本分类模型的训练方法实施例,为了说明书的简洁,在此不再赘述。
第五方面,基于与前述文本分类模型的训练方法实施例、问答处理方法实施例的同样发明构思,本说明书实施例还提供一种电子设备,如图7所示,包括存储器704、处理器702及存储在存储器704上并可在处理器702上运行的计算机程序,处理器702执行程序时实现前述问答处理方法实施例或者文本分类模型的训练方法实施例的步骤。
其中,在图7中,总线架构(用总线700来代表),总线700可以包括任意数量的互联的总线和桥,总线700将包括由处理器702代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线700还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口706在总线700和接收器701和发送器703之间提供接口。接收器701和发送器703可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器702负责管理总线700和通常的处理,而存储器704可以被用于存储处理器702在执行操作时所使用的数据。
第六方面,基于与前述实施例中问答处理方法、文本分类模型的训练方法的同样发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文问答处理方法实施例或者文本分类模型的训练方法实施例的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (18)

1.一种问答处理方法,包括:
获取当前提问用户的用户问题;
获取所述用户问题匹配的候选对话记录集,所述候选对话记录集中包含一段以上对话记录,每段所述对话记录是包含代表问题的语句序列;
针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,所述文本分类结果表征所述用户问题与所述对话记录之间的匹配程度;
根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,并将所述目标对话记录提供给所述当前提问用户。
2.如权利要求1所述的方法,所述根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,包括:
根据每个所述文本对象的文本分类结果进行筛选,得到目标文本对象;
从所述候选对话记录集中,选择所述目标文本对象对应的对话记录作为所述目标对话记录。
3.如权利要求1所述的方法,所述获取所述用户问题匹配的候选对话记录集,包括:
对所述用户问题进行分词处理,得到搜索关键词;
根据所述搜索关键词,从对话记录库中检索出与所述用户问题匹配的一段以上对话记录,形成所述候选对话记录集,其中,所述对话记录库中包含一段以上对话记录。
4.如权利要求3所述的方法,在将所述目标对话记录提供给所述当前提问用户之后,还包括:
如果接收到所述当前提问用户的人工客服请求,则建立所述当前提问用户与人工客服之间的对话通道,并记录所述当前提问用户与所述人工客服之间的本次对话内容;
根据所述本次对话内容生成新的对话记录,并将所述新的对话记录加入至所述对话记录库。
5.如权利要求1所述的方法,在所述针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题之前,还包括:
针对所述候选对话记录集中每段对话记录,将所述对话记录中预定位置的语句标定为所述对话记录的代表问题,或者
通过问题评估模型从所述对话记录中识别出目标问题语句,并将所述目标问题语句标定为所述对话记录的代表问题。
6.如权利要求1所述的方法,所述文本对象是包含K个语句文本的语句序列,K为大于1的整数,所述通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,包括:
对所述文本对象的K个语句文本进行拼接处理,形成对应所述语句序列的长文本向量;
通过所述文本分类模型对所述长文本向量进行分类,得到所述文本分类结果。
7.一种文本分类模型的训练方法,包括:
收集多段真实对话记录,形成正样本集;
从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集;
以所述正样本集和所述负样本集对初始的二分类模型进行训练,得到所述文本分类模型。
8.如权利要求7所述的方法,所述从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集,包括:
针对所述正样本集中第i段对话记录,从所述正样本集中除所述第i段对话记录之外的各段对话记录中随机选择M段对话记录,所述正样本集中包含N段对话记录,i取1至N中每个或者多个,M、N为正整数;
用从所述M段对话记录中提取的M个代表问题,分别替换所述第i段对话记录中真实的代表问题,形成M段虚假对话记录,并将所述M段虚假对话记录作为所述负样本集中的M个负样本。
9.一种问答处理装置,包括:
问题获取单元,用于获取当前提问用户的用户问题;
对话集获取单元,用于获取所述用户问题匹配的候选对话记录集,所述候选对话记录集中包含一段以上对话记录,每段所述对话记录是包含代表问题的语句序列;
文本分类单元,用于针对所述候选对话记录集中每段对话记录,以所述用户问题替换所述对话记录的代表问题,得到待分类的文本对象,并通过文本分类模型对所述文本对象进行分类,得到所述文本对象的文本分类结果,所述文本分类结果表征所述用户问题与所述对话记录之间的匹配程度;
对话选择单元,用于根据每个所述文本对象的文本分类结果,从所述候选对话记录集选出目标对话记录,并将所述目标对话记录提供给所述当前提问用户。
10.如权利要求9所述的装置,所述对话选择单元,具体用于:
根据每个所述文本对象的文本分类结果进行筛选,得到出目标文本对象;
从所述候选对话记录集中,选择所述目标文本对象对应的对话记录作为所述目标对话记录。
11.如权利要求9所述的装置,所述对话集获取单元,具体用于:
对所述用户问题进行分词处理,得到搜索关键词;
根据所述搜索关键词,从对话记录库中检索出与所述用户问题匹配的一段以上对话记录,形成所述候选对话记录集,其中,所述对话记录库中包含一段以上对话记录。
12.如权利要求11所述的装置,还包括:
对话记录单元,用于将所述目标对话记录提供给所述当前提问用户之后,如果接收到所述当前提问用户的人工客服请求,则建立所述当前提问用户与人工客服之间的对话通道,并记录所述当前提问用户与所述人工客服之间的本次对话内容;
记录保存单元,用于根据所述本次对话内容生成新的对话记录,并将所述新的对话记录加入至所述对话记录库。
13.如权利要求9所述的装置,还包括标定单元,用于:
针对所述候选对话记录集中每段对话记录,将所述对话记录中预定位置的语句标定为所述对话记录的代表问题,或者
通过问题评估模型从所述对话记录中识别出目标问题语句,并将所述目标问题语句标定为所述对话记录的代表问题。
14.如权利要求9所述的装置,所述文本对象是包含K个语句文本的语句序列,K为大于1的整数,所述文本分类单元,包括:
拼接处理子单元,用于对所述文本对象的K个语句文本进行拼接处理,形成对应所述语句序列的长文本向量;
分类处理子单元,用于通过所述文本分类模型对所述长文本向量进行分类,得到所述文本分类结果。
15.一种文本分类模型的训练装置,包括:
正样本收集单元,用于收集多段真实对话记录,形成正样本集;
负样本构建单元,用于从所述正样本集选取一段以上真实对话记录,并替换所述真实对话记录的代表问题,形成负样本集;
训练单元,用于以所述正样本集和所述负样本集对初始的二分类模型进行训练,得到所述文本分类模型。
16.如权利要求15所述的装置,所述负样本构建单元,具体用于:
针对所述正样本集中第i段对话记录,从所述正样本集中除所述第i段对话记录之外的各段对话记录中随机选择M段对话记录,所述正样本集中包含N段对话记录,i取1至N中每个或者多个,M、N为正整数;
用从所述M段对话记录中提取的M个代表问题,分别替换所述第i段对话记录中真实的代表问题,形成M段虚假对话记录,并将所述M段虚假对话记录作为所述负样本集中的M个负样本。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8中任一所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8中任一所述方法的步骤。
CN202010328553.5A 2020-04-23 2020-04-23 问答处理方法、装置、设备及存储介质 Active CN111552787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328553.5A CN111552787B (zh) 2020-04-23 2020-04-23 问答处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328553.5A CN111552787B (zh) 2020-04-23 2020-04-23 问答处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111552787A true CN111552787A (zh) 2020-08-18
CN111552787B CN111552787B (zh) 2023-06-30

Family

ID=72000248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328553.5A Active CN111552787B (zh) 2020-04-23 2020-04-23 问答处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111552787B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035643A (zh) * 2020-09-01 2020-12-04 中国平安财产保险股份有限公司 一种对话机器人能力复用的方法和装置
CN112182186A (zh) * 2020-09-30 2021-01-05 完美世界(北京)软件科技发展有限公司 智能客服的运行方法、装置以及系统
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067375A1 (en) * 2012-08-31 2014-03-06 Next It Corporation Human-to-human Conversation Analysis
US20140272884A1 (en) * 2013-03-13 2014-09-18 International Business Machines Corporation Reward Based Ranker Array for Question Answer System
US20160071034A1 (en) * 2014-09-10 2016-03-10 International Business Machines Corporation Workflow provision with workflow discovery, creation and reconstruction by analysis of communications
US20170046625A1 (en) * 2015-08-14 2017-02-16 Fuji Xerox Co., Ltd. Information processing apparatus and method and non-transitory computer readable medium
US20180018576A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Training
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
CN107958059A (zh) * 2017-12-01 2018-04-24 北京百度网讯科技有限公司 智能问答方法、装置、终端和计算机可读存储介质
US20180293302A1 (en) * 2017-04-06 2018-10-11 International Business Machines Corporation Natural question generation from query data using natural language processing system
CN109145099A (zh) * 2018-08-17 2019-01-04 百度在线网络技术(北京)有限公司 基于人工智能的问答方法和装置
CN109492081A (zh) * 2018-10-30 2019-03-19 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质
CN110019321A (zh) * 2017-10-11 2019-07-16 华为技术有限公司 问题定界方法、装置及设备
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置
CN110647621A (zh) * 2019-09-27 2020-01-03 支付宝(杭州)信息技术有限公司 机器人客服引导对话中选择话术的方法和装置
CN110765249A (zh) * 2019-10-21 2020-02-07 支付宝(杭州)信息技术有限公司 机器人客服引导对话中多轮对话的质检方法和装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067375A1 (en) * 2012-08-31 2014-03-06 Next It Corporation Human-to-human Conversation Analysis
US20140272884A1 (en) * 2013-03-13 2014-09-18 International Business Machines Corporation Reward Based Ranker Array for Question Answer System
US20160071034A1 (en) * 2014-09-10 2016-03-10 International Business Machines Corporation Workflow provision with workflow discovery, creation and reconstruction by analysis of communications
US20170046625A1 (en) * 2015-08-14 2017-02-16 Fuji Xerox Co., Ltd. Information processing apparatus and method and non-transitory computer readable medium
US20180018576A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Training
US20180018320A1 (en) * 2016-07-12 2018-01-18 International Business Machines Corporation Text Classifier Operation
US20180293302A1 (en) * 2017-04-06 2018-10-11 International Business Machines Corporation Natural question generation from query data using natural language processing system
CN110019321A (zh) * 2017-10-11 2019-07-16 华为技术有限公司 问题定界方法、装置及设备
CN107958059A (zh) * 2017-12-01 2018-04-24 北京百度网讯科技有限公司 智能问答方法、装置、终端和计算机可读存储介质
CN109145099A (zh) * 2018-08-17 2019-01-04 百度在线网络技术(北京)有限公司 基于人工智能的问答方法和装置
CN109492081A (zh) * 2018-10-30 2019-03-19 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置
CN110647621A (zh) * 2019-09-27 2020-01-03 支付宝(杭州)信息技术有限公司 机器人客服引导对话中选择话术的方法和装置
CN110765249A (zh) * 2019-10-21 2020-02-07 支付宝(杭州)信息技术有限公司 机器人客服引导对话中多轮对话的质检方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035643A (zh) * 2020-09-01 2020-12-04 中国平安财产保险股份有限公司 一种对话机器人能力复用的方法和装置
CN112035643B (zh) * 2020-09-01 2023-10-24 中国平安财产保险股份有限公司 一种对话机器人能力复用的方法和装置
CN112182186A (zh) * 2020-09-30 2021-01-05 完美世界(北京)软件科技发展有限公司 智能客服的运行方法、装置以及系统
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111552787B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN110543552B (zh) 对话交互方法、装置及电子设备
CN110188331A (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN111552787B (zh) 问答处理方法、装置、设备及存储介质
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN106126524B (zh) 信息推送方法和装置
CN110866093A (zh) 机器问答方法及装置
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
CN110781204B (zh) 目标对象的标识信息确定方法、装置、设备及存储介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN116059646A (zh) 一种交互式专家指导系统
CN111738010A (zh) 用于生成语义匹配模型的方法和装置
CN112182186A (zh) 智能客服的运行方法、装置以及系统
CN116361306A (zh) 面向开放域科普的问答库自动更新方法和装置
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
CN116757270A (zh) 基于人机交互模型或大模型的数据处理方法、服务器
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN117556057A (zh) 知识问答方法、向量数据库构建方法及装置
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN113837910B (zh) 试题推荐方法、装置、电子设备和存储介质
CN115510192A (zh) 一种新闻事件脉络关系检测方法及装置
CN117933260A (zh) 一种文本质量分析方法、装置、设备及存储介质
CN114328796A (zh) 问答索引生成方法、问答模型处理方法、装置和存储介质
CN113011175A (zh) 一种基于双重渠道特征匹配的语义识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant