CN117235237B - 一种文本生成方法及相关装置 - Google Patents
一种文本生成方法及相关装置 Download PDFInfo
- Publication number
- CN117235237B CN117235237B CN202311495695.0A CN202311495695A CN117235237B CN 117235237 B CN117235237 B CN 117235237B CN 202311495695 A CN202311495695 A CN 202311495695A CN 117235237 B CN117235237 B CN 117235237B
- Authority
- CN
- China
- Prior art keywords
- text
- question
- seed
- key point
- question text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000013145 classification model Methods 0.000 claims abstract description 131
- 238000012549 training Methods 0.000 claims abstract description 126
- 238000004458 analytical method Methods 0.000 claims description 151
- 238000010276 construction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 17
- 239000013598 vector Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种人工智能领域的文本生成方法及相关装置,其中该方法包括:根据关键点集合对应的提问文本模板,构建关键点集合对应的种子提问文本,并确定其所属的类别;基于种子提问文本及其所属的类别,训练文本分类模型;生成关键点集合对应的多个候选提问文本;通过文本分类模型识别候选提问文本所属的类别;若候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将候选提问文本保存至提问文本库,提问文本库用于存储适用于下游任务的提问文本。该方法能够保证所生成的提问文本具有较高的准确性和可靠性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本生成方法及相关装置。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的发展,如今,越来越多的产品的交互形态逐渐转变为基于AI助手的交互形态。例如,用户可以语音输入所要了解的问题,由AI助手将所输入的语音转换为对应的提问文本,并通过分析模型对该提问文本进行分析处理,确定对应的回答内容。
对于AI助手而言,用于分析处理提问文本的分析模型的性能决定了所确定的回答内容的准确性,影响着用户对于AI助手的使用体验。为了保证分析模型具有较优的性能,通常需要使用大量包括提问文本的训练样本对其进行训练,而这就需要预先生成大量的提问文本。但是,目前用于生成提问文本的方法普遍难以保证所生成的提问文本的质量,所生成的提问文本的准确性和可靠性较低。
发明内容
本申请实施例提供了一种文本生成方法及相关装置,能够保证所生成的提问文本具有较高的准确性和可靠性。
有鉴于此,本申请第一方面提供了一种文本生成方法,所述方法包括:
针对每种关键点集合,根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,并确定所述种子提问文本所属的类别;所述关键点集合中包括用于反映提问意图的至少一个关键点;
基于所述种子提问文本及其所属的类别,训练文本分类模型;
根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本;
针对每个所述候选提问文本,通过所述文本分类模型识别所述候选提问文本所属的类别;
若所述候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将所述候选提问文本保存至提问文本库;所述参照种子提问文本为与所述候选提问文本对应于同一关键点集合的种子提问文本,所述提问文本库用于存储适用于下游任务的提问文本。
本申请第二方面提供了一种文本生成装置,所述装置包括:
种子文本构建模块,用于针对每种关键点集合,根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,并确定所述种子提问文本所属的类别;所述关键点集合中包括用于反映提问意图的至少一个关键点;
分类模型训练模块,用于基于所述种子提问文本及其所属的类别,训练文本分类模型;
候选文本构建模块,用于根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本;
文本分类模块,用于针对每个所述候选提问文本,通过所述文本分类模型识别所述候选提问文本所属的类别;
文本筛选模块,用于若所述候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将所述候选提问文本保存至提问文本库;所述参照种子提问文本为与所述候选提问文本对应于同一关键点集合的种子提问文本,所述提问文本库用于存储适用于下游任务的提问文本。
本申请第三方面提供了一种计算机设备,所述设备包括处理器和存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的文本生成方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的文本生成方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的文本生成方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种文本生成方法,在该方法中,先针对用于反映对应提问意图的每种关键点集合,根据该关键点集合对应的提问文本模板,构建该关键点集合对应的种子提问文本,并确定该种子提问文本所属的类别;此处的关键点集合中包括用于反映提问意图的至少一个关键点,此处的种子提问文本所属的类别与该种子提问文本反映的提问意图相关;然后,基于所构建的种子提问文本及其所属的类别训练文本分类模型。如此,基于关键点集合对应的提问文本模板构建质量较高的、能准确反映提问意图的种子提问文本,然后基于该种子提问文本及其对应的用于反映提问意图的所属类别训练文本分类模型,能够保证训练得到的文本分类模型较准确地识别输入文本所属的类别,即较准确地识别输入文本反映的提问意图。进而,利用该文本分类模型,对根据关键点集合生成的该关键点集合对应的候选提问文本进行识别,确定候选提问文本所属的类别;若某候选提问文本所属的类别与参照种子提问文本所属的类别相同,则可以将该候选提问文本保存至提问文本库;此处的参照种子提问文本对应的关键点集合与该候选提问文本对应的关键点集合相同,此处的提问文本库用于存储适用于下游任务的提问文本。如此,根据关键点集合生成大批量的、掺杂有优质提问文本和劣质提问文本的候选提问文本,进而利用所训练的文本分类模型识别候选提问文本所属的类别,即识别该候选提问文本反映的提问意图,如果该候选提问文本所属的类别与对应于同一关键点集合的参照种子提问文本所属的类别相同,则说明该候选提问文本能够较准确地反映对应的提问意图,质量较优,具有较高的准确性和可靠性,因此可以将该候选提问文本存储至提问文本库,以便后续将其应用于其他下游任务(如AI助手中分析模型的训练任务等),以辅助提高下游任务的实现质量。
附图说明
图1为本申请实施例提供的文本生成方法的应用场景示意图;
图2为本申请实施例提供的文本生成方法的流程示意图;
图3为本申请实施例提供的文本分类模型的工作原理示意图;
图4为本申请实施例提供的一种示例性的提问文本数据流图;
图5为本申请实施例提供的文本生成方法的实现架构图;
图6为本申请实施例提供的一种分析模型的应用架构示意图;
图7为本申请实施例提供的示例性的AI智能分析功能的界面图;
图8为本申请实施例提供的文本生成装置的结构示意图;
图9为本申请实施例提供的终端设备的结构示意图;
图10为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明:
本申请实施例提供的文本生成方法可以由计算机设备执行,该计算机设备可以是终端设备或服务器。其中,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。服务器可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务器。
需要说明的是,本申请实施例涉及的信息、数据(如各类文本数据等)、以及信号,均为经相关对象授权或者经过各方充分授权的,且相关数据的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。
为了便于理解本申请实施例提供的文本生成方法,下面以该文本生成方法的执行主体为服务器为例,对该文本生成方法的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的文本生成方法的应用场景示意图。如图1所示,该应用场景中包括服务器110和数据库120,其中,服务器110可以通过网络访问数据库120,或者数据库120也可以集成在服务器110中。服务器110用于执行本申请实施例提供的文本生成方法,以获得质量较高的提问文本;数据库120作为本申请实施例中的提问文本库,用于存储适用于下游任务的提问文本。
在实际应用中,服务器110可以预先获得多种用于反映不同提问意图的关键点集合,每种关键点集合包括用于反映对应的提问意图的至少一个关键点。然后,服务器110可以针对每种关键点集合,根据该关键点集合对应的提问文本模板,构建该关键点集合对应的种子提问文本,并确定该种子提问文本所属的类别。应理解,关键点集合对应的提问文本模板是用于反映该关键点集合对应的提问意图的标准句式,根据该提问文本模板构建的种子提问文本,能够相应地准确表达该关键点集合对应的提问意图;而种子提问文本所属的类别与该种子提问文本表达的提问意图相关,即用于表达相同的提问意图的种子提问文本可以视为所属于同一类别,而用于表达不同的提问意图的种子提问文本可以视为所属于不同类别。
然后,服务器110可以基于上述种子提问文本及其所属的类别,训练文本分类模型。该文本分类模型能够针对输入的文本识别其所属的类别,也即识别输入的文本所表达的提问意图。
此外,服务器110还可以根据关键点集合生成该关键点集合对应的大量候选提问文本。此处生成的候选提问文本中掺杂有优质提问文本和劣质提问文本,需要通过后续的步骤对其进行筛选处理,以将优质提问文本保留下来,将劣质提问文本淘汰掉。
具体对所生成的候选提问文本进行筛选处理时,服务器110可以利用所训练的文本分类模型对每个候选提问文本进行识别处理,得到每个候选提问文本所属的类别。然后,针对每个候选提问文本,判断其所属的类别与参照种子提问文本所属的类别是否相同,此处的参照种子提问文本为与当前判断的候选提问文本对应于同一关键点集合的种子提问文本。若该候选提问文本所属的类别与参照种子提问文本所属的类别相同,则说明该候选提问文本能够较准确地反映对应的提问意图,质量较优,具有较高的准确性和可靠性,因此可以将该候选提问文本保留下来,保存至作为提问文本库的数据库120中,以便后续将其应用于其他下游任务(如AI助手中分析模型的训练任务等),以辅助提高下游任务的实现质量。若该候选提问文本所属的类别与参照种子提问文本所属的类别不同,则说明该候选提问文本不能够准确地反映对应的提问文本,质量较差,因此可以直接将其丢弃。
应理解,本申请实施例提供的文本生成方法也可以应用于其它场景中。例如,可以由多个服务器分别负责生成种子提问文本、训练文本分类模型、生成候选提问文本、以及筛选候选提问文本,以协同执行本申请实施例提供的文本生成方法;又例如,可以由终端设备负责生成种子提问文本和候选提问文本,由服务器训练文本分类模型,并借助文本分类模型对候选提问文本进行筛选;等等。在此不对本申请实施例提供的文本生成方法的应用场景做任何限定。
下面通过方法实施例,对本申请提供的文本生成方法进行详细介绍。
参见图2,图2为本申请实施例提供的文本生成方法的流程示意图。为了便于描述,下文以该文本生成方法的执行主体为服务器为例进行介绍。如图2所示,该文本生成方法包括以下步骤:
步骤201:针对每种关键点集合,根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,并确定所述种子提问文本所属的类别;所述关键点集合中包括用于反映提问意图的至少一个关键点。
在本申请实施例中,服务器可以预先获取多种用于反映不同提问意图的关键点集合、以及这多种关键点集合各自对应的提问文本模板。然后,针对每种关键点集合,对该关键点集合对应的提问文本模板进行填充,在该提问文本模板包括的所有待填充位置处填充对应的关键点信息,从而得到该关键点集合对应的种子提问文本。
此外,针对所生成的种子提问文本,服务器还需要确定该种子提问文本所属的类别。在本申请实施例中,可以将提问意图作为类别划分的依据,即将反映相同提问意图的种子提问文本划分为同一类别,将反应不同提问意图的种子文本划分至不同的类别。通常情况下,提问意图与关键点集合之间成一一对应的关系,即一种提问意图对应一种关键点集合;基于此,可以确定对应于同一种关键点集合的各种子提问文本所属于同一类别,对应于不同种关键点集合的种子提问文本所属于不同类别。
需要说明的是,本申请实施例中的关键点集合由用于反映某种提问意图的至少一个关键点组合而成。提问意图是提问文本的实质性内容,用于表达提问文本所要提问的内容;通常情况下,提问意图可以通过若干个重要元素综合反映,而用于反映提问意图的重要元素即是本申请实施例中的关键点。此外,在本申请实施例中,若两种关键点集合中存在至少一个关键点不同,则可认为这两种关键点集合用于反映不同的提问意图;或者,若两种关键点集合对应于不同的提问分析内容,则也可以认为这两种关键点集合用于反映不同的提问意图。
作为一种示例,对于指标分析类的提问文本而言,其需要通过分析时间范围、分析指标、分析维度、分析限定条件、分析类型等关键点,反映指标分析类提问文本的提问意图,相应地,可以利用分析时间范围、分析指标、分析维度、分析限定条件、分析类型这些关键点组成一种关键点集合,该种关键点集合对应于指标分析类的提问文本。
需要说明的是,关键点集合对应的提问文本模板是用于反映关键点集合对应的提问意图的标准句式。关键点集合对应的提问文本模板中包括该关键点集合中各个关键点各自对应的待填充位置,将该关键点集合中各个关键点各自的具体信息相应地填充至对应的待填充位置,即可得到用于反映该关键点集合对应的提问意图的标准提问文本,即种子提问文本。一种关键点集合可以对应一个提问文本模板,也可以对应多个提问文本模板。
作为一种示例,假设指标分析类的提问文本对应的关键点集合包括分析时间范围、分析指标、分析维度、分析限定条件、分析类型,该关键点集合对应的提问文本模板可以为“[分析时间范围],[分析限定条件]过滤条件下,[分析维度]下的[分析指标]对应的[分析类型]如何?”,其中,[分析时间范围]、[分析限定条件]、[分析维度]、[分析指标]和[分析类型]为各关键点各自对应的待填充位置,可以在其中填写对应关键点的具体信息。
需要说明的是,本申请实施例中的种子提问文本为按照关键点集合对应的提问文本模板构造的提问文本,即,将关键点集合中各关键点各自的具体信息填充至对应的提问文本模板中各关键点各自的待填充位置而得到的提问文本文本。由于提问文本模板规定了能准确反映提问意图的句式,因此,按照该提问文本模板构建的种子提问文本能相应准确地反映提问意图。在实际应用中,能够准确反映提问意图的提问文本通常能够在下游任务中发挥更好的作用,例如,当下游任务为训练AI助手的分析模型的任务时,能准确反映提问意图的提问文本能够被分析模型准确地分析处理。
作为一种示例,假设指标分析类的提问文本对应的关键点集合包括分析时间范围、分析指标、分析维度、分析限定条件、分析类型,其中,分析时间范围的具体信息为近7天,分析指标的具体信息为页面浏览总人数,分析维度为不同城市,分析限定条件为年龄大于20岁,分析类型为变化趋势;并假设上述关键点集合对应的提问文本模板为“[分析时间范围],[分析限定条件]过滤条件下,[分析维度]下的[分析指标]对应的[分析类型]如何?”。相应地,将上述各关键点各自的具体信息填充至提问文本模板中各关键点各自对应的待填充位置处,将得到种子提问文本“近7天,年龄大于20岁过滤条件下,不同城市下的页面浏览总人数对应的变化趋势如何?”。
需要说明的是,种子提问文本所属的类别与该种子提问文本反映的提问意图相关,可以理解为,所属于同一类别的各种子提问文本反映的提问意图相同,所属于不同类别的各种子提问文本反映的提问意图不同。基于上文所介绍的,在本申请实施例中,提问意图与关键点集合之间成一一对应的关系,因此,可以认为对应于同一关键点集合的各种子提问文本所属于同一类别,而对应于不同关键点集合的各种子提问文本所属于不同类别。应理解,对于本申请实施例中提问文本所属的类别,可以直接基于涉及的提问意图的数量将其命名为第一类、第二类、……、第n(共涉及n种提问意图)类,也可以直接将对应的提问意图作为其命名,本申请实施例在此不对提问文本所属的类别的命名做任何限定。
应理解,在本申请实施例中,一种关键点集合可以对应一个或多个提问文本模板,而基于对应于同一关键点集合的不同的提问文本模板构建的种子提问文本应属于同一类别。此外,在本申请实施例中,针对每种关键点集合,可以构建一个对应的种子提问文本,也可以构建多个对应的种子提问文本,通常情况下,为了保证后续的文本分类模型的训练效果,需要针对每种关键点集合构建多个对应的种子提问文本,并且保证各种关键点集合各自对应的种子提问文本的数量基本均等,以达到使属于各类别的种子提问文本的数量基本均等,帮助文本分类模型均衡地学习各类提问文本的语义表达的目的。
步骤202:基于所述种子提问文本及其所属的类别,训练文本分类模型。
服务器构建得到若干用于反映不同提问意图的种子提问文本,并确定各种子提问文本各自所属的类别后,可以基于各种子提问文本及其各自所属的类别,对用于执行文本分类任务的文本分类模型进行训练。
需要说明的是,本申请实施例中的文本分类模型是用于针对输入的文本识别其所属类别的神经网络模型,该文本分类模型示例性的可以为基于词频-逆向文件频率(termfrequency-inverse document frequency,tf-idf)的模型,也可以为基于词向量嵌入(Word to Vector,Word2Vec)的模型,还可以为基于Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的模型,本申请实施例在此不对该文本分类模型的结构做任何限定。
具体训练该文本分类模型时,可以将种子提问文本输入待训练的文本分类模型,由该文本分类模型对所输入的种子提问文本进行分析处理,输出该种子提问文本对应的概率向量,该概率向量中包括该种子提问文本属于各个候选类别的概率。然后,基于各种子提问文本各自真实所属的类别和各种子提问文本各自对应的概率向量,构建损失函数;并以优化该损失函数为目的,对该文本分类模型的模型参数进行调整,从而达到训练该文本分类模型,使该文本分类模型学习文本语义的目的。当对该文本分类模型的训练满足训练结束条件时,如对于该文本分类模型的迭代训练轮次达到预设轮次数,又如该文本分类模型的模型性能达到预设要求,再如该文本分类模型的性能不再随着训练的进行明显提升,此时,可以停止训练该文本分类模型。
步骤203:根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本。
此外,在本申请实施例中,服务器还需要根据关键点集合,生成大量的该关键点集合对应的候选提问文本。在实际应用中,根据关键点集合对应的提问文本模板构建的种子提问文本,虽然能够准确地反映对应的提问意图,但是表现形式过于单一,不够多样化;若仅将此类种子提问文本应用至下游任务,通常难以保证下游任务的实现效果,以下游任务为对于AI助手中分析模型的训练任务为例,仅基于表现形式单一的种子提问文本训练该分析模型,所训练得到的分析模型通常仅能准确地分析处理表达形式规范的提问文本,而对于表达形式不够规范的提问文本难以准确地分析处理。为了解决上述问题,在本申请实施例中,还会根据关键点集合构建大量表达形式丰富多样的候选提问文本,以利用候选提问文本来丰富应用至下游任务的提问文本,使应用至下游任务的提问文本更加多样化。
需要说明的是,本申请实施例中的候选提问文本是基于关键点集合随意生成的提问文本,其中可以包括该关键点集合中各个关键点各自的具体信息,也可以包括该关键点集合中部分关键点的具体信息。应理解,候选提问文本与上文中的种子提问文本之间的区别在于,候选提问文本的表现形式不会受提问文本模板的限制,即候选提问文本可以以任意形式将关键点集合中关键点的具体信息组合到一起,而种子提问文本需要按照对应的提问文本模板将关键点集合中各个关键点的具体信息组合到一起。
应理解,在实际应用中,服务器可以针对一种或者多种关键点集合生成对应的多个候选提问文本,也可以针对各种关键点集合均生成对应的候选提问文本,本申请实施例在此不对生成候选提问文本时依据的关键点集合做任何限定。
需要说明的是,在本申请实施例中,可以先执行步骤201和步骤202、再执行步骤203,也可以先执行步骤203、再执行步骤201和步骤202,还可以并行地执行步骤203、以及步骤201和步骤202(步骤201和步骤202可视为一个整体),在此不对步骤201和步骤202(步骤201和步骤202可视为一个整体)、以及步骤203的执行顺序做任何限定。
步骤204:针对每个所述候选提问文本,通过所述文本分类模型识别所述候选提问文本所属的类别。
针对通过步骤203生成的每个候选提问文本,服务器可以利用通过步骤202训练得到的文本分类模型识别其所属的类别。具体的,服务器可以将候选提问文本输入训练好的文本分类模型中,该文本分类模型通过对该候选提问文本进行分析处理,将相应地输出该候选提问文本对应的概率向量,该概率向量中包括该候选提问文本属于各类别的概率;进而,可以确定概率向量中最大的概率对应的类别,作为该候选提问文本所属的类别。
步骤205:若所述候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将所述候选提问文本保存至提问文本库;所述参照种子提问文本为与所述候选提问文本对应于同一关键点集合的种子提问文本,所述提问文本库用于存储适用于下游任务的提问文本。
由于通过步骤203生成的候选提问文本中同时包括优质提问文本和劣质提问文本,为了保证后续应用至下游任务中的提问文本均具有较高的质量,因此需要对通过步骤203生成的候选提问文本进行筛选处理,以将质量较高的候选提问文本保留下来,提出质量较差的候选提问文本。
具体确定某候选提问文本是否保留时,可以先确定该候选提问文本对应的参照种子提问文本,该参照种子提问文本可以为与该候选提问文本对应于同一关键点集合的任一种子提问文本,即参照种子提问文本对应的关键点集合与该候选提问文本对应的关键点集合相同。然后,判断该候选提问文本所属的类别与该参照种子提问文本所属的类别是否相同;如果该候选提问文本所属的类别与该参照种子提问文本所属的类别相同,则可以认为该候选提问文本能够较准确地反映对应的提问意图,该候选提问文本的质量较高、具有较高的准确性和可靠性,因此可以将该候选提问文本保留下来,并将其保存至提问文本库;如果该候选提问文本所属的类别与该参照种子提问文本所属的类别不同,则可以认为该候选提问文本无法准确地反映对应的提问意图,该候选提问文本质量较低,因此可以丢弃该候选提问文本。
需要说明的是,本申请实施例中的提问文本库用于存储适用于下游任务的提问文本,该提问文本库中可以存储通过步骤201构建的种子提问文本、以及通过步骤205确定的高质量的候选提问文本。本申请实施例中的下游任务可以为任一种基于提问文本实现的任务,该下游任务例如可以为AI助手中的分析模型的训练任务,该分析模型用于基于输入的提问文本确定对应的回答内容,当然,该下游任务也可以为其它任务,本申请实施例对此不做任何限定。
在本申请实施例提供的文本生成方法中,基于关键点集合对应的提问文本模板构建质量较高的、能准确反映提问意图的种子提问文本,然后基于该种子提问文本及其对应的用于反映提问意图的所属类别训练文本分类模型,能够保证训练得到的文本分类模型较准确地识别输入文本所属的类别,即较准确地识别输入文本反映的提问意图。进而,利用该文本分类模型,对根据关键点集合生成的该关键点集合对应的候选提问文本进行识别,确定候选提问文本所属的类别;若某候选提问文本所属的类别与参照种子提问文本所属的类别相同,则可以将该候选提问文本保存至提问文本库;此处的参照种子提问文本对应的关键点集合与该候选提问文本对应的关键点集合相同,此处的提问文本库用于存储适用于下游任务的提问文本。如此,根据关键点集合生成大批量的、掺杂有优质提问文本和劣质提问文本的候选提问文本,进而利用所训练的文本分类模型识别候选提问文本所属的类别,即识别该候选提问文本反映的提问意图,如果该候选提问文本所属的类别与对应于同一关键点集合的参照种子提问文本所属的类别相同,则说明该候选提问文本能够较准确地反映对应的提问意图,质量较优,具有较高的准确性和可靠性,因此可以将该候选提问文本存储至提问文本库,以便后续将其应用于其他下游任务,以辅助提高下游任务的实现质量。
在一种可能的实现方式中,上述步骤201中“根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本”具体可以包括:
步骤2011:基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息。
在本申请实施例中,针对关键点集合中的每个关键点可以预先设置对应的多个候选填充信息;对于每个关键点,服务器可以从该关键点对应的多个候选填充信息中随机抽取一个候选填充信息;进而,利用针对该关键点集合中的各个关键点抽取的候选填充信息,组成一个填充信息组合。
应理解,服务器可以生成多个不同的填充信息组合,以便据此生成多个不同的种子提问文本;不同的填充信息组合中需包括至少一个候选填充信息不同。具体可以采用不同的组合方式,将关键点集合中各关键点各自对应的候选填充信息组合起来,得到不同的填充信息组合。
步骤2012:将所述填充信息组合中每个关键点对应的候选填充信息,相应地填充至所述提问文本模板中每个关键点对应的待填充位置,得到所述关键点集合对应的种子提问文本。
服务器生成若干填充信息组合后,可以将每个填充信息组合中每个关键点对应的候选填充信息,相应地填充至该关键点集合对应的提问文本模板中该关键点对应的待填充位置,得到基于该填充信息组合构建的种子提问文本。
作为一种示例,假设关键点集合包括分析时间范围、分析指标、分析维度、分析限定条件、分析类型五个关键点,其中,分析时间范围对应的候选填充信息包括近7天、近一个月、近三个月、近半年,分析指标对应的候选填充信息包括页面A浏览总人数、商品B购买总人数、应用C下载总人数,分析维度对应的候选填充信息包括城市a、城市b、城市c、城市d,分析限定条件对应的候选填充信息包括年龄在10岁到20岁之间、年龄在20岁到30岁之间、年龄大于30岁,分析类型对应的候选填充信息包括变化趋势、具体指标额度。假设上述关键点集合对应的提问文本模板为“[分析时间范围],[分析限定条件]过滤条件下,[分析维度]下的[分析指标]对应的[分析类型]如何?”。
服务器可以在分析时间范围对应的候选填充信息中抽取近7天,在分析指标对应的候选填充信息中抽取页面A浏览总人数,在分析维度对应的候选填充信息中抽取城市a,在分析限定条件对应的候选填充信息中抽取年龄大于30岁,在分析类型对应的候选填充信息中抽取变化趋势,如此得到填充信息组合“近7天,页面A浏览总人数,城市a,年龄大于30岁,变化趋势”。将该填充信息组合中各候选填充信息相应地填充至该关键点集合对应的提问文本模板,将得到种子提问文本“近7天,年龄大于30岁过滤条件下,城市a下的页面A浏览总人数对应的变化趋势如何?”。
如此,通过上述方式构建种子提问文本,一方面可以保证种子提问文本能够准确地反映对应的提问意图;另一方面可以有效地避免生成质量较差的种子提问文本的情况发生,即保证提问文本模板中每个待填充位置中填充的信息均为该待填充位置对应的关键点的具体信息;再一方面通过组合各候选填充信息得到各种不同的填充信息组合,可以在一定程度上丰富生成的种子提问文本的多样性。
在一种可能的实现方式中,不同的关键点集合反映不同的提问意图,不同的关键点集合包括至少一个不同的关键点,或对应不同的提问分析内容。
在本申请实施例中,可以预先设置多种用于反映不同提问意图的关键点集合。具体的,以所要生成的提问文本为指标分析类提问文本为例,对于指标分析类提问文本,可以基于提问文本对应的回答内容的形式,划分出不同提问意图的提问文本;通常情况下,指标分析类提问文本对应的回答内容的形式可以包括但不限于曲线图、柱状图、饼状图等等,对于形式为曲线图的回答内容,其对应的提问文本的提问意图通常为询问某种数据的变化趋势,对于形式为柱状图的回答内容,其对应的提问文本的提问意图通常为至少两种数据的对比情况,对于形式为饼状图的回答内容,其对应的提问文本的提问意图通常为某种数据在另一种数据中的分配占比。基于此,可以划分出与不同的回答内容形式分别对应的若干种提问意图。
在每种回答内容形式对应的提问意图中,还可以基于对回答内容的限制条件,对提问意图进行进一步的细分。具体的,以回答内容的形式为曲线图的指标分析类提问文本为例,通常情况下,此类指标分析类提问文本需基于分析时间范围、分析指标数据、分析维度和分析条件等限制条件,综合确定对应的回答内容;在本申请实施例中,可以设置缺少上述限制条件中的至少一种,来构建指标分析类提问文本;例如,将限制条件包括分析时间范围、分析指标数据和分析维度的指标分析类提问文本,视为对应一种提问意图,将限制条件包括分析指标数据、分析维度和分析条件的指标分析类提问文本,视为对应另一种提问意图。应理解,上述限制条件本质上即为上文步骤201中提及的关键点。
综上所述,在本申请实施例中,若两个关键点集合中存在至少一个不同的关键点,如关键点集合A相比关键点集合B多至少一个关键点,又如关键点集合A相比关键点集合B少至少一个关键点,再如关键点集合A和关键点集合B中包括相同数量的关键点,但是其中存在至少一个关键点不同,则可认为这两个关键点集合对应不同的提问意图。或者,若两个关键点集合对应不同的提问分析内容,如关键点集合A对应的提问分析内容为数据变化趋势,关键点集合B对应的提问分析内容为数据对比情况,则也可认为这两个关键点集合对应不同的提问意图。
当然,在实际应用中,也可以采用其它方式划分提问意图,本申请实施例对此不做任何限定。
相应地,上述步骤201中“确定所述种子提问文本所属的类别”具体可以包括:
步骤2013:根据所述种子提问文本对应的所述关键点集合,确定所述种子提问文本所属的类别;关键点集合与类别之间成一一对应的关系。
示例性的,假设按照上文介绍的提问意图划分方式,具体划分出九种不同的提问意图。其中,提问意图1至3对应于形式为曲线图的回答内容,这三种提问意图各自对应的关键点集合中存在至少一种关键点集合不同,如提问意图1对应的关键点集合包括分析时间范围、分析指标数据、分析维度和分析条件这四个关键点,提问意图2对应的关键点集合包括分析指标数据、分析维度和分析条件这三个关键点,提问意图3对应的关键点集合包括分析时间范围、分析指标数据和分析条件这三个关键点;提问意图4至5对应于形式为柱状图的回答内容,这两种提问意图各自对应的关键点集合中存在至少一种关键点集合不同;提问意图6至9对应于形式为饼状图的回答内容,这四种提问意图各自对应的关键点集合中存在至少一种关键点集合不同。相应地,上述提议意图1至9各自对应的关键点组合分别对应类别1至9。
对于根据提问意图1对应的关键点集合构建的种子提问文本,可以确定该种子提问文本所属的类别为类别1;对于根据提问意图2对应的关键点集合构建的种子提问文本,可以确定该种子提问文本所属的类别为类别2;以此类推,基于某种关键点集合构建的种子提问文本,其所属的类别即为该关键点集合对应的类别,该类别同样对应于该关键点集合反映的提问意图。
如此,通过上述方式,将关键点集合作为所构建的种子提问文本的类别划分依据,可以准确地区分各类种子提问文本,保证所确定的类别的准确性,据此训练文本分类模型,有利于后续帮助文本分类模型更好地学习不同类别的提问意图。
在一种可能的实现方式中,在执行上述步骤202之前,本申请实施例提供的方法还包括:
步骤2014:构建不包括用于反映提问意图的关键点的种子闲聊文本,确定所述种子闲聊文本所属的类别;所述种子闲聊文本所属的类别不同于各所述种子提问文本所属的类别。
具体的,服务器除了可以根据关键点集合构建种子提问文本外,还可以构建不包括用于反映提问意图的关键点的种子闲聊文本,即构建AI对话中常见的闲聊语句作为种子闲聊文本,所构建的种子闲聊文本例如可以为“您好”、“今天天气不错”等等。
并且,针对所构建的种子闲聊文本确定其所属的类别,通常情况下,可以将所构建的各个种子闲聊文本视为属于同一类别,该类别与上文中各种子提问文本所属的类别不同。例如,假设基于提问意图共划分了九个类别,分别为类别1至类别9,那么此时可以将种子闲聊文本所属的类别设为类别10。
相应地,上述步骤202“基于所述种子提问文本及其所属的类别,训练文本分类模型”具体包括:
基于所述种子提问文本及其所属的类别、以及所述种子闲聊文本及其所属的类别,训练所述文本分类模型。
即,服务器可以将种子提问文本和种子闲聊文本均应用到文本分类模型的训练任务中,在训练文本分类模型的过程中,服务器可以将种子提问文本或种子闲聊文本输入该文本分类模型,由该文本分类模型识别所输入的文本所属的类别,进而根据该文本的真实类别和文本分类模型识别出的类别构建损失函数,基于该损失函数对该文本分类模型的模型参数进行调整。
如此,通过上述方式,将闲聊文本引入文本分类模型的训练中,使得该文本分类模型不仅可以学习提问文本的语义,还可以学习闲聊文本的语义,从而丰富该文本分类模型所能识别的文本的类别,使得该文本分类模型能够覆盖识别更全面的文本。
在一种可能的实现方式中,上述步骤202中“基于所述种子提问文本及其所属的类别,训练文本分类模型”具体可以包括:
步骤2021:确定训练输入文本的文本特征表示;所述训练输入文本为所述种子提问文本、或不包括用于反映提问意图的关键点的种子闲聊文本。
在本申请实施例中,利用待训练的文本分类模型对训练输入文本进行分析处理前,可以先将训练输入文本转换为对应的文本特征表示,即转换为该文本分类模型支持处理的数据形式,该转换过程本质上为文本向量化过程。
图3为本申请实施例提供的文本分类模型的工作原理示意图。如图3所示,可以对训练输入文本进行拆分处理,将训练输入文本拆分为若干个文本单元,此处的文本单元可以包括训练输入文本中的分词或单个字符。然后,将每个文本单元转换为对应的向量表示,如基于embedding层或文本单元与词向量之间的映射关系,确定每个文本单元对应的向量表示。进而,按照文本单元在训练输入文本中的排布顺序,将各个文本单元各自对应的向量表示拼接起来,得到该训练输入文本的文本特征表示。
应理解,本申请实施例中的训练输入文本为训练文本分类模型时向该文本分类模型输入的文本,该训练输入文本可以为上文中的种子提问文本、或上文中的种子闲聊文本。
步骤2022:通过待训练的所述文本分类模型,根据所述训练输入文本的文本特征表示,确定所述训练输入文本对应的预测类别。
如图3所示,将训练输入文本输入文本分类模型中后,文本分类模型将对该训练输入文本进行分析处理,并相应地输出该训练输入文本对应的预测概率向量,该预测概率向量中包括该训练输入文本对应于各种类别的概率,其中所对应的概率最高的类别即为该训练输入文本对应的预测类别。
步骤2023:根据所述训练输入文本所属的类别和所述预测类别,调整所述文本分类模型的模型参数。
进而,服务器可以根据训练输入文本对应的预测概率向量和该训练输入文本实际所属的列表,调整该文本分类模型的模型参数。例如,假设训练输入文本对应的预测概率向量为[0,0.05,0.1,0.15,0.5,0.03,0.02,0.04,0.01,0.1],其中类别5对应的概率最大,则说明该训练输入文本对应的预测类别为类别5,而该训练输入文本实际所属的类别为类别4,则可相应地构建实际概率向量[0,0,0,1,0,0,0,0,0,0];进而,服务器可以计算上述预测概率向量和实际概率向量之间的差值,并据此构建损失函数,调整文本分类模型的模型参数。
如此,通过上述方式训练文本分类模型,可以保证训练得到的文本分类模型具有较优的模型性能,能够较准确地分析输入文本的语义,并据此准确地识别该输入文本所属的类别,也即准确地识别该输入文本的意图。
在一种可能的实现方式中,上述步骤203中“根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本”具体可以包括:
步骤2031:基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息。
在本申请实施例中,针对关键点集合中的每个关键点可以预先设置对应的多个候选填充信息;对于每个关键点,服务器可以从该关键点对应的多个候选填充信息中随机抽取一个候选填充信息;进而,利用针对该关键点集合中的各个关键点抽取的候选填充信息,组成一个填充信息组合。
应理解,服务器可以生成多个不同的填充信息组合,以便据此生成多个不同的候选提问文本;不同的填充信息组合中需包括至少一个候选填充信息不同。具体可以采用不同的组合方式,将关键点集合中各关键点各自对应的候选填充信息组合起来,得到不同的填充信息组合。
步骤2032:通过文本生成工具,根据所述填充信息组合包括的候选填充信息,生成所述关键点集合对应的多个候选提问文本。
生成填充信息组合后,可以根据该填充信息组合构建提示语prompt,并将所构建的提示语prompt输入已有的文本生成工具,该文本生成工具将相应地生成若干个候选提问文本。应理解,本申请实施例中的文本生成工具可以为任一能够基于提示语prompt生成文本的工具,其例如可以为用于生成问题的大模型工具、ChatGPT(Chat Generative Pre-trained Transformer)等,本申请实施例对此不做任何限定。
作为一种示例,假设所生成的填充信息组合为“分析时间范围:近7天,分析指标:页面浏览总人数,分析维度:不同城市,分析限定条件:年龄大于20岁,分析类型:变化趋势”,相应地,可以据此生成提示语prompt“分析时间范围:近7天,分析指标:页面浏览总人数,分析维度:不同城市,分析限定条件:年龄大于20岁,分析类型:变化趋势,进行10个相似问题的生成,要求不能丢失上述关键点”,将该提示语prompt输入大模型工具,该大模型工具示例性的可以输出如下10个候选提问文本:
1.在过去的7天内,年龄大于20岁的不同城市的页面浏览总人数是如何变化的?
2.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数呈现最大的增长趋势?
3.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数呈现最大的下降趋势?
4.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数变化最为平稳?
5.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数占比最高?
6.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数占比最低?
7.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数占总体的比例最高?
8.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数占总体的比例最低?
9.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数增长最快?
10.在过去的7天内,哪个城市的年龄大于20岁的页面浏览总人数下降最快?
如此,通过上述方式,利用文本生成工具基于关键点集合生成大批量的候选提问文本,一方面可以在一定程度上保证所生成的候选提问文本的质量,从而避免生成质量特别差的候选提问文本,另一方面可以有效地保证所生成的候选提问文本较为多样化。
在一种可能的实现方式中,上述步骤205中筛选候选提问文本时参考的参照种子提问文本,具体可以通过以下步骤确定:
步骤2051:针对每个所述候选提问文本,确定生成所述候选提问文本时依据的候选填充信息,作为参考填充信息。
正如上文所介绍的,服务器生成候选提问文本时需要依据对应的关键点集合中每个关键点的候选填充信息,基于此,在本步骤中,针对每个候选提问文本,服务器可以将生成该候选提问文本时使用的各个关键点的候选填充信息,作为该候选提问文本对应的参考填充信息。
步骤2052:在参照关键点集合对应的种子提问文本中,确定基于所述参考填充信息生成的种子提问文本,作为所述候选提问文本对应的所述参照种子提问文本;所述参照关键点集合为所述候选提问文本对应的关键点集合。
然后,将该候选提问文本对应的关键点集合确定为参照关键点集合,并在根据该参照关键点集合构建的种子提问文本中,查找基于该候选提问文本对应的参考填充信息生成的种子提问文本,即查找与该候选提问文本使用了相同的候选填充信息的种子提问文本,进而,将该使用参考填充信息生成的种子提问文本作为该候选提问文本对应的参照种子提问文本,判断该候选提问文本所属的类别与该参照种子提问文本所属的类别是否相同,并根据判断结果决定是否保留该候选提问文本。
作为一种示例,图4为本申请实施例提供的一种示例性的提问文本数据流图。如图4所示,服务器可以利用大模型工具,基于填充信息组合“分析时间范围:近7天,分析指标:页面浏览总人数,分析维度:不同城市,分析限定条件:年龄大于20岁,分析类型:变化趋势”,生成候选提问文本“在过去的7天内,年龄大于20岁的不同城市的页面浏览总人数是如何变化的?”;经文本分类模型对上述候选提问文本的识别处理,确定该候选提问文本所属的类别为类别1。
此外,服务器还可以在关键点集合“分析时间范围、分析指标、分析维度、分析限定条件、分析类型”对应的种子提问文本中,查找基于上述填充信息组合(即参考填充信息)生成的种子提问文本;例如,假设查找到种子提问文本“近7天,年龄大于20岁过滤条件下,不同城市下的页面浏览总人数对应的变化趋势如何?”也是基于上述参考填充信息生成的,因此可以将该种子提问文本作为该候选提问文本对应的参照种子提问文本。由于该参照种子提问文本所属的类别也为类别1,与该候选提问文本所属的类别相同,因此,可以将该候选提问文本保留下来。
如此,通过上述方式,查找与候选提问文本依据相同的候选填充信息生成的种子提问文本,作为评判是否保留该候选提问文本的参照种子提问文本,可以保证据此参照种子提问文本更准确地滤除掉质量较差的候选提问文本,即保证对于候选提问文本的筛选处理更准确可靠。
在一种可能的实现方式中,在步骤205中“将所述候选提问文本保存至提问文本库”之后,本申请实施例提供的方法还包括:
步骤206:基于所述提问文本库中包括的提问文本及其所属的类别,优化训练所述文本分类模型;所述提问文本库中还存储有所述种子提问文本。
具体的,服务器针对所生成的各个候选提问文本完成一轮筛选处理后,将质量较优、能够准确反映提问意图的候选提问文本均保存至提问文本库中,将质量较差、无法准确反映提问意图的候选提问文本均直接丢弃,因此,提问文本库中存储的种子提问文本和候选提问文本均为质量较优的提问文本。
随着所保留的优质提问文本的增多,服务器可以利用提问文本库中存储的提问文本对文本分类模型进行进一步的优化训练,以进一步提升文本分类模型的性能,使得该文本分类模型可以准确地识别更多样的文本的类别。应理解,此处训练文本分类模型的具体实现方式与上文中介绍的训练文本分类模型的具体实现方式相类似,详细可参见上文的相关内容,此处不再赘述。
如此,通过上述方式,跟随提问文本库的迭代更新,相应地迭代优化文本分类模型,利用更具多样性的提问文本对文本分类模型进行优化训练,以便进一步提升该文本分类模型的性能,使得该文本分类模型具有更优的语义识别功能,能更准确地区分各种表现形式的提问文本所属的类别。
在一种可能的实现方式中,在上述步骤206“基于所述提问文本库中包括的提问文本及其所属的类别,优化训练所述文本分类模型”之后,本申请实施例提供的方法还包括:
步骤207:根据所述关键点集合,生成所述关键点集合对应的多个更新候选提问文本。
在本申请实施例中,服务器还可以根据关键点集合,生成该关键点集合对应的更多的候选提问文本,新生成的候选提问文本在本申请实施例中被称为更新候选提问文本。具体生成更新候选提问文本的方式与上文中介绍的生成候选提问文本的方式相同,详细可参见上文的相关内容,此处不再赘述。
步骤208:针对每个所述更新候选提问文本,通过优化训练后的所述文本分类模型识别所述更新候选提问文本所属的类别。
针对所生成的每个更新候选提问文本,服务器可以利用优化训练后得到的、具有更优性能的文本分类模型对其进行识别处理,确定该更新候选提问文本所属的类别。具体利用文本分类模型确定更新候选提问文本所属的类别的实现方式,与上文中介绍的利用文本分类模型确定候选提问文本所属的类别的方式相同,详细可参见上文的相关内容,此处不再赘述。
步骤209:若所述更新候选提问文本所属的类别与参照提问文本所属的类别相同,则将所述更新候选提问文本保存至所述提问文本库;所述参照提问文本为所述提问文本库中存储的、与所述更新候选提问文本对应于同一关键点集合的提问文本。
针对每个更新候选提问文本,在提问文本库中查找与该更新候选提问文本对应于同一关键点集合的提问文本,作为该更新候选提问文本对应的参照提问文本。进而,判断该更新候选提问文本所属的类别与该参照提问文本所属的类别是否相同;如果相同,则可以认为该更新候选提问文本质量较高,能够较准确地反映对应的提问意图,因此可以将该更新候选提问文本保存至提问文本库中;如果不同,则可以认为该更新候选提问文本质量较差,无法准确地反映对应的提问意图,因此可以丢弃该更新候选提问文本。
如此,按照上述方式循环执行步骤206至步骤209,不断地对文本分类模型进行优化训练,以不断提升该文本分类模型的性能,同时利用性能更优的文本分类模型对新生成的候选提问文本进行筛选,不断地丰富提问文本库中存储的提问文本。这样循环迭代,可以保证文本分类模型具有较优的性能,其识别性能越来越准确,同时也能够保证提问文本库中存储的提问文本更加丰富多样,将该提问文本库中存储的提问文本应用于其它下游任务,有利于下游任务高质量完成。
图5为本申请实施例提供的文本生成方法的实现架构图。如图5所示,最初,可以将基于提问文本模板构建的种子提问文本存储至提问文本库中,利用该提问文本库中此时存储的种子提问文本及其所属的类别,对文本分类模型进行训练。此外,可以利用大模型工具,根据关键点集合中各个关键点各自对应的候选填充信息生成若干候选提问文本,并利用所训练的文本分类模型确定各个候选提问文本各自所属的类别。针对每个候选提问文本,判断该候选提问文本所属的类别与参照种子提问文本(例如基于相同的候选填充信息生成的种子提问文本)所属的类别是否相同,若相同,则将该候选提问文本保存至提问文本库中,若不同,则丢弃该候选提问文本。
提问文本库经上述对于候选提问文本的筛选处理得到更新,其中包括了更多的优质提问文本,此时可以利用该提问文本库中存储的提问文本(包括种子提问文本和优质的候选提问文本)及其所属的类别,对文本分类模型进行优化训练。此外,还可以利用大模型工具,根据关键点集合中各个关键点各自对应的候选填充信息生成若干新的候选提问文本(即更新候选提问文本),并利用优化训练后的文本分类模型确定各更新候选提问文本各自所属的类别。针对每个更新候选提问文本,判断该更新候选提问文本所属的类别与参照提问文本(例如提问文本库中存储的基于相同的候选填充信息生成的提问文本)所属的类别是否相同,若相同,则将该更新候选提问文本保存至提问文本库中,若不同,则丢弃该更新候选提问文本。如此,循环执行上述过程。
在一种可能的实现方式中,在上述步骤205中“将所述候选提问文本保存至提问文本库”之后,或者在上述步骤209中“将所述更新候选提问文本保存至所述提问文本库”之后,本申请实施例提供的方法还包括:
步骤210:基于所述提问文本库中包括的提问文本以及训练查询数据源,训练分析模型;所述分析模型用于基于所述训练查询数据源,确定所输入的提问文本对应的回答内容。
具体的,可以将提问文本库中存储的提问文本应用至具体的下游任务中,如应用至对于AI助手中分析模型的训练任务中。将提问文本库中存储的提问文本应用至对于分析模型的训练任务中前,可以先确定训练查询数据源,该训练查询数据源用于为分析模型提供数据查询基础,以便分析模型根据输入的提问文本,对该训练查询数据源中存储的数据进行分析,得到对应的回答内容;具体训练分析模型时,可以将提问文本库中包括的提问文本以及上述训练查询数据源提供给分析模型,相应地,该分析模型可以根据该提问文本,对训练查询数据源中存储的原始数据进行分析整理,生成该提问文本对应的训练回答内容;服务器可以根据该训练回答内容和预先确定的标准回答内容之间的差异,构建损失函数,基于该损失函数对该训练分析模型进行训练,如此迭代训练,直至该分析模型满足训练结束条件为止。
示例性的,图6为本申请实施例提供的一种分析模型的应用架构示意图。如图6所示,用户可以通过具有AI智能分析功能的应用程序,输入所要提问的目标问题,相应地,承载该应用程序的终端设备可以将该用户输入的目标问题传输至该应用程序的后台服务器。在后台服务器中,可以将该目标问题以及对应的查询数据源提供给分析模型,例如将目标问题以及用于标识查询数据源的调用入口的数据提供给分析模型,相应地,分析模型可以对所输入的目标问题进行分析,基于查询数据源确定该目标问题对应的数据分析结果;进而,后台服务器可以将所确定的数据分析结果反馈给对应的终端设备,以便输入该目标问题的用户获知对应的数据分析结果。
图7为本申请实施例提供的示例性的AI智能分析功能的界面图。其中,(a)为面向用户的问题输入界面,用户可以通过该输入界面中的问题输入框输入所要提问的目标问题。(b)为数据分析结果的展示界面,在该展示界面中可以同时显示文本形式的数据分析结果、以及图表形式的数据分析结果,以便用户更清晰地获知该数据分析结果。
如此,通过上述方式,利用通过本申请实施例提供的文本生成方法生成的提问文本,对AI助手中的分析模型进行训练。由于通过本申请实施例提供的文本生成方法生成的提问文本具有较高的准确性和可靠性,因此,利用该提问文本对分析模型进行训练,可以相应地保证该分析模型具有较优的性能,能够较准确地分析相关问题,保证所确定的回答内容具有较高的准确性。
当然,在实际应用中,通过本申请实施例提供的文本生成方法生成的提问文本,也可以应用在其它下游任务中,本申请实施例在此不对所生成的提问文本的应用途径做任何限定。
针对上文描述的文本生成方法,本申请还提供了对应的文本生成装置,以使上述文本生成方法在实际中得以应用及实现。
参见图8,图8是与上文图2所示的文本生成方法对应的文本生成装置800的结构示意图。如图8所示,该文本生成装置800包括:
种子文本构建模块801,用于针对每种关键点集合,根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,并确定所述种子提问文本所属的类别;所述关键点集合中包括用于反映提问意图的至少一个关键点;
分类模型训练模块802,用于基于所述种子提问文本及其所属的类别,训练文本分类模型;
候选文本构建模块803,用于根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本;
文本分类模块804,用于针对每个所述候选提问文本,通过所述文本分类模型识别所述候选提问文本所属的类别;
文本筛选模块805,用于若所述候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将所述候选提问文本保存至提问文本库;所述参照种子提问文本为与所述候选提问文本对应于同一关键点集合的种子提问文本,所述提问文本库用于存储适用于下游任务的提问文本。
可选的,所述种子文本构建模块801具体用于:
基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息;
将所述填充信息组合中每个关键点对应的候选填充信息,相应地填充至所述提问文本模板中每个关键点对应的待填充位置,得到所述关键点集合对应的种子提问文本。
可选的,不同的所述关键点集合反映不同的提问意图,不同的所述关键点集合包括至少一个不同的关键点,或对应不同的提问分析内容;所述种子文本构建模块801具体用于:
根据所述种子提问文本对应的所述关键点集合,确定所述种子提问文本所属的类别;所述关键点集合与所述类别之间成一一对应的关系。
可选的,所述种子文本构建模块801还用于:
构建不包括用于反映提问意图的关键点的种子闲聊文本,确定所述种子闲聊文本所属的类别;所述种子闲聊文本所属的类别不同于各所述种子提问文本所属的类别;
则所述分类模型训练模块802具体用于:
基于所述种子提问文本及其所属的类别、以及所述种子闲聊文本及其所属的类别,训练所述文本分类模型。
可选的,所述分类模型训练模块802具体用于:
确定训练输入文本的文本特征表示;所述训练输入文本为所述种子提问文本、或不包括用于反映提问意图的关键点的种子闲聊文本;
通过待训练的所述文本分类模型,根据所述训练输入文本的文本特征表示,确定所述训练输入文本对应的预测类别;
根据所述训练输入文本所属的类别和所述预测类别,调整所述文本分类模型的模型参数。
可选的,所述候选文本构建模块803具体用于:
基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息;
通过文本生成工具,根据所述填充信息组合包括的候选填充信息,生成所述关键点集合对应的多个候选提问文本。
可选的,所述文本筛选模块805具体用于:
针对每个所述候选提问文本,确定生成所述候选提问文本时依据的候选填充信息,作为参考填充信息;
在参照关键点集合对应的种子提问文本中,确定基于所述参考填充信息生成的种子提问文本,作为所述候选提问文本对应的所述参照种子提问文本;所述参照关键点集合为所述候选提问文本对应的关键点集合。
可选的,所述分类模型训练模块802还用于:
在所述将所述候选提问文本保存至提问文本库之后,基于所述提问文本库中包括的提问文本及其所属的类别,优化训练所述文本分类模型;所述提问文本库中还存储有所述种子提问文本。
可选的,所述候选文本构建模块803还用于:
根据所述关键点集合,生成所述关键点集合对应的多个更新候选提问文本;
所述文本分类模块804还用于:
针对每个所述更新候选提问文本,通过优化训练后的所述文本分类模型识别所述更新候选提问文本所属的类别;
所述文本筛选模块805还用于:
若所述更新候选提问文本所属的类别与参照提问文本所属的类别相同,则将所述更新候选提问文本保存至所述提问文本库;所述参照提问文本为所述提问文本库中存储的、与所述更新候选提问文本对应于同一关键点集合的提问文本。
可选的,所述装置还包括:
分析模型训练模块,用于基于所述提问文本库中包括的提问文本以及训练查询数据源,训练分析模型;所述分析模型用于基于所述训练查询数据源,确定所输入的提问文本对应的回答内容。
在本申请实施例提供的文本生成装置中,先针对用于反映对应提问意图的每种关键点集合,根据该关键点集合对应的提问文本模板,构建该关键点集合对应的种子提问文本,并确定该种子提问文本所属的类别;此处的关键点集合中包括用于反映提问意图的至少一个关键点,此处的种子提问文本所属的类别与该种子提问文本反映的提问意图相关;然后,基于所构建的种子提问文本及其所属的类别训练文本分类模型。如此,基于关键点集合对应的提问文本模板构建质量较高的、能准确反映提问意图的种子提问文本,然后基于该种子提问文本及其对应的用于反映提问意图的所属类别训练文本分类模型,能够保证训练得到的文本分类模型较准确地识别输入文本所属的类别,即较准确地识别输入文本反映的提问意图。进而,利用该文本分类模型,对根据关键点集合生成的该关键点集合对应的候选提问文本进行识别,确定候选提问文本所属的类别;若某候选提问文本所属的类别与参照种子提问文本所属的类别相同,则可以将该候选提问文本保存至提问文本库;此处的参照种子提问文本对应的关键点集合与该候选提问文本对应的关键点集合相同,此处的提问文本库用于存储适用于下游任务的提问文本。如此,根据关键点集合生成大批量的、掺杂有优质提问文本和劣质提问文本的候选提问文本,进而利用所训练的文本分类模型识别候选提问文本所属的类别,即识别该候选提问文本反映的提问意图,如果该候选提问文本所属的类别与对应于同一关键点集合的参照种子提问文本所属的类别相同,则说明该候选提问文本能够较准确地反映对应的提问意图,质量较优,具有较高的准确性和可靠性,因此可以将该候选提问文本存储至提问文本库,以便后续将其应用于其他下游任务,以辅助提高下游任务的实现质量。
本申请实施例还提供了一种用于生成文本的计算机设备,该计算机设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图9,图9是本申请实施例提供的终端设备的结构示意图。如图9所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、销售终端(Point of Sales,POS)、车载电脑等任意终端设备,以终端为计算机为例:
图9示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图9,计算机包括:射频(Radio Frequency,RF)电路910、存储器920、输入单元930(其中包括触控面板931和其他输入设备932)、显示单元940(其中包括显示面板941)、传感器950、音频电路960(其可以连接扬声器961和传声器962)、无线保真(wireless fidelity,WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解,图9中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器980是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行计算机的各种功能和处理数据。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
在本申请实施例中,该终端所包括的处理器980还用于执行本申请实施例提供的文本生成方法的任意一种实现方式的步骤。
参见图10,图10为本申请实施例提供的一种服务器1000的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。
其中,CPU 1022还可以用于执行本申请实施例提供的文本生成方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种文本生成方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种文本生成方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (19)
1.一种文本生成方法,其特征在于,所述方法包括:
针对每种关键点集合,根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,并确定所述种子提问文本所属的类别;所述关键点集合中包括用于反映提问意图的至少一个关键点,所述关键点集合对应的提问文本模板是用于反映该关键点集合对应的提问意图的标准句式;
基于所述种子提问文本及其所属的类别,训练文本分类模型;
根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本;
针对每个所述候选提问文本,通过所述文本分类模型识别所述候选提问文本所属的类别;
若所述候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将所述候选提问文本保存至提问文本库;所述参照种子提问文本为与所述候选提问文本对应于同一关键点集合的种子提问文本,所述提问文本库用于存储适用于下游任务的提问文本;
其中,所述基于所述种子提问文本及其所属的类别,训练文本分类模型,包括:
确定训练输入文本的文本特征表示;所述训练输入文本为所述种子提问文本、或不包括用于反映提问意图的关键点的种子闲聊文本;
通过待训练的文本分类模型,根据所述训练输入文本的文本特征表示,确定所述训练输入文本对应的预测类别;
根据所述训练输入文本所属的类别和所述预测类别,调整所述文本分类模型的模型参数;
其中,所述根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本,包括:
基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息;
通过文本生成工具,根据所述填充信息组合包括的候选填充信息,生成所述关键点集合对应的多个候选提问文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,包括:
基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息;
将所述填充信息组合中每个关键点对应的候选填充信息,相应地填充至所述提问文本模板中每个关键点对应的待填充位置,得到所述关键点集合对应的种子提问文本。
3.根据权利要求1或2所述的方法,其特征在于,不同的所述关键点集合反映不同的提问意图,不同的所述关键点集合包括至少一个不同的关键点,或对应不同的提问分析内容;
所述确定所述种子提问文本所属的类别,包括:
根据所述种子提问文本对应的所述关键点集合,确定所述种子提问文本所属的类别;所述关键点集合与所述类别之间成一一对应的关系。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建不包括用于反映提问意图的关键点的种子闲聊文本,确定所述种子闲聊文本所属的类别;所述种子闲聊文本所属的类别不同于各所述种子提问文本所属的类别;
所述基于所述种子提问文本及其所属的类别,训练文本分类模型,包括:
基于所述种子提问文本及其所属的类别、以及所述种子闲聊文本及其所属的类别,训练所述文本分类模型。
5.根据权利要求1所述的方法,其特征在于,所述参照种子提问文本是通过以下方式确定的:
针对每个所述候选提问文本,确定生成所述候选提问文本时依据的候选填充信息,作为参考填充信息;
在参照关键点集合对应的种子提问文本中,确定基于所述参考填充信息生成的种子提问文本,作为所述候选提问文本对应的所述参照种子提问文本;所述参照关键点集合为所述候选提问文本对应的关键点集合。
6.根据权利要求1所述的方法,其特征在于,在所述将所述候选提问文本保存至提问文本库之后,所述方法还包括:
基于所述提问文本库中包括的提问文本及其所属的类别,优化训练所述文本分类模型;所述提问文本库中还存储有所述种子提问文本。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述关键点集合,生成所述关键点集合对应的多个更新候选提问文本;
针对每个所述更新候选提问文本,通过优化训练后的所述文本分类模型识别所述更新候选提问文本所属的类别;
若所述更新候选提问文本所属的类别与参照提问文本所属的类别相同,则将所述更新候选提问文本保存至所述提问文本库;所述参照提问文本为所述提问文本库中存储的、与所述更新候选提问文本对应于同一关键点集合的提问文本。
8.根据权利要求1或7所述的方法,其特征在于,所述方法还包括:
基于所述提问文本库中包括的提问文本以及训练查询数据源,训练分析模型;所述分析模型用于基于所述训练查询数据源,确定所输入的提问文本对应的回答内容。
9.一种文本生成装置,其特征在于,所述装置包括:
种子文本构建模块,用于针对每种关键点集合,根据所述关键点集合对应的提问文本模板,构建所述关键点集合对应的种子提问文本,并确定所述种子提问文本所属的类别;所述关键点集合中包括用于反映提问意图的至少一个关键点,所述关键点集合对应的提问文本模板是用于反映该关键点集合对应的提问意图的标准句式;
分类模型训练模块,用于基于所述种子提问文本及其所属的类别,训练文本分类模型;
候选文本构建模块,用于根据所述关键点集合,生成所述关键点集合对应的多个候选提问文本;
文本分类模块,用于针对每个所述候选提问文本,通过所述文本分类模型识别所述候选提问文本所属的类别;
文本筛选模块,用于若所述候选提问文本所属的类别与参照种子提问文本所属的类别相同,则将所述候选提问文本保存至提问文本库;所述参照种子提问文本为与所述候选提问文本对应于同一关键点集合的种子提问文本,所述提问文本库用于存储适用于下游任务的提问文本;
其中,所述分类模型训练模块具体用于:
确定训练输入文本的文本特征表示;所述训练输入文本为所述种子提问文本、或不包括用于反映提问意图的关键点的种子闲聊文本;
通过待训练的文本分类模型,根据所述训练输入文本的文本特征表示,确定所述训练输入文本对应的预测类别;
根据所述训练输入文本所属的类别和所述预测类别,调整所述文本分类模型的模型参数;
其中,所述候选文本构建模块具体用于:
基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息;
通过文本生成工具,根据所述填充信息组合包括的候选填充信息,生成所述关键点集合对应的多个候选提问文本。
10.根据权利要求9所述的装置,其特征在于,所述种子文本构建模块具体用于:
基于所述关键点集合中各个关键点各自对应的候选填充信息,生成填充信息组合;所述填充信息组合包括所述关键点集合中每个关键点对应的一个候选填充信息;
将所述填充信息组合中每个关键点对应的候选填充信息,相应地填充至所述提问文本模板中每个关键点对应的待填充位置,得到所述关键点集合对应的种子提问文本。
11.根据权利要求9或10所述的装置,其特征在于,不同的所述关键点集合反映不同的提问意图,不同的所述关键点集合包括至少一个不同的关键点,或对应不同的提问分析内容;
所述种子文本构建模块具体用于:
根据所述种子提问文本对应的所述关键点集合,确定所述种子提问文本所属的类别;所述关键点集合与所述类别之间成一一对应的关系。
12.根据权利要求9所述的装置,其特征在于,所述种子文本构建模块还用于:
构建不包括用于反映提问意图的关键点的种子闲聊文本,确定所述种子闲聊文本所属的类别;所述种子闲聊文本所属的类别不同于各所述种子提问文本所属的类别;
所述分类模型训练模块具体用于:
基于所述种子提问文本及其所属的类别、以及所述种子闲聊文本及其所属的类别,训练所述文本分类模型。
13.根据权利要求9所述的装置,其特征在于,所述文本筛选模块具体用于:
针对每个所述候选提问文本,确定生成所述候选提问文本时依据的候选填充信息,作为参考填充信息;
在参照关键点集合对应的种子提问文本中,确定基于所述参考填充信息生成的种子提问文本,作为所述候选提问文本对应的所述参照种子提问文本;所述参照关键点集合为所述候选提问文本对应的关键点集合。
14.根据权利要求9所述的装置,其特征在于,所述分类模型训练模块还用于:
在所述将所述候选提问文本保存至提问文本库之后,基于所述提问文本库中包括的提问文本及其所属的类别,优化训练所述文本分类模型;所述提问文本库中还存储有所述种子提问文本。
15.根据权利要求14所述的装置,其特征在于,所述候选文本构建模块还用于:
根据所述关键点集合,生成所述关键点集合对应的多个更新候选提问文本;
所述文本分类模块还用于:
针对每个所述更新候选提问文本,通过优化训练后的所述文本分类模型识别所述更新候选提问文本所属的类别;
所述文本筛选模块还用于:
若所述更新候选提问文本所属的类别与参照提问文本所属的类别相同,则将所述更新候选提问文本保存至所述提问文本库;所述参照提问文本为所述提问文本库中存储的、与所述更新候选提问文本对应于同一关键点集合的提问文本。
16.根据权利要求9或15所述的装置,其特征在于,所述装置还包括:
分析模型训练模块,用于基于所述提问文本库中包括的提问文本以及训练查询数据源,训练分析模型;所述分析模型用于基于所述训练查询数据源,确定所输入的提问文本对应的回答内容。
17.一种计算机设备,其特征在于,所述设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至8任一项所述的文本生成方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至8任一项所述的文本生成方法。
19.一种计算机程序产品,包括计算机程序或者指令,其特征在于,所述计算机程序或者所述指令被处理器执行时,实现权利要求1至8任一项所述的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311495695.0A CN117235237B (zh) | 2023-11-10 | 2023-11-10 | 一种文本生成方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311495695.0A CN117235237B (zh) | 2023-11-10 | 2023-11-10 | 一种文本生成方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235237A CN117235237A (zh) | 2023-12-15 |
CN117235237B true CN117235237B (zh) | 2024-03-12 |
Family
ID=89093130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311495695.0A Active CN117235237B (zh) | 2023-11-10 | 2023-11-10 | 一种文本生成方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235237B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020774A (ja) * | 2017-07-11 | 2019-02-07 | トヨタ自動車株式会社 | 対話システムおよび対話方法 |
CN111444326A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及存储介质 |
CN111831821A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本分类模型的训练样本生成方法、装置和电子设备 |
CN115186057A (zh) * | 2022-07-07 | 2022-10-14 | 中国银行股份有限公司 | 一种文本分类模型的获得方法及装置 |
CN115345177A (zh) * | 2021-05-13 | 2022-11-15 | 海信集团控股股份有限公司 | 意图识别模型训练方法和对话方法及装置 |
KR102545892B1 (ko) * | 2022-11-24 | 2023-06-21 | 주식회사 액션파워 | 텍스트 분류를 위한 학습 데이터를 생성하는 방법 |
CN116795973A (zh) * | 2023-08-16 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法及装置、电子设备、介质 |
-
2023
- 2023-11-10 CN CN202311495695.0A patent/CN117235237B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020774A (ja) * | 2017-07-11 | 2019-02-07 | トヨタ自動車株式会社 | 対話システムおよび対話方法 |
CN111444326A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及存储介质 |
CN111831821A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本分类模型的训练样本生成方法、装置和电子设备 |
CN115345177A (zh) * | 2021-05-13 | 2022-11-15 | 海信集团控股股份有限公司 | 意图识别模型训练方法和对话方法及装置 |
CN115186057A (zh) * | 2022-07-07 | 2022-10-14 | 中国银行股份有限公司 | 一种文本分类模型的获得方法及装置 |
KR102545892B1 (ko) * | 2022-11-24 | 2023-06-21 | 주식회사 액션파워 | 텍스트 분류를 위한 학습 데이터를 생성하는 방법 |
CN116795973A (zh) * | 2023-08-16 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法及装置、电子设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117235237A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708869B (zh) | 人机对话的处理方法及装置 | |
CN116911312B (zh) | 一种任务型对话系统及其实现方法 | |
CN111368042A (zh) | 智能问答方法、装置、计算机设备及计算机存储介质 | |
CN111737426B (zh) | 问答模型的训练方法、计算机设备以及可读存储介质 | |
CN117149989A (zh) | 大语言模型训练方法、文本处理方法及装置 | |
Park et al. | Systematic review on chatbot techniques and applications | |
CN110765247A (zh) | 一种用于问答机器人的输入提示方法及装置 | |
CN118170894B (zh) | 一种知识图谱问答方法、装置及存储介质 | |
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN112506945A (zh) | 基于知识图谱的自适应导学方法及系统 | |
Chai | Design and implementation of English intelligent communication platform based on similarity algorithm | |
CN117453885A (zh) | 提问信息处理方法、装置、设备、存储介质及产品 | |
CN118277588A (zh) | 查询请求处理方法、电子设备及存储介质 | |
Aksonov et al. | Question-Answering Systems Development Based on Big Data Analysis | |
Li | A Recommendation Model for College English Digital Teaching Resources Using Collaborative Filtering and Few‐Shot Learning Technology | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN117932022A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
CN117235237B (zh) | 一种文本生成方法及相关装置 | |
CN114942981A (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN114153946A (zh) | 一种智能检索方法、装置、设备及存储介质 | |
CN114676775A (zh) | 样本信息标注方法、装置、设备、程序以及存储介质 | |
CN114372478A (zh) | 一种基于知识蒸馏的问答方法、终端设备及存储介质 | |
CN114297353A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN118070925B (zh) | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |