CN112100375A - 文本信息生成方法、装置、存储介质及设备 - Google Patents

文本信息生成方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN112100375A
CN112100375A CN202010949883.6A CN202010949883A CN112100375A CN 112100375 A CN112100375 A CN 112100375A CN 202010949883 A CN202010949883 A CN 202010949883A CN 112100375 A CN112100375 A CN 112100375A
Authority
CN
China
Prior art keywords
label
attribute
text information
text
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010949883.6A
Other languages
English (en)
Inventor
陈慧敏
林衍凯
岂凡超
胡锦毅
李鹏
周杰
孙茂松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tsinghua University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Tencent Technology Shenzhen Co Ltd filed Critical Tsinghua University
Priority to CN202010949883.6A priority Critical patent/CN112100375A/zh
Publication of CN112100375A publication Critical patent/CN112100375A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本申请实施例公开了一种文本信息生成方法、装置、存储介质以及设备,涉及人工智能技术领域,其中,该方法包括:获取第一原始文本信息;对第一原始文本信息进行标签识别,得到第一原始文本信息的第一预测属性情感标签;采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的第二预测属性情感标签;根据第一原始文本信息、第一预测文本信息、第一预测属性情感标签以及第二预测属性情感标签,对文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。通过本申请能够降低训练文本生成模型的复杂度,提高文本生成模型的准确度。

Description

文本信息生成方法、装置、存储介质及设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本信息生成方法、装置、存储介质及设备。
背景技术
随着互联网技术的快速发展,用于自动生成文本信息的文本生成模型应运而生。例如,电子商务等类别的应用程序均提供了针对服务或产品的评论功能,用户在购买产品或体验服务后,可用户可利用文本生成模型对产品或服务进行评论。用户的文本对消费者以及供应商具有重要意义;例如,对于消费者,不仅可以对产品或服务进行评论,还可以浏览其他用户的评论来了解产品和服务的质量,帮助自己做出可靠的决策。对于供应商,可以对用户的评论进行分析,进而,利用分析结果为用户提供更优质的服务等。实践中发现,需要大规模的标注数据对文本生成模型进行训练,才能确保文本生成模型所生成文本信息的准确度,导致训练文本生成模型的复杂度比较高。
发明内容
本申请实施例所要解决的技术问题在于,提供一种文本信息生成方法、装置、存储介质及设备,能够降低训练文本生成模型的复杂度,提高文本生成模型的准确度。
本申请实施例一方面提供一种文本信息生成方法,包括:
获取第一原始文本信息;
对所述第一原始文本信息进行标签识别,得到所述第一原始文本信息的第一预测属性情感标签;
采用文本生成模型对所述第一预测属性情感标签进行文本预测,得到第一预测文本信息,对所述第一预测文本信息进行标签预测,得到所述第一预测文本信息的第二预测属性情感标签;
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
本申请实施例一方面提供一种文本信息生成装置,包括:
获取模块,用于获取第一原始文本信息;
标签识别模块,用于对所述第一原始文本信息进行标签识别,得到所述第一原始文本信息的第一预测属性情感标签;
文本预测模块,用于采用文本生成模型对所述第一预测属性情感标签进行文本预测,得到第一预测文本信息,对所述第一预测文本信息进行标签预测,得到所述第一预测文本信息的第二预测属性情感标签;
调整模块,用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
本申请实施例一方面提供一种文本信息生成装置,包括:
获取模块,用于获取所述目标对象的属性信息,以及针对所述目标对象的属性信息的情感信息;
生成模块,用于根据所述目标对象的属性信息,以及所述目标对象的属性信息的情感信息,生成所述目标对象的目标属性情感标签;
文本识别模块,用于采用目标文本生成模型,对所述目标属性情感标签进行文本识别,得到目标文本信息;所述目标文本生成模型是采用上述文本信息生成方法对文本生成模型调整得到的。
本申请一方面提供了一种计算机设备,包括:处理器及存储器;
其中,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中上述文本信息生成方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如本申请实施例中的文本信息生成方法。
本申请中,计算机设备对第一原始文本信息进行标签识别,得到第一原始文本信息的第一预测属性情感标签;采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的第二预测属性情感标签。根据第一原始文本信息、第一预测文本信息、第一预测属性情感标签、第二预测属性情感标签对文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,即目标文本信息具有目标属性情感标签。即通过对原始文本信息进行标签识别,得到原始评论信息的预测属性情感标签对原始文本信息进行标签识别得到原始文本信息的属性情感标签,不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型生成文本的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种文本信息生成系统的架构示意图;
图2a是本申请提供的一种文本信息生成系统各个设备之间的交互场景示意图;
图2b是本申请提供的一种文本信息生成系统各个设备之间的交互场景示意图;
图2c是本申请提供的一种文本信息生成系统各个设备之间的交互场景示意图;
图3是本申请提供的一种文本信息生成方法的流程示意图;
图4是本申请提供的一种对文本生成模型进行调整的场景示意图;
图5是本申请提供的一种文本信息生成方法的流程示意图;
图6是本申请提供的一种文本生成模型的结构示意图;
图7是本申请提供的一种标签识别模型进行调整的场景示意图;
图8是本申请提供的一种文本信息生成方法的流程示意图;
图9是本申请实施例提供的一种文本信息生成装置的结构示意图;
图10是本申请实施例提供的一种文本信息生成装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大文本信息生成技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来被看好的人机交互方式之一。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,本申请实施例提供的文本信息生成方法主要涉及人工智能-自然语言处理技术,根据目标对象的属性信息以及情感信息自动生成目标对象的文本信息,提高生成文本信息的效率以及准确度。
首先介绍用于实现本申请的文本信息生成方法的文本信息生成系统,如图1所示,该文本信息生成系统中包括服务器以及终端。
其中,终端可以是指面向用户的设备,终端中可包括用于对目标对象进行文本的文本应用平台,该文本应用平台可以接收用户所编辑的文本信息,并向用户展示文本信息;此处文本应用平台可以是指购物应用平台、多媒体网站平台(如论坛、贴吧)、社交应用平台、内容交互平台(如点评应用平台)等等。服务器可以是指用于为文本应用平台提供后台服务的设备,具体可以用于根据用户对目标对象的属性的情感信息,生成目标对象的文本信息,将所生成的文本信息上传至文本应用平台。
其中,服务器可以是独立的一个物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,本方案可用于对话场景、评论生成场景以及文学创作场景等等,在对话场景中,上述目标对象可以是指对话内容,该目标对象的属性信息包括对话内容的关键词,目标对象的情感信息是指关键词对应的情感信息,例如,对话内容为“S地真好玩”,该目标对象的属性信息为S地,情感信息为“好玩”。在评论生成场景,上述目标对象可以是指一种产品或一种服务,产品可以包括应用程序(社交应用程序、游戏应用程序、办公应用程序等)、文章、衣物、食品、器材以及书籍等等;服务可以是指餐饮服务、心理咨询、网络课程以及法律咨询等等。目标对象具有属性信息,目标对象的属性信息是用于反映用户对目标对象的消费体验的属性。例如,该目标对象为产品,该产品的属性包括外观、价格、物流、性能等等;又如,目标对象为餐饮服务,餐饮服务的属性包括环境、价格、服务等等。其中,用户购买目标对象或体验目标对象后,可以针对目标对象的属性信息进行评价,这里对目标对象的属性信息进行评价可以包括:对目标对象的属性信息进行评分,得到目标对象的属性信息对应的评分信息,此处评分信息可以是指用户对目标对象的情感信息。目标对象的属性信息对应的评分信息用于反映用户对目标对象的属性的满意程度,评分信息具体可以采用数字表示如8分、9分等等,即分数越高,表明用户对目标对象的属性的满意程度越高;分数越低,表明用户对目标对象的属性的满意程度越低;或者。评分信息也可以采用符号表示,如三颗星、四颗星、五颗星等等,即星的数量越多,表明用户对目标对象的属性的满意程度越高;星的数量越少,表明用户对目标对象的属性的满意程度越低。在对文学创作景中,上述目标对象可以是指文学创作中所要描述对象(如一件事或一个物品),例如,该文学创作所要描述的对象为事件,该目标对象的属性信息包括事件的关键词,目标对象的情感信息是指关键词对应的情感信息,用于反映用户对文学创作对象所要描述对象的属性信息的喜好。
其中,通过手动编辑方式得到目标对象的属性信息对应的文本信息,操作比较繁琐,且比较费时,因此,本方案中采用文本生成模型对目标对象的属性信息以及目标对象的属性信息对应的情感信息进行文本识别,自动得到目标对象的文本信息,可以提高生成文本信息的效率。首先,为例提高文本生成模型生成文本的准确度,可以对文本生成模型进行训练,具体的,可以采用无监督方式对文本生成模型进行训练,或者可以采用半监督方式对文本生成模型进行训练。其中,无监督方式可以是指采用无标注标签的原始文本信息对文本生成模型进行训练,半监督方式可以是指采用少量具有标注标签的原始文本信息以及无标注标签的原始文本信息对文本生成模型进行训练。
可选的,如下图2a-图2c以评论生成场景为例,对本方案中的文本信息生成方法进行说明。如图2a所示,服务器可以采用无监督方式对文本生成模型进行训练,具体的,服务器可以从终端中获取第一原始文本信息。该第一原始文本信息可以是指用户对某个对象的属性信息进行评价得的,该对象可以是指一种产品或一种服务,产品可以包括应用程序(社交应用程序、游戏应用程序、办公应用程序等)、文章、衣物、食品、器材以及书籍等等;服务可以是指餐饮服务、心理咨询、网络课程以及法律咨询等等。第一原始文本信息可以是指无标注标签的原始文本信息,即第一原始文本信息未被标注属性情感标签;第一原始文本信息的属性情感标签可以是指用于反映第一原始文本信息对应的对象的属性标签,以及反映对象的属性信息的情感标签。属性标签可以是指第一原始文本信息对应的对象的属性信息,情感标签可以用于反映针对第一原始文本信息对应的对象的属性信息的评分信息。例如,第一原始文本信息对应的对象为产品,该产品的属性标签包括外观、价格、物流、性能等等;又如,第一原始文本信息对应的对象为餐饮服务,餐饮服务的属性标签包括环境、价格、服务等等。情感标签可包括积极、消极以及中立,积极表示用户对对象的某一属性信息的满意程度为非常满意,消极表示用户对对象的某一属性信息的满意程度为不满意,中立表示用户对对象的某一属性信息的满意程度介于非常满意和不满意之间。在服务器获取到第一原始文本信息后,可以获取标签识别模型,该标签识别模型是指用于进行属性情感标签识别的模型,可以采用该标签识别模型对第一原始文本信息进行标签识别,得到第一原始文本信息的预测属性情感标签,作为第一预测属性情感标签。进一步,可以获取文本生成模型,该文本生成模型是指用于生成文本信息的模型,可以采用该文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息;并采用文本生成模型的对第一预测文本信息进行标签预测,得到第一预测文本信息的预测属性情感标签,作为第二预测属性情感标签。然后,根据第一预测属性情感标签、第二预测属性情感标签、第一原始文本信息、第一预测文本信息对文本生成模型进行调整,将调整后的文本生成模型作为目标文本生成模型,即使目标文本生成模型具有根据对象的属性情感标签生成对象的文本信息的能力。通过采用上述无标注标签的原始文本信息对文本生成模型进行训练,即不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型的生成文本的准确度。
可选的,如图2b所示,服务器可以采用半监督方式对文本生成模型进行训练,具体的,服务器可以从终端中获取第一原始文本信息以及第二原始文本信息,第二原始文本信息具有第一标注属性情感标签。即第一原始文本信息可以是指无标注标签的原始文本信息,第二原始文本信息可以是指具有标注标签的原始文本信息,即第二原始文本信息具有第一标注属性情感标签,第一标注属性情感标签可以是指用户对第二原始文本信息进行标注得到的。第一原始文本信息对应的对象与第二原始文本对应的对象可以相同,如第一原始文本信息对应的对象与第二原始文本对应的对象均为同一家饭店;第一原始文本信息对应的对象与第二原始文本对应的对象也可以相同,如第一原始文本信息对应的对象为饭店,第二原始文本信息对应的对象为书籍。第一原始文本信息和第二原始文本信息可以是由同一用户编辑得到的,也可以是指由不同用户编辑得到的。
如图2b中,服务器在获取到第一原始文本信息和第二原始文本信息后,采用标签识别模型对第一原始文本信息进行标签识别,得到第一原始文本信息的预测属性情感标签,作为第一预测属性情感标签。可以采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一标注属性情感标签进行文本预测,得到第二预测文本信息,对第一预测文本信息进行标签预测,得到第二预测属性情感标签,以及对第二预测文本信息进行标签预测,得到第三预测属性情感标签。进一步,可以根据无标注标签的第一原始数据对应的预测结果、具有标注标签的第二原始文本信息对应的预测结果、第一原始文本信息、第二原始文本信息、第一标注属性情感标签,对文本生成模型进行调整,得到目标文本生成模型。无标注标签的第一原始数据对应的预测结果包括:第一预测文本信息、第一预测属性情感标签以及第二预测属性情感标签;具有标注标签的第二原始文本信息对应的预测结果包括:第二预测文本信息以及第三预测属性情感标签。通过采用上述无标注标签的原始文本信息和具有标注标签的原始文本信息对文本生成模型进行训练,即只需要对少量原始文本信息进行标注,不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型的文本生成准确度。
需要说明的是,上述采用无监督方式对文本生成模型进行训练可以适应于:当标签识别模型为一个增强的标签识别模型的场景中,例如,该增强的标签识别模型是由其他设备(除上述服务器以外的设备)对标签识别模型所训练得到的;增强的标签识别模型可以是指标签识别模型的属性情感标签识别的准确度大于准确度阈值(如0.8、0.9)。上述采用半监督方式对文本生成模型进行训练可以适应于:当标签识别模型为一个非增强的标签识别模型的场景中,例如,该标签识别模型可以是由服务器通过少量具有标注标签的原始文本信息训练得到的。
在服务器获取到目标文本模型后,可以将目标文本生成模型发送至终端,在需要生成某个对象的文本信息时,该需要文本的对象可以称为目标对象,图2c中以该目标对象为A饭店为例,对生成文本信息的过程进行说明。当用户P在A饭店就餐后,可以在文本应用平台上对A饭店进行文本,如图2b中,用户在文本应用平台的文本界面11上对A饭店的属性进行文本,得到A饭店的属性信息的评分信息,A饭店的属性信息包括环境、服务、价格以及食品,环境的评分信息为5颗星,服务的评分信息为3颗星,价格的评分信息为4颗星,食品的评分信息为4颗星。终端可以根据A饭店的属性信息,以及A饭店的属性的评分信息生成A饭店的属性情感标签,A饭店的属性情感标签包括属性标签以及情感标签,即根据A饭店的属性信息生成属性标签,根据A饭店的属性的评分信息生成情感标签。属性标签包括环境、服务、价格以及食品,环境、服务、价格以及食品分别对应的情感标签为积极、消极、中立、中立。在获取到A饭店的属性情感标签后,可以根据A饭店的属性对应的评分信息生成A饭店的总体评分信息,根据A饭店的总体评分信息生成A饭店的总体情感标签;图2c中,A饭店的总体评分信息为4颗星,A饭店的总体感情标签为中立。或者,可根据A饭店的属性标签对应的情感标签,生成目标对象的总体情感标签。
终端在获取到A饭店的属性情感标签后,可以采用目标文本生成模型生成A饭店的文本信息,具体的,可以采用目标文本生成模型对A饭店的属性标签以及情感标签进行文本识别,得到A饭店的属性信息对应的文本信息,对A饭店的总体情感标签进行识别,得到A饭店的总体文本信息。根据A饭店的属性信息对应的文本信息以及A饭店的总体文本信息生成A饭店的文本信息;A饭店的属性信息对应的文本信息用于反映用户针对A饭店的属性信息的满意程度,A饭店的总体文本信息用于反映用户对A饭店的总体满意程度。如图2c中,“A饭店的内部比较干净整洁”是指A饭店的坏境属性的文本信息,“上菜速度比较慢,且服务员很少”是指A饭店的服务属性的文本信息。“菜品的价格一般”是指A饭店的价格属性的文本信息,“菜品的味道比较中规中矩”是指A饭店的食品属性的文本信息,“A饭店还行,但是也没有特色”是指A饭店的总体的文本信息。通过根据A饭店的属性信息,以及用户对A饭店的属性的评分信息生成A饭店的属性情感标签,根据A饭店的属性情感标签生成A饭店的文本信息,可实现对A饭店的文本信息进行属性级别的情感控制,提高生成文本信息的多样性以及准确度;且不需要用户手动编辑文本信息,提高生成文本信息的效率。
需要说明的是,上述对文本模型的训练过程以及生成对象的文本信息的过程可以由图1中的服务器单独执行,也可以由终端单独执行,还可以由服务器和终端协助执行,本申请对此不做限定。
基于上述的描述,请参见图3,是本申请实施例提供的一种文本信息生成方法的流程示意图。该方法可由计算机设备来执行,该计算机设备可以是指图1中的服务设备或终端,如图3所示,该文本信息生成方法可以包括如下步骤S101~S104。
S101、获取第一原始文本信息。
计算机设备可以从网页页面或应用程序的界面等文本应用平台中获取第一原始文本信息,第一原始文本信息可以是指无标注标签的原始平台信息,即第一原始文本信息中的每句话所对应的属性标签以及情感标签未被标注。
S102、对该第一原始文本信息进行标签识别,得到该第一原始文本信息的第一预测属性情感标签。
计算机设备可以对该第一原始文本信息进行语义分析,得到该第一原始文本信息的第一预测属性情感标签;或者,计算机设备可以将第一原始文本信息输入至标签识别模型,由标签识别模型对第一原始文本信息进行标签识别,得到该第一原始文本信息的预测属性情感标签,将该第一原始文本信息的预测属性情感标签作为第一预测属性情感标签,即将第一预测属性情感标签作为第一原始文本信息的标注标签。
S103、采用文本生成模型对该第一预测属性情感标签进行文本预测,得到第一预测文本信息,对该第一预测文本信息进行标签预测,得到该第一预测文本信息的第二预测属性情感标签。
在获取到第一原始文本信息的第一预测属性情感标签后,可以将第一预测属性情感标签作为第一原始文本信息的标注标签,采用文本生成模型对第一属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的预测属性情感标签,将第一预测文本信息的预测属性情感标签作为第二预测属性情感标签。
S104、根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
计算机设备可以根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型;即根据该第一原始文本信息、该第一预测文本信息调整文本生成模型生成文本信息的质量,根据该第一预测属性情感标签以及该第二预测属性情感标签,调整文本生成模型生成文本信息的属性级别的情感控制准确度。上述目标文本信息为具有目标属性情感标签的文本信息,目标属性情感标签可以根据目标对象的属性信息,以及目标对象的属性信息的情感信息所生成的,目标对象的属性信息的情感信息是由用户对目标对象的属性进行评分得到的或者进行编辑得到的。
本申请中,计算机设备通过对第一原始文本信息进行标签识别,得到第一原始文本信息的第一预测属性情感标签;采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的第二预测属性情感标签。根据第一原始文本信息、第一预测文本信息、第一预测属性情感标签、第二预测属性情感标签对文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,即目标文本信息具有目标属性情感标签。即通过对原始文本信息进行标签识别,得到原始评论信息的预测属性情感标签,不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型生成文本的准确度。
可选的,上述步骤S104可包括如下步骤s11和s12。
s11、根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的无标注标签的损失值。
s12、若该文本生成模型的无标注标签的损失值不满足收敛条件,则根据该文本生成模型的无标注标签的损失值,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
在步骤s11和s12中,计算机设备可以根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的无标注标签的损失值;该文本生成模型的无标注标签的损失值可以是指:采用无标注标签的原始文本信息对文本生成模型进行训练时,文本生成模型的损失值。该文本生成模型的无标注标签的损失值用于反映文本生成模型生成文本信息的准确度,即如果该文本生成模型的无标注标签的损失值不满足收敛条件,表明该文本生成模型生成文本信息的准确度比较低,因此,可以根据该文本生成模型的无标注标签的损失值,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。如果该文本生成模型的无标注标签的损失值满足收敛条件,表明该文本生成模型生成文本信息的准确度比较高,因此,可以将文本生成模型确定为目标文本生成模型。通过根据该文本生成模型的无标注标签的损失值,对该文本生成模型进行调整,可实现采用无监督方式对文本生成模型进行训练,不需要人工对大量原始文本信息进行标注,可提高文本生成模型生成文本的准确度,以及提高文本生成模型的训练效率。
可选的,上述步骤s12可包括如下步骤s21~s23。
s21、根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的文本识别损失值,作为第一文本识别损失值。
s22、根据该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的属性情感识别损失值,作为第一属性情感识别损失值。
s23、获取该第一文本识别损失值和该第一属性情感识别损失值之间的和,得到该文本生成模型的无标注标签的损失值。
在步骤s21~s23中,计算机设备可以根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的文本识别损失值,将该文本生成模型的文本识别损失值作为第一文本识别损失值。即第一文本识别损失值用于反映文本生成模型生成文本的质量,也即用于反映第一原始文本信息与第一预测文本信息之间的差异,第一原始文本信息与第一预测文本信息之间的差异越大,第一文本识别损失值越大;反之,第一原始文本信息与第一预测文本信息之间的差异越小,第一文本识别损失值越小。进一步,可以根据该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的属性情感识别损失值,作为第一属性情感识别损失值,即第一属性情感识别损失值用于反映文本生成模型对文本信息的属性情感标签的控制准确度;也即反映第一预测属性情感标签与该第二预测属性情感标签之间的差异。第一预测属性情感标签与该第二预测属性情感标签之间的差异越大,第一属性情感识别损失值越大,文本生成模型对文本信息的属性情感标签的控制准确度越低;反之,第一预测属性情感标签与该第二预测属性情感标签之间的差异越小,第一属性情感识别损失值越小,文本生成模型对文本信息的属性情感标签的控制准确度越高。在计算机设备获取到第一文本识别损失值和第一属性情感识别损失值之后,可以获取该第一文本识别损失值和该第一属性情感识别损失值之间的和,得到该文本生成模型的无标注标签的损失值。通过获取该第一文本识别损失值和该第一属性情感识别损失值之间的和,得到该文本生成模型的无标注标签的损失值,可实现根据该第一文本识别损失值和该第一属性情感识别损失值,对文本生成模型进行训练,可提高文本生成模型生成文本信息的质量,以及提高文本生成模型对文本信息的属性级别的情感控制准确度。
例如,该文本生成模型的无标注标签的损失值可以采用如下公式(1)表示。
Figure BDA0002676577940000131
其中,公式(1)中
Figure BDA0002676577940000132
为文本生成模型的无标注标签的损失值,
Figure BDA0002676577940000133
为文本生成模型的文本识别损失值,Lsq为文本生成模型的属性情感损失值。
可选的,该第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签,该第二预测属性情感标签包括第二预测属性标签以及第二预测情感标签;如图4所示,上述步骤s22可包括如下步骤s31~s34。
s31、根据该第一预测属性标签生成该文本生成模型的属性识别置信度,根据该第一预测情感标签生成该文本生成模型的情感识别置信度。
s32、根据该属性识别置信度以及该第二预测属性标签生成该文本生成模型的属性识别损失值,作为第一属性识别损失值。
s33、根据该情感识别置信度以及该第二预测情感标签生成该文本生成模型的情感识别损失值,作为第一情感识别损失值。
s34、获取该第一属性识别损失值与该第一情感识别损失值之间的和,得到该第一属性情感识别损失值。
在步骤s31~s34中,该第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签,第一预测属性标签可以用于反映第一原始文本信息具有的属性信息,第一预测情感标签可用于反映用户针对第一原始文本信息具有的情感信息。该第二预测属性情感标签包括第二预测属性标签以及第二预测情感标签;第二预测属性标签可以用于反映第一预测文本信息具有的属性信息,第二预测情感标签可用于反映用户针对第一预测文本信息具有的情感信息。对于无标注标签的原始文本信息,利用标签识别模型所生成的第一预测属性情感标签作为文本生成模型的输入,考虑到第一预测属性情感标签带来的噪音,为文本生成模型引入置信机制,即将第一预测属性情感标签对应的预测概率作为置信度,引入到文本生成模型的属性情感识别损失值中,有利于提高文本生成模型生成文本的准确度。
具体的,计算机设备可根据该第一预测属性标签生成该文本生成模型的属性识别置信度,根据该第一预测情感标签生成该文本生成模型的情感识别置信度;即根据该第一预测属性标签对应的预测概率生成该文本生成模型的属性识别置信度,根据该第一预测情感标签对应的预测概率生成该文本生成模型的情感识别置信度。然后,可根据该属性识别置信度以及该第二预测属性标签对应预测概率生成该文本生成模型的属性识别损失值,作为第一属性识别损失值;根据该情感识别置信度以及该第二预测情感标签对应的预测概率生成该文本生成模型的情感识别损失值,作为第一情感识别损失值。可获取该第一属性识别损失值与该第一情感识别损失值之间的和,得到该第一属性情感识别损失值;通过根据标签识别模型的所生成的第一预测属性情感标签,生成属性识别置信度以及情感识别置信度,将属性识别置信度以及情感识别置信度引入文本生成模型的属性情感损失值中,可避免标签识别模型所生成的第一预测属性情感标签所带来的噪音,有利于提高文本生成模型对文本信息的属性级别的情感控制准确度。
例如,该文本生成模型的属性情感损失值可以采用如下公式(2)表示。
Figure BDA0002676577940000141
其中,公式(2)中
Figure BDA0002676577940000142
为文本生成模型的属性识别损失值,
Figure BDA0002676577940000143
为文本生成模型的情感识别损失值;该文本生成模型的属性识别损失值可以采用如下公式(3)表示。
Figure BDA0002676577940000151
其中,公式(3)中,
Figure BDA0002676577940000152
表示第一预测文本信息的第i个文本句子的第二属性标签ai对应的概率,
Figure BDA0002676577940000153
表示原始文本信息中第i个文本句子的第一预测属性标签a′i对应的频率。
Figure BDA0002676577940000154
表示文本生成模型的属性识别置信度,α为文本生成模型的超参数,Ix()表示指定元素在向量中的索引。该文本生成模型的情感识别损失值可以采用如下公式(4)表示。
Figure BDA0002676577940000155
其中,公式(4)中,
Figure BDA0002676577940000156
表示第一预测文本信息的第i个文本句子的第二情感标签yi对应的概率,
Figure BDA0002676577940000157
表示原始文本信息中第i个文本句子的第一预测情感标签y′i对应的概率。
Figure BDA0002676577940000158
表示文本生成模型的情感识别置信度,β为文本生成模型的超参数。
可选的,如图4所示,上述步骤s21可包括如下步骤s41~s42。
s41、根据该属性识别置信度以及该情感识别置信度,确定该文本生成模型的属性情感置信度。
s42、根据该属性情感置信度、该第一原始文本信息以及该第一预测文本信息,确定该第一文本识别损失值。
在步骤s41~s42中,同理,考虑到第一预测属性情感标签带来的噪音,为文本生成模型引入置信机制,即将第一预测属性情感标签对应的预测概率作为置信度,引入到文本生成模型的文本识别损失值中,有利于提高文本生成模型生成文本的准确度。具体的,计算机设备可以根据该属性识别置信度以及该情感识别置信度,确定该文本生成模型的属性情感置信度,如该文本生成模型的属性情感置信度可以是通过对该属性识别置信度与该情感识别置信度进行求和、求积等运算得到的。进一步,可以根据该属性情感置信度、该第一原始文本信息以及该第一预测文本信息,确定该第一文本识别损失值,通过根据标签识别模型的所生成的第一预测属性情感标签,生成属性情感识别置信度,将属性情感识别置信度引入文本生成模型的文本识别损失值中,可避免标签识别模型所生成的第一预测属性情感标签所带来的噪音,有利于提高文本生成模型生成文本信息的质量。
例如,该第一文本识别损失值可以采用如下公式(5)表示。
Figure BDA0002676577940000161
其中,公式(5)中,pi,t为该第一预测文本信息中第i个文本句子的第t个词对应的生成概率,
Figure BDA0002676577940000162
文本生成模型的属性情感识别置信度。
基于上述的描述,请参见图5,是本申请实施例提供的一种文本信息生成方法的流程示意图。该方法可由计算机设备来执行,该计算机设备可以是指图1中的服务设备或终端,如图5所示,该文本信息生成方法可以包括如下步骤S201~S204。
S201、获取第一原始文本信息以及第二原始文本信息;该第二原始文本信息具有第一标注属性情感标签。
计算机设备可以从网页页面或应用程序的界面等文本应用平台中获取第一原始文本信息以及第二原始文本信息,第二原始文本信息具有第一标注属性情感标签;即第一原始文本信息属于无标注标签的原始文本信息,第二原始文本信息属于具有标注标签的原始文本信息,第二原始文本信息的第一标注属性情感标签可以是指由人工标注得到的。
S202、对该第一原始文本信息进行标签识别,得到该第一原始文本信息的第一预测属性情感标签。
计算机设备可以将第一原始文本信息输入至标签识别模型,由标签识别模型对第一原始文本信息进行标签识别,得到该第一原始文本信息的预测属性情感标签,将该第一原始文本信息的预测属性情感标签作为第一预测属性情感标签。
S203、采用文本生成模型对该第一预测属性情感标签进行文本预测,得到第一预测文本信息,对该第一预测文本信息进行标签预测,得到该第一预测文本信息的第二预测属性情感标签,且对该第一标注属性情感标签进行文本预测,得到第二预测文本信息,对该第二预测文本信息进行标签预测,得到该第二预测文本信息的第三预测属性情感标签。
在获取到第一原始文本信息的第一预测属性情感标签后,可以将第一预测属性情感标签作为第一原始文本信息的标注标签,采用文本生成模型对第一属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的预测属性情感标签,将第一预测文本信息的预测属性情感标签作为第二预测属性情感标签。且对该第一标注属性情感标签进行文本预测,得到第二预测文本信息,对该第二预测文本信息进行标签预测,得到该第二预测文本信息的第三预测属性情感标签。
S204、根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签、该第二预测属性情感标签、该第二原始文本信息、该第二预测文本信息、该第一标注属性情感标签以及该第三预测属性情感标签,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
计算机设备可以根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签、该第二预测属性情感标签、该第二原始文本信息、该第二预测文本信息、该第一标注属性情感标签以及该第三预测属性情感标签,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型;即根据该第一原始文本信息、该第一预测文本信息、该第二原始文本信息、该第二预测文本信息,调整文本生成模型生成文本信息的质量;根据该第一预测属性情感标签、该第二预测属性情感标签、该第一标注属性情感标签以及该第三预测属性情感标签,调整文本生成模型生成文本信息的属性级别的情感控制准确度。
本申请中,即通过对原始文本信息进行标签识别,得到原始评论信息的预测属性情感标签,并采用无标注标签的第一原始文本信息和具有标注标签的第二原始文本信息对文本生成模型进行训练,即可实现采用少量具有标注标签的原始文本信息以及大量无标注标签对文本生成模型进行训练;不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型生成文本的准确度。
可选的,上述步骤S204可包括如下步骤s51~s53。
s51、根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的无标注标签的损失值,作为第一损失值。
s52、根据该第二原始文本信息、该第二预测文本信息、该第一标注属性情感标签以及该第三预测属性情感标签,生成该文本生成模型的标注标签的损失值,作为第二损失值。
s53、根据该第一损失值和该第二损失值对该文本生成模型进行调整。
在步骤s51~s53中,计算机设备可以根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的无标注标签的损失值,作为第一损失值;该文本生成模型的无标注标签的损失值可以是指:采用无标注标签的原始文本信息对文本生成模型进行训练时,文本生成模型的损失值。进一步,可根据该第二原始文本信息、该第二预测文本信息、该第一标注属性情感标签以及该第三预测属性情感标签,生成该文本生成模型的标注标签的损失值,作为第二损失值;该文本生成模型的标注标签的损失值可以是指:采用具有标注标签的原始文本信息对文本生成模型进行训练时,文本生成模型的损失值。可根据该第一损失值和该第二损失值对该文本生成模型进行调整;通过根据该文本生成模型的无标注标签的损失值以及文本生成模型的标注标签的损失值,对该文本生成模型进行调整,可实现采用半监督方式对文本生成模型进行训练,不需要人工对大量原始文本信息进行标注,可提高文本生成模型生成文本的准确度,以及提高文本生成模型的训练效率。
需要说明的是,上述根据该第一原始文本信息、该第一预测文本信息、该第一预测属性情感标签以及该第二预测属性情感标签,生成该文本生成模型的无标注标签的损失值的实现方式,可以参考图1中生成该文本生成模型的无标注标签的损失值的实现方式,重复之处,不再赘述。
可选的,上述步骤s53可包括如下步骤s61~s62。
s61、获取该第一损失值和该第二损失值之间的和,得到该文本生成模型的总损失值。
s62、若该文本生成模型的总损失值不满足收敛状态,则根据该文本生成模型的总损失值,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
在步骤s61~s62中,计算机设备可以获取该第一损失值和该第二损失值之间的和,得到该文本生成模型的总损失值,该文本生成模型的总损失值用于反映文本生成模型生成文本信息的准确度,即如果该文本生成模型的总损失值不满足收敛条件,表明该文本生成模型生成文本信息的准确度比较低,因此,可以根据该文本生成模型的总损失值,对该文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。如果该文本生成模型的总损失值满足收敛条件,表明该文本生成模型生成文本信息的准确度比较高,可将该文本生成模型作为目标文本生成模型。通过文本生成模型的无标注标签的损失值与标注标签的损失值之间的和,对文本生成模型进行调整,可实现采用少量标注标签的原始文本信息结合大量具有标注标签的原始文本信息,对文本生成模型进行训练,不需要人工对大量原始文本信息进行标注,可提高文本生成模型生成文本的准确度,以及提高文本生成模型的训练效率。
例如,该文本生成模型的总损失值可以采用如下公式(6)表示。
Figure BDA0002676577940000191
其中,公式(6)中,Lz表示文本生成模型的总损失值,
Figure BDA0002676577940000192
表示文本生成模型的无标注标签的损失值,
Figure BDA0002676577940000193
表示文本生成模型的标注标签的损失值。文本生成模型的标注标签的损失值可以采用如下公式(7)表示。
Figure BDA0002676577940000194
其中,公式(7)中
Figure BDA0002676577940000195
为具有标注标签下文本生成模型生成第一预测文本信息中的文本识别损失值,
Figure BDA0002676577940000196
具有标注标签下文本生成模型的属性识别损失值,
Figure BDA0002676577940000197
表示具有标注标签下文本生成模型情感识别损失值。具有标注标签下文本生成模型生成第一预测文本信息中的文本识别损失值、属性识别损失值、情感识别损失值可分别采用如下公式(8)、公式(9)以及公式(10)表示。
Figure BDA0002676577940000198
Figure BDA0002676577940000199
Figure BDA00026765779400001910
可选的,该文本生成模型包括特征提取层、文本识别层、标签识别层;
上述步骤S103以及步骤S203中的采用文本生成模型对该第一预测属性情感标签进行文本预测,得到第一预测文本信息,对该第一预测文本信息进行标签预测,得到该第一预测文本信息的第二预测属性情感标签,可包括如下步骤s71~s73。
s71、采用该特征提取层对该第一预测属性情感标签进行特征提取,得到标签特征信息。
s72、采用该文本识别层对该标签特征信息进行文本预测,得到该第一预测文本信息。
s73、采用该标签识别层对该第一预测文本信息进行标签预测,得到该第二预测属性情感标签。
在步骤s71~s73中,如图6所示,计算机设备可以采用该特征提取层对该第一预测属性情感标签进行特征提取,得到标签特征信息,标签特征信息用于反映第一原始文本信息的属性标签以及情感标签;可采用该文本识别层对该标签特征信息进行文本预测,得到该第一预测文本信息,并采用标签识别层对第一预测文本信息进行标签预测,得到第二预测属性情感标签。
可选的,该第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签;该第一预测属性标签用于反映该第一原始文本信息对应的对象的属性,该第一预测情感标签用于反映针对该第一原始文本信息对应的对象的属性的评分;上述步骤s73可包括如下步骤s81~s85。
s81、采用该特征提取层获取该对象的属性的评分对应分布函数。
s82、对该分布函数进行采样处理,得到该对象的属性的评分对应的统计特征信息。
s83、获取该对象的属性的评分之和,得到该对象的总体评分。
s84、对该对象的总体评分进行特征提取,得到该对象的总体特征信息。
s85、对该对象的总体特征信息以及该统计特征信息进行拼接处理,得到该标签特征信息。
在步骤s81~s85中,计算机设备可以采用该特征提取层获取该对象的属性的评分对应分布函数,该分布函数可以是指高斯分布函数或者其他函数;对该分布函数进行采样处理,得到该对象的属性的评分对应统计特征信息,即该统计特征信息可以是指第一预测属性情感标签的属性情感联合特征向量。进一步可以获取该对象的属性的评分之和,得到该对象的总体评分,对该对象的总体评分进行特征提取,得到该对象的总体特征信息,对该对象的总体特征信息以及该统计特征信息进行拼接处理,得到该标签特征信息。通过获取该对象的总体特征信息以及该统计特征信息(属性情感联合特征向量),可提高特征信息的多样性,进而,可以生成多个维度的文本信息,提高所生成文本信息的多样性。
例如,计算机设备可以采用该特征提取层获取该对象的属性的评分对应多维高斯分布函数,对该多维高斯分布函数进行采样处理,得到该对象的属性的评分对应的统计特征信息,即该对象的属性情感的联合特征向量。该对象的属性情感联合特征向量可采用如下公式(11)表示。
Figure BDA0002676577940000211
其中,zi表示该对象的属性情感联合特征向量,μ表示该对象的属性的评分的均值向量,∑表示该对象的属性的评分的协方差矩阵;μ和∑是由第一原始文本信息中第i个文本句子的第一预测属性标签a′i和第一预测情感标签y′i确定的。该对象的总体特征信息可以采用如下公式(12)表示。
oi=MLP([u,p,s,ci]) (12)
其中,公式(12)中,oi表示该对象的总体特征信息,u表示编辑第一原始文本信息的用户标识,p表示对象,s该对象的总体情感特征,ci表示第一原始文本信息中的前i-1个文本句子的句子向量。第一原始文本信息中的前i-1个文本句子的句子向量ci可以采用如下公式(13)表示。
ci=MLP(ci-1,xi-1) (13)
其中,公式(13)中,xi-1表示第一预测文本信息中的第i-1个文本句子的句子向量,第一原始文本信息中的第i-1个文本句子的句子向量可以采用如下公式(14)表示。
xi-1=Conv([xi-1,1,…,xi-1,m]) (14)
其中,公式(14)中,第一原始文本信息中的第i-1个文本句子的句子向量是对第一原始文本信息中第i-1个文本句子中的单词进行卷积处理得到的。m为第一原始文本信息中的第i-1个文本句子中的单词数量。该对象的总体特征信息和属性情感的联合特征向量后,可以将该对象的总体特征信息和属性情感的联合特征向量输入至该标签识别层,该标签识别层可以是指由门控循环单元(Gate Recurrent Unit,GRU)所构成的解码器。标签识别层生成第一预测文本信息的方式可以采用如下公式(15)-公式(18)表示。
Figure BDA0002676577940000212
Figure BDA0002676577940000213
Figure BDA0002676577940000221
Figure BDA0002676577940000222
从公式(15)-公式(18)可知,该标签识别层包括多层感知层、门控循环单元以及逻辑层,首先将该对象的总体特征信息和属性情感的联合特征向量输入至多层感知层,得到门控循环单元的隐层状态初始值
Figure BDA0002676577940000223
根据门控循环单元的隐层状态的初始值以及第一原始文本信息中第i个文本句子中的第t个词xi,t的向量,生成门控循环单元的各个隐层状态
Figure BDA0002676577940000224
根据门控循环单元的各个隐层状态以及逻辑层的权重WG生成,第一预测文本信息中第i个文本句子中的第t个词的概率
Figure BDA0002676577940000225
公式(18)的[]j表示向量的第j个维度。
为了提升文本生成模型生成文本信息的属性级别的情感控制准确度,该文本生成模型包括该标签识别层,该该标签识别层对该第一预测文本信息进行标签预测,得到该第二预测属性情感标签的过程可采用如下公式(19)-公式(21)表示。
Figure BDA0002676577940000226
Figure BDA0002676577940000227
Figure BDA0002676577940000228
从公式(19)-公式(21)可知,该标签识别层可包括平均池化层以及逻辑层,平均池化层用于对门控循环单元的各个隐层状态进行平均化处理,得到隐层状态的平均值
Figure BDA0002676577940000229
逻辑层用于根据隐层状态的平均值以及逻辑层的权重WGa生成第一预测文本信息中第i个文本句子的预测属性标签对应的概率
Figure BDA00026765779400002210
且根据隐层状态的平均值以及逻辑层的权重WGy生成第一预测文本信息中第i个文本句子的预测情感标签对应的概率
Figure BDA00026765779400002211
可选的,标签识别模型包括门控循环单元GRU、多层感知层以及逻辑层;上述采用标签识别模型对该第一原始文本信息进行标签识别,得到该第一原始文本信息的第一预测属性情感标签,包括:采用门控循环单元对第一原始文本信息进行编码,得到门控循环单元在时刻t的隐层状态
Figure BDA00026765779400002212
门控循环单元在时刻t的隐层状态可以采用如下公式(22)表示。
Figure BDA0002676577940000231
然后,引入注意力机制,根据门控循环单元在时刻t的隐层状态生成第一原始文本信息的预测属性标签的向量
Figure BDA0002676577940000232
第一原始文本信息的预测属性标签的向量可以采用如下公式(23)表示。
Figure BDA0002676577940000233
在公式(23)中,
Figure BDA0002676577940000234
表示标签识别模型的在t时刻的隐层的注意力权重,隐层的注意力权重可以是根据标签识别模型的参数向量V以及隐层状态确定的,该隐层的注意力权重可以采用公式(24)表示。
Figure BDA0002676577940000235
类似地,可根据门控循环单元在时刻t的隐层状态生成第一原始文本信息的预测属性标签的向量
Figure BDA0002676577940000236
第一原始文本信息的预测属性标签的向量
Figure BDA0002676577940000237
和第一原始文本信息的预测属性标签的向量
Figure BDA0002676577940000238
输入多层感知层和逻辑层,得到第一原始文本信息对应的第一预测属性标签的概率
Figure BDA0002676577940000239
和第一预测情感标签的概率
Figure BDA00026765779400002310
第一预测属性标签的概率
Figure BDA00026765779400002311
和第一预测情感标签的概率
Figure BDA00026765779400002312
可分别采用如下公式(25)和公式(26)表示。
Figure BDA00026765779400002313
Figure BDA00026765779400002314
其中,公式(25)的WCa和公式(26)的WCy均为标签识别模型的参数矩阵。
可选的,图3或图5的文本信息生成方法可包括如下步骤s91~s94。
s91、获取第三原始文本信息。
s92、采用该标签识别模型对该第三原始文本信息进行标签识别,得到该第三原始文本信息的预测属性情感标签,作为第四预测属性情感标签。
s93、若调整后的文本生成模型的损失值满足收敛条件,则采用该调整后的文本生成模型对该第四预测属性情感标签进行文本预测,得到第三预测文本信息。
s94、根据该第三预测文本信息以及第三原始文本信息,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。
在步骤s91~s94中,在调整后的文本生成模型的损失值满足收敛状态时,即在调整后的文本生成模型为增强文本生成模型时,可以根据调整后的文本生成模型对标签识别模型进行训练,以提高标签识别模型识别标签的能力,进而可以采用标签识别模型来训练调整后的文本生成模型,即文本生成模型与标签识别模型形成相互学习的框架。上述调整后的文本生成模型的损失值可以是指调整后的文本生成模型的无标注标签的损失值,或者可以是指调整后的文本生成模型的标注标签的损失值和无标注标签的损失值之间的和。具体的,在调整后的文本生成模型的损失值处于收敛状态时,可以采用无监督方式对标签识别模型进行训练,即采用无标注标签的原始文本信息对标签识别模型进行训练。即计算机设备可以从网页页面或应用程序的界面等文本应用平台中获取第三原始文本信息,第三原始文本信息可以是指无标注标签的原始文本信息;采用该标签识别模型对该第三原始文本信息进行标签识别,得到该第三原始文本信息的预测属性情感标签,将该第三原始文本信息的预测属性情感标签作为第四预测属性情感标签。若调整后的文本生成模型的损失值满足收敛条件,则采用该调整后的文本生成模型对该第四预测属性情感标签进行文本预测,得到第三预测文本信息。进一步,可根据该第三预测文本信息以及第三原始文本信息,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型;即根据该第三预测文本信息以及第三原始文本信息,调整该标签识别模型的标签识别能力。通过采用增强的文本生成模型,对标签识别模型进行训练,以便得到增强的标签识别模型,增强的标签识别模型可用于对调整后的文本生成模型进行训练,即文本生成模型和标签识别模型形成互相学习的框架,可提高标签识别模型的标签识别的准确度,以及提高文本生成模型生成文本信息的准确度。且在训练标签识别模型的过程中,通过采用无标注标签的第三原始文本信息对标签识别模型进行训练,不需要人工对大量原始文本信息进行标注,提高标签识别模型的训练效率。
可选的,上述步骤s94可包括如下步骤s111~s112。
s111、根据该第三预测文本信息以及第三原始文本信息,生成该标签识别模型的无标注标签的损失值。
s112、若该标签识别模型的无标注标签的损失值不满足收敛条件,则根据该标签识别模型的无标注标签的损失值,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。
在步骤s111~s112中,计算机设备可以根据该第三预测文本信息以及第三原始文本信息,生成该标签识别模型的无标注标签的损失值;该标签识别模型的无标注标签的损失值可以是指:采用无标注标签的原始文本信息对标签识别模型训练时,该标签识别模型的损失值,该标签识别模型的无标注标签的损失值用于反映:标签识别模型的标签识别的准确度。如果该标签识别模型的无标注标签的损失值不满足收敛条件,表明该标签识别模型的标签识别的准确度比较低;因此,根据该标签识别模型的无标注标签的损失值,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。如果该标签识别模型的无标注标签的损失值满足收敛条件,表明该标签识别模型的标签识别的准确度比较高;因此,将该标签识别模型作为目标标签识别模型。通过采用标签识别模型的无标注损失值对标签识别模型进行调整,有利于提高标签识别模型的标签识别准确度。
可选的,上述步骤s111可包括如下步骤s211~s212。
s211、根据该第三预测文本信息生成该标签识别模型的重构权重。
s212、根据该重构权重以及第三原始文本信息,确定该标签识别模型的无标注标签的损失值。
在步骤s211~s212中,如图7所示,对于无标注标签的原始文本信息,由于真实的属性情感标签未知,因此,可以引入重构奖励函数训练标签识别模型,以提高标签识别模型的标签识别准确度。具体的,可以将调整后的文本生成模型所生成的第三预测文本信息对应的概率生成标签识别模型的重构权重,根据该重构权重以及第三原始文本信息,确定该标签识别模型的无标注标签的损失值。在训练标签识别模型的过程中,通过引入重构奖励函数(即重构权重),可提高标签识别模型的标签识别准确度。
例如,可以根据该第三预测文本信息对应的预测概率构建重构函数,该重构函数可以采用如下公式(27)表示。
Figure BDA0002676577940000251
其中,公式(27)中,ak′和yk′分别表示由标签识别模型所输出的该第三原始文本信息的第k个文本句子的预测属性标签以及预测情感标签,
Figure BDA0002676577940000252
表示调整后的文本生成模型根据ak′和yk′所生成的第三预测文本信息对应的概率。考虑到调整后的文本生成模型生成文本信息的准确度较低,所带来的噪声影响,此处引入阈值λ约束重构奖励函数,得到重构权重,该重构权重可以采用如下公式(28)表示。
Figure BDA0002676577940000261
在公式(28)中的阈值λ可以是根据调整后的文本生成模型生成文本信息的准确度确定的,或者,可以是人工设置的。然后,可根据该重构权重、该第四预测属性情感标签和该第五预测属性情感标签,确定该标签识别模型的无标注标签的损失值,该标签识别模型的无标注标签的损失值可采用如下公式(29)表示。
Figure BDA0002676577940000262
在公式(29)中,
Figure BDA0002676577940000263
Figure BDA0002676577940000264
分别为标签识别模型所输出的该第三原始文本信息的第k个文本句子的预测属性标签ak′的概率以及预测情感标签yk′的概率,
Figure BDA0002676577940000265
表示计算
Figure BDA0002676577940000266
的期望。
可选的,图3或图5的文本信息生成方法可包括如下步骤s311~s314。
s311、获取第三原始文本信息以及第四原始文本信息;该第四原始文本信息具有第二标注属性情感标签。
s312、采用该标签识别模型对该第三原始文本信息进行标签识别,得到第四预测属性情感标签,以及对该第四原始文本信息进行标签识别,得到第五预测属性情感标签。
s313、若调整后的文本生成模型的损失值满足收敛条件,则采用该调整后的文本生成模型对该第四预测属性情感标签进行文本预测,得到第三预测文本信息。
s314、根据该第三预测文本信息、第三原始文本信息、该第五预测属性情感标签以及该第二标注属性情感标签,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。
在步骤s311~s314中,在调整后的文本生成模型的损失值处于收敛状态时,即调整后的文本生成模型为增强的文本生成模型时,可以采用半监督方式对标签识别模型进行训练,即采用无标注标签的原始文本信息结合具有标注标签的原始文本信息对标签识别模型进行训练。具体的,计算机设备可以从网页页面或应用程序的界面等文本应用平台中获取第三原始文本信息以及第四原始文本信息;该第四原始文本信息具有第二标注属性情感标签;即第三原始文本信息为无标注标签的原始文本信息,第四原始文本信息可以是指具有标注标签的原始文本信息。进一步,可采用该标签识别模型对该第三原始文本信息进行标签识别,得到第四预测属性情感标签,以及对该第四原始文本信息进行标签识别,得到第五预测属性情感标签。若调整后的文本生成模型的损失值满足收敛条件,则采用该调整后的文本生成模型对该第四预测属性情感标签进行文本预测,得到第三预测文本信息。根据该第三预测文本信息、第三原始文本信息、该第五预测属性情感标签以及该第二标注属性情感标签,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。通过采用无标注标签的第三原始文本信息以及具有标注标签的第四原始文本信息对标签识别模型进行训练,即可实现采用大量无标注标签的原始文本信息以及少量具有标注标签的原始文本信息对标签识别模型进行训练,不需要人工对大量原始文本信息进行标注,提高标签识别模型的训练效率,提高标签识别模型识别标签的准确度。
可选的,上述步骤s314可包括如下步骤s411~s413。
s411、根据该第三预测文本信息以及第三原始文本信息,生成该标签识别模型的无标注标签的损失值。
s412、根据该第五预测属性情感标签以及该第二标注属性情感标签,生成该标签识别模型的标注标签的损失值。
s413、根据该标签识别模型的无标注标签的损失值和该标签识别模型的标注标签的损失值,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。
在步骤s411~s413中,计算机设备可以根据该第三预测文本信息以及第三原始文本信息,生成该标签识别模型的无标注标签的损失值;即该标签识别模型的无标注标签的损失值可以是指:采用无标注标签的原始文本信息对标签识别模型训练时,该标签识别模型的损失值。可根据该第五预测属性情感标签以及该第二标注属性情感标签,生成该标签识别模型的标注标签的损失值;即该标签识别模型的标注标签的损失值可以是指:采用具有标注标签的原始文本信息对标签识别模型训练时,该标签识别模型的损失值。该标签识别模型的无标注标签的损失值以及标注标签损失值均可用于反映:标签识别模型的标签识别的准确度;因此,可根据该标签识别模型的无标注标签的损失值和该标签识别模型的标注标签的损失值,对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。例如,可获取该标签识别模型的无标注标签的损失值与该标签识别模型的标注标签的损失值之间的和,得到标签识别模型的总损失值,如果标签识别模型的总损失值满足收敛条件,则将该标签识别模型作为目标标签识别模型;如果该标签识别模型的总损失值不满足收敛条件,则可根据该标签识别模型的总损失值对该标签识别模型进行调整,得到用于对该调整后的文本生成模型进行训练的目标标签识别模型。
需要说明的是,步骤s411中根据该第三预测文本信息以及第三原始文本信息,生成该标签识别模型的无标注标签的损失值的实现过程,可参考上述步骤s111中生成该标签识别模型的无标注标签的损失值的实现过程,重复之处,不再赘述。
例如,对于具有标注标签的原始文本信息,该标签识别模型的无标注标签的损失值可以根据预测属性情感标签与标注属性情感标签的交叉熵得到。该标签识别模型的无标注标签的损失值可以采用如下公式(30)表示。
Figure BDA0002676577940000281
在公式(30)中,
Figure BDA0002676577940000282
表示第四原始文本信息的第k个文本句子的预测属性标签对应的概率;
Figure BDA0002676577940000283
表示第四原始文本信息的第k个文本句子的预测情感标签对应的概率。
基于上述的描述,请参见图8,是本申请实施例提供的一种文本信息生成方法的流程示意图。该方法可由计算机设备来执行,该计算机设备可以是指图1中的服务设备或终端,如图8所示,该文本信息生成方法可以包括如下步骤S301~S303。
S301、获取该目标对象的属性信息,以及针对该目标对象的属性信息的情感信息。
目标对象的属性信息可以是指评论场景中需要评论的对象的属性信息;或是指对话场景中的对话内容的关键词,或者是指文学创作场景中的文章(诗歌)所描述对象的属性信息。目标对象的属性信息的情感信息可以是指由用户所输入的,用于反映用户对目标对象的属性信息的满意程度、或反映用户对目标对象的属性信息的喜好。
S302、根据该目标对象的属性信息,以及该目标对象的属性信息的情感信息,生成该目标对象的目标属性情感标签。
计算机设备可以根据该目标对象的属性信息,以及该目标对象的属性信息的情感信息,生成该目标对象的目标属性情感标签,该目标对象的属性情感标签包括目标对象的属性标签以及目标对象的情感标签。
S303、采用目标文本生成模型,对该目标属性情感标签进行文本识别,得到目标文本信息;该目标文本生成模型是采用该文本信息生成方法对文本生成模型调整得到的。
计算机设备可以采用目标文本生成模型,对该目标属性情感标签进行文本识别,得到目标文本信息;即该目标文本信息具有目标属性情感标签,该目标文本生成模型为增强的文本生成模型。通过采用目标文本生成模型可生成具有属性情感标签的文本信息,可实现文本信息的属性级别的情感控制,提高生成文本信息的多样性和丰富性;且不需要用户手动编辑文本信息,提高生成文本信息的效率。
例如,在评论生成场景中,该情感信息为目标对象的评分信息,当用户购买或体验目标对象后,可以对目标对象的属性信息进行评分;相应地,计算机设备可以获取目标对象的属性信息,以及用户针对该目标对象的属性信息的评分信息。例如,该目标对象为用户从网络上购买的物品,则该目标对象的属性信息包括外观、价格、物流以及性能等等中的至少一种;又如,该目标对象为用户所就餐的饭店,该目标对象的属性信息包括环境、价格、服务等等中的至少一种。针对该目标对象的属性信息的评分信息可以是指用户对该目标对象的属性信息的满意程度,可用数字或符号等表示。进一步,根据该目标对象的属性信息,以及该目标对象的属性信息的情感信息,生成该目标对象的目标属性情感标签,该目标对象的属性情感标签包括目标对象的属性标签以及情感标签;该目标对象的属性标签为目标对象的属性信息,该目标对象的情感标签可以包括积极(即好评)、中立、消极(差评)。然后,可以采用目标文本生成模型对该目标对象的情感属性标签进行文本识别,得到目标文本信息,该目标文本信息为目标对象的评论文本。
又如,在文学创作场景中,如用户需要创作一篇诗歌时,用户可以输入诗歌所要描述的目标对象,以及该目标对象的属性信息,以及该目标对象的属性信息对应的情感信息;相应地,计算机设备可以获取用户所输入的目标对象的属性进行以及情感信息。例如,诗歌所要描述的目标对象为“故乡”,目标对象的属性信息为故乡的山、水、人等;山、水对应的情感信息可以为喜欢,人对应情感信息可以为敬爱等。该目标对象的属性标签为目标对象的属性信息,该目标对象的情感标签可以包括喜欢、悲凉、欢快、敬爱等等。然后,可以采用目标文本生成模型对该目标对象的情感属性标签进行文本识别,得到目标文本信息,该目标文本信息为所生成的诗歌。
在本申请中,通过根据目标对象的属性信息,以及目标对象的属性信息的情感信息生成目标对象的属性情感标签,采用目标文本生成模型对目标对象的属性情感标签进行文本识别,得到目标文本信息;通过采用目标文本生成模型可生成具有属性情感标签的文本信息,可实现文本信息的属性级别的情感控制,提高生成文本信息的多样性和丰富性;且不需要用户手动编辑文本信息,提高生成文本信息的效率。
可选的,该目标对象的属性情感标签包括该目标对象的属性标签以及针对该目标对象的属性信息的情感标签;
上述步骤S103可包括如下步骤s511~s514。
s511、采用该目标文本生成模型,根据针对该目标对象的属性信息的情感标签,确定该目标对象的总体情感标签。
s512、对该目标对象的总体情感标签进行总体文本识别,得到该目标对象的总体文本信息。
s513、对该目标对象的属性标签以及针对该目标对象的属性信息的情感标签进行属性文本识别,生成该目标对象的属性信息对应的文本信息。
s514、根据该目标对象的总体文本信息以及该目标对象的属性信息对应的文本信息,生成该目标文本信息。
在步骤s511~s514中,计算机设备可以采用该目标文本生成模型,根据针对该目标对象的属性信息的情感标签,确定该目标对象的总体情感标签;目标对象的总体情感标签用于反映用户对目标对象的总体的满意程度。可对该目标对象的总体情感标签进行总体文本识别,得到该目标对象的总体文本信息,对该目标对象的属性标签以及针对该目标对象的属性信息的情感标签进行属性文本识别,生成该目标对象的属性信息对应的文本信息。此处该目标对象的总体文本信息用于描述用户对目标对象的综合满意程度,该目标对象的属性信息对应的文本信息用于描述用户对目标对象的属性信息的满足程度。进一步,可对该目标对象的总体文本信息以及该目标对象的属性信息对应的文本信息进行排列,得到该目标文本信息。通过根据目标对象的总体情感标签,以及目标对象的属性信息的情感标签,分别生成目标对象的总体文本信息以及目标对象的属性信息对应文本信息,即可生成目标对象多维度的文本信息,提高文本信息的多样性以及丰富性;且可实现文本信息的属性级别的情感控制,提高生成文本信息的准确度。
请参见图9,是本申请实施例提供的一种文本生成装置1的结构示意图。上述文本生成装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本生成装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该文本生成装置可以包括:
获取模块901,用于获取第一原始文本信息;
标签识别模块902,用于对所述第一原始文本信息进行标签识别,得到所述第一原始文本信息的第一预测属性情感标签;
文本预测模块903,用于采用文本生成模型对所述第一预测属性情感标签进行文本预测,得到第一预测文本信息,对所述第一预测文本信息进行标签预测,得到所述第一预测文本信息的第二预测属性情感标签;
调整模块904,用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,调整模块904,具体用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值;
若所述文本生成模型的无标注标签的损失值不满足收敛条件,则根据所述文本生成模型的无标注标签的损失值,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,调整模块904,具体用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的文本识别损失值,作为第一文本识别损失值;
根据所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的属性情感识别损失值,作为第一属性情感识别损失值;
获取所述第一文本识别损失值和所述第一属性情感识别损失值之间的和,得到所述文本生成模型的无标注标签的损失值。
可选的,所述第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签,所述第二预测属性情感标签包括第二预测属性标签以及第二预测情感标签;调整模块904,具体用于根据所述第一预测属性标签生成所述文本生成模型的属性识别置信度,根据所述第一预测情感标签生成所述文本生成模型的情感识别置信度;
根据所述属性识别置信度以及所述第二预测属性标签生成所述文本生成模型的属性识别损失值,作为第一属性识别损失值;
根据所述情感识别置信度以及所述第二预测情感标签生成所述文本生成模型的情感识别损失值,作为第一情感识别损失值;
获取所述第一属性识别损失值与所述第一情感识别损失值之间的和,得到所述第一属性情感识别损失值。
可选的,调整模块904,具体用于根据所述属性识别置信度以及所述情感识别置信度,确定所述文本生成模型的属性情感置信度;
根据所述属性情感置信度、所述第一原始文本信息以及所述第一预测文本信息,确定所述第一文本识别损失值。
根据本申请的一个实施例,图3所示的文本信息生成方法所涉及的步骤可由图9所示的文本生成装置中的各个模块来执行。例如,图3中所示的步骤S101可由图9中的获取模块901来执行,图3中所示的步骤S102可由图9中的标签识别模块902来执行;图3中所示的步骤S103可由图9中的文本预测模块903来执行;图3中所示的步骤S104可由图9中的调整模块904来执行。
根据本申请的一个实施例,图9所示的文本生成装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,文本生成装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9中所示的文本生成装置,以及来实现本申请实施例的文本信息生成方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请中,计算机设备通过标签识别模型对第一原始文本信息进行标签识别,得到第一原始文本信息的第一预测属性情感标签;采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的第二预测属性情感标签。根据第一原始文本信息、第一预测文本信息、第一预测属性情感标签、第二预测属性情感标签对文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,即目标文本信息具有目标属性情感标签。通过对原始文本信息进行标签识别,得到原始评论信息的第一预测属性情感标签,将该第一预测属性情感标签作为原始文本信息的标注标签;不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型生成文本的准确度。
可选的,获取模块901,用于第二原始文本信息;所述第二原始文本信息具有第一标注属性情感标签;
文本预测模块903,用于采用文本生成模型对所述第一标注属性情感标签进行文本预测,得到第二预测文本信息,对所述第二预测文本信息进行标签预测,得到所述第二预测文本信息的第三预测属性情感标签;
调整模块904,用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签、所述第二预测属性情感标签、所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,调整模块904,具体用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值,作为第一损失值;
根据所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,生成所述文本生成模型的标注标签的损失值,作为第二损失值;
根据所述第一损失值和所述第二损失值对所述文本生成模型进行调整。
可选的,调整模块904,具体用于获取所述第一损失值和所述第二损失值之间的和,得到所述文本生成模型的总损失值;
若所述文本生成模型的总损失值不满足收敛状态,则根据所述文本生成模型的总损失值,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,所述文本生成模型包括特征提取层、文本识别层、标签识别层;
可选的,标签识别模块902,具体用于采用所述特征提取层对所述第一预测属性情感标签进行特征提取,得到标签特征信息;
采用所述文本识别层对所述标签特征信息进行文本预测,得到所述第一预测文本信息;
采用所述标签识别层对所述第一预测文本信息进行标签预测,得到所述第二预测属性情感标签。
可选的,所述第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签;所述第一预测属性标签用于反映所述第一原始文本信息对应的对象的属性,所述第一预测情感标签用于反映针对所述第一原始文本信息对应的对象的属性的评分;标签识别模块902,具体用于采用所述特征提取层获取所述对象的属性的评分对应分布函数;
对所述分布函数进行采样处理,得到所述对象的属性的评分对应的统计特征信息;
获取所述对象的属性的评分之和,得到所述对象的总体评分;
对所述对象的总体评分进行特征提取,得到所述对象的总体特征信息;
对所述对象的总体特征信息以及所述统计特征信息进行拼接处理,得到所述标签特征信息。
可选的,获取模块901,还用于获取第三原始文本信息;
可选的,标签识别模块902,还用于采用所述标签识别模型对所述第三原始文本信息进行标签识别,得到所述第三原始文本信息的预测属性情感标签,作为第四预测属性情感标签;
可选的,文本预测模块903,还用于若调整后的文本生成模型的损失值满足收敛条件,则采用所述调整后的文本生成模型对所述第四预测属性情感标签进行文本预测,得到第三预测文本信息;
可选的,调整模块904,还用于根据所述第三预测文本信息以及所述第三原始文本信息,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,调整模块904,具体用于根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值;
若所述标签识别模型的无标注标签的损失值不满足收敛条件,则根据所述标签识别模型的无标注标签的损失值,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,调整模块904,具体用于根据所述第三预测文本信息生成所述标签识别模型的重构权重;
根据所述重构权重、所述第四预测属性情感标签和所述第五预测属性情感标签,确定所述标签识别模型的无标注标签的损失值。
可选的,获取模块901,还用于获取第三原始文本信息以及第四原始文本信息;所述第四原始文本信息具有第二标注属性情感标签;
可选的,标签识别模块902,用于采用所述标签识别模型对所述第三原始文本信息进行标签识别,得到第四预测属性情感标签,以及对所述第四原始文本信息进行标签识别,得到第五预测属性情感标签;
可选的,文本预测模块903,用于若调整后的文本生成模型的损失值满足收敛条件,则采用所述调整后的文本生成模型对所述第四预测属性情感标签进行文本预测,得到第三预测文本信息,对所述第三预测文本信息进行标签预测,得到第五预测属性情感标签;
可选的,调整模块904,用于根据所述第三预测文本信息、第三原始文本信息、所述第五预测属性情感标签以及所述第二标注属性情感标签,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,调整模块904,用于根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值;
根据所述第五预测属性情感标签以及所述第二标注属性情感标签,生成所述标签识别模型的标注标签的损失值;
根据所述标签识别模型的无标注标签的损失值和所述标签识别模型的标注标签的损失值,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
本申请中,即通过对原始文本信息进行标签识别,得到原始评论信息的预测属性情感标签,并采用无标注标签的第一原始文本信息和具有标注标签的第二原始文本信息对文本生成模型进行训练,即可实现采用少量具有标注标签的原始文本信息以及大量无标注标签对文本生成模型进行训练;不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型生成文本的准确度。
请参见图10,是本申请实施例提供的一种文本生成装置2的结构示意图。上述文本生成装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本生成装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该文本生成装置可以包括:
获取模块110,用于获取所述目标对象的属性信息,以及针对所述目标对象的属性信息的情感信息;
生成模块111,用于根据所述目标对象的属性信息,以及所述目标对象的属性信息的情感信息,生成所述目标对象的目标属性情感标签;
文本识别模块112,用于采用目标文本生成模型,对所述目标属性情感标签进行文本识别,得到目标文本信息;所述目标文本生成模型是采用如所述文本信息生成方法对文本生成模型调整得到的。
可选的,文本识别模块112,具体用于采用所述目标文本生成模型,根据针对所述目标对象的属性信息的情感标签,确定所述目标对象的总体情感标签;
对所述目标对象的总体情感标签进行总体文本识别,得到所述目标对象的总体文本信息;
对所述目标对象的属性标签以及针对所述目标对象的属性信息的情感标签进行属性文本识别,生成所述目标对象的属性信息对应的文本信息;
根据所述目标对象的总体文本信息以及所述目标对象的属性信息对应的文本信息,生成所述目标文本信息。
在本申请中,通过根据目标对象的属性信息,以及目标对象的属性信息的情感信息生成目标对象的属性情感标签,采用目标文本生成模型对目标对象的属性情感标签进行文本识别,得到目标文本信息;通过采用目标文本生成模型可生成具有属性情感标签的文本信息,可实现文本信息的属性级别的情感控制,提高生成文本信息的多样性和丰富性;且不需要用户手动编辑文本信息,提高生成文本信息的效率。
请参见图11,是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第一原始文本信息;
对所述第一原始文本信息进行标签识别,得到所述第一原始文本信息的第一预测属性情感标签;
采用文本生成模型对所述第一预测属性情感标签进行文本预测,得到第一预测文本信息,对所述第一预测文本信息进行标签预测,得到所述第一预测文本信息的第二预测属性情感标签;
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值;
若所述文本生成模型的无标注标签的损失值不满足收敛条件,则根据所述文本生成模型的无标注标签的损失值,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的文本识别损失值,作为第一文本识别损失值;
根据所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的属性情感识别损失值,作为第一属性情感识别损失值;
获取所述第一文本识别损失值和所述第一属性情感识别损失值之间的和,得到所述文本生成模型的无标注标签的损失值。
可选的,所述第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签,所述第二预测属性情感标签包括第二预测属性标签以及第二预测情感标签;
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第一预测属性标签生成所述文本生成模型的属性识别置信度,根据所述第一预测情感标签生成所述文本生成模型的情感识别置信度;
根据所述属性识别置信度以及所述第二预测属性标签生成所述文本生成模型的属性识别损失值,作为第一属性识别损失值;
根据所述情感识别置信度以及所述第二预测情感标签生成所述文本生成模型的情感识别损失值,作为第一情感识别损失值;
获取所述第一属性识别损失值与所述第一情感识别损失值之间的和,得到所述第一属性情感识别损失值。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述属性识别置信度以及所述情感识别置信度,确定所述文本生成模型的属性情感置信度;
根据所述属性情感置信度、所述第一原始文本信息以及所述第一预测文本信息,确定所述第一文本识别损失值。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第二原始文本信息;所述第二原始文本信息具有第一标注属性情感标签;
采用文本生成模型对所述第一标注属性情感标签进行文本预测,得到第二预测文本信息,对所述第二预测文本信息进行标签预测,得到所述第二预测文本信息的第三预测属性情感标签;
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签、所述第二预测属性情感标签、所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值,作为第一损失值;
根据所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,生成所述文本生成模型的标注标签的损失值,作为第二损失值;
根据所述第一损失值和所述第二损失值对所述文本生成模型进行调整。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取所述第一损失值和所述第二损失值之间的和,得到所述文本生成模型的总损失值;
若所述文本生成模型的总损失值不满足收敛状态,则根据所述文本生成模型的总损失值,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
可选的,所述文本生成模型包括特征提取层、文本识别层、标签识别层;
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
采用所述特征提取层对所述第一预测属性情感标签进行特征提取,得到标签特征信息;
采用所述文本识别层对所述标签特征信息进行文本预测,得到所述第一预测文本信息;
采用所述标签识别层对所述第一预测文本信息进行标签预测,得到所述第二预测属性情感标签。
可选的,所述第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签;所述第一预测属性标签用于反映所述第一原始文本信息对应的对象的属性,所述第一预测情感标签用于反映针对所述第一原始文本信息对应的对象的属性的评分;
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
采用所述特征提取层获取所述对象的属性的评分对应分布函数;
对所述分布函数进行采样处理,得到所述对象的属性的评分对应的统计特征信息;
获取所述对象的属性的评分之和,得到所述对象的总体评分;
对所述对象的总体评分进行特征提取,得到所述对象的总体特征信息;
对所述对象的总体特征信息以及所述统计特征信息进行拼接处理,得到所述标签特征信息。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第三原始文本信息;
采用所述标签识别模型对所述第三原始文本信息进行标签识别,得到所述第三原始文本信息的预测属性情感标签,作为第四预测属性情感标签;
若调整后的文本生成模型的损失值满足收敛条件,则采用所述调整后的文本生成模型对所述第四预测属性情感标签进行文本预测,得到第三预测文本信息;
根据所述第三预测文本信息以及所述第三原始文本信息,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值;
若所述标签识别模型的无标注标签的损失值不满足收敛条件,则根据所述标签识别模型的无标注标签的损失值,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第三预测文本信息生成所述标签识别模型的重构权重;
根据所述重构权重、所述第四预测属性情感标签和所述第五预测属性情感标签,确定所述标签识别模型的无标注标签的损失值。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取第三原始文本信息以及第四原始文本信息;所述第四原始文本信息具有第二标注属性情感标签;
采用所述标签识别模型对所述第三原始文本信息进行标签识别,得到第四预测属性情感标签,以及对所述第四原始文本信息进行标签识别,得到第五预测属性情感标签;
若调整后的文本生成模型的损失值满足收敛条件,则采用所述调整后的文本生成模型对所述第四预测属性情感标签进行文本预测,得到第三预测文本信息,对所述第三预测文本信息进行标签预测,得到第五预测属性情感标签;
根据所述第三预测文本信息、第三原始文本信息、所述第五预测属性情感标签以及所述第二标注属性情感标签,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值;
根据所述第五预测属性情感标签以及所述第二标注属性情感标签,生成所述标签识别模型的标注标签的损失值;
根据所述标签识别模型的无标注标签的损失值和所述标签识别模型的标注标签的损失值,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取所述目标对象的属性信息,以及针对所述目标对象的属性信息的情感信息;
根据所述目标对象的属性信息,以及所述目标对象的属性信息的情感信息,生成所述目标对象的目标属性情感标签;
采用目标文本生成模型,对所述目标属性情感标签进行文本识别,得到目标文本信息;所述目标文本生成模型是采用所述文本信息生成方法对文本生成模型调整得到的。
可选的,所述目标对象的属性情感标签包括所述目标对象的属性标签以及针对所述目标对象的属性信息的情感标签;
可选的,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
采用所述目标文本生成模型,根据针对所述目标对象的属性信息的情感标签,确定所述目标对象的总体情感标签;
对所述目标对象的总体情感标签进行总体文本识别,得到所述目标对象的总体文本信息;
对所述目标对象的属性标签以及针对所述目标对象的属性信息的情感标签进行属性文本识别,生成所述目标对象的属性信息对应的文本信息;
根据所述目标对象的总体文本信息以及所述目标对象的属性信息对应的文本信息,生成所述目标文本信息。
本申请中,计算机设备通过对第一原始文本信息进行标签识别,得到第一原始文本信息的第一预测属性情感标签;采用文本生成模型对第一预测属性情感标签进行文本预测,得到第一预测文本信息,对第一预测文本信息进行标签预测,得到第一预测文本信息的第二预测属性情感标签。根据第一原始文本信息、第一预测文本信息、第一预测属性情感标签、第二预测属性情感标签对文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,即目标文本信息具有目标属性情感标签。即通过对原始文本信息进行标签识别,得到原始评论信息的第一预测属性情感标签,将该第一预测属性情感标签作为原始文本信息的标注标签;不需要人工对大量原始文本信息进行标注,能够降低训练文本生成模型的复杂度,提高对文本生成模型训练的效率;能够使训练后(即调整后)的文本生成模型具有生成属于属性情感标签的文本信息的能力,可准确控制文本信息的属性级别的情感,提高文本生成模型生成文本的准确度。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图5以及前文图8所对应实施例中对上述文本信息生成方法的描述,也可执行前文图9-图10所对应实施例中对上述文本生成装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本身请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备能够执行前文图3、图5和图8对应实施例中对上述文本信息生成方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random AccessMemory,RAM)等。以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种文本信息生成方法,其特征在于,包括:
获取第一原始文本信息;
对所述第一原始文本信息进行标签识别,得到所述第一原始文本信息的第一预测属性情感标签;
采用文本生成模型对所述第一预测属性情感标签进行文本预测,得到第一预测文本信息,对所述第一预测文本信息进行标签预测,得到所述第一预测文本信息的第二预测属性情感标签;
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,包括:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值;
若所述文本生成模型的无标注标签的损失值不满足收敛条件,则根据所述文本生成模型的无标注标签的损失值,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值,包括:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的文本识别损失值,作为第一文本识别损失值;
根据所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的属性情感识别损失值,作为第一属性情感识别损失值;
获取所述第一文本识别损失值和所述第一属性情感识别损失值之间的和,得到所述文本生成模型的无标注标签的损失值。
4.如权利要求3所述的方法,其特征在于,所述第一预测属性情感标签包括第一预测属性标签以及第一预测情感标签,所述第二预测属性情感标签包括第二预测属性标签以及第二预测情感标签;
所述根据所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的属性情感识别损失值,作为第一属性情感识别损失值,包括:
根据所述第一预测属性标签生成所述文本生成模型的属性识别置信度,根据所述第一预测情感标签生成所述文本生成模型的情感识别置信度;
根据所述属性识别置信度以及所述第二预测属性标签生成所述文本生成模型的属性识别损失值,作为第一属性识别损失值;
根据所述情感识别置信度以及所述第二预测情感标签生成所述文本生成模型的情感识别损失值,作为第一情感识别损失值;
获取所述第一属性识别损失值与所述第一情感识别损失值之间的和,得到所述第一属性情感识别损失值。
5.如权利要求4所述的方法,其特征在于,所述根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的文本识别损失值,作为第一文本识别损失值,包括:
根据所述属性识别置信度以及所述情感识别置信度,确定所述文本生成模型的属性情感置信度;
根据所述属性情感置信度、所述第一原始文本信息以及所述第一预测文本信息,确定所述第一文本识别损失值。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二原始文本信息;所述第二原始文本信息具有第一标注属性情感标签;
采用所述文本生成模型对所述第一标注属性情感标签进行文本预测,得到第二预测文本信息,对所述第二预测文本信息进行标签预测,得到所述第二预测文本信息的第三预测属性情感标签;
所述根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,包括:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签、所述第二预测属性情感标签、所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
7.如权利要求6所述的方法,其特征在于,所述根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签、所述第二预测属性情感标签、所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型,包括:
根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,生成所述文本生成模型的无标注标签的损失值,作为第一损失值;
根据所述第二原始文本信息、所述第二预测文本信息、所述第一标注属性情感标签以及所述第三预测属性情感标签,生成所述文本生成模型的标注标签的损失值,作为第二损失值;
根据所述第一损失值和所述第二损失值对所述文本生成模型进行调整。
8.如权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
获取第三原始文本信息;
采用标签识别模型对所述第三原始文本信息进行标签识别,得到所述第三原始文本信息的预测属性情感标签,作为第四预测属性情感标签;
若调整后的文本生成模型的损失值满足收敛条件,则采用所述调整后的文本生成模型对所述第四预测属性情感标签进行文本预测,得到第三预测文本信息;
根据所述第三预测文本信息以及所述第三原始文本信息,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
9.如权利要求8所述的方法,其特征在于,所述根据所述第三预测文本信息以及所述第三原始文本信息,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型,包括:
根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值;
若所述标签识别模型的无标注标签的损失值不满足收敛条件,则根据所述标签识别模型的无标注标签的损失值,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
10.如权利要求9所述的方法,其特征在于,所述根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值,包括:
根据所述第三预测文本信息生成所述标签识别模型的重构权重;
根据所述重构权重以及所述第三原始文本信息,确定所述标签识别模型的无标注标签的损失值。
11.如权利要求8所述的方法,其特征在于,所述方法还包括:
获取第四原始文本信息;所述第四原始文本信息具有第二标注属性情感标签;
采用所述标签识别模型对所述第四原始文本信息进行标签识别,得到第五预测属性情感标签;
所述根据所述第三预测文本信息以及所述第三原始文本信息,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型,包括:
根据所述第三预测文本信息、所述第三原始文本信息、所述第五预测属性情感标签以及所述第二标注属性情感标签,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
12.如权利要求11所述的方法,其特征在于,所述根据所述第三预测文本信息、所述第三原始文本信息、所述第五预测属性情感标签以及所述第二标注属性情感标签,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型,包括:
根据所述第三预测文本信息以及所述第三原始文本信息,生成所述标签识别模型的无标注标签的损失值;
根据所述第五预测属性情感标签以及所述第二标注属性情感标签,生成所述标签识别模型的标注标签的损失值;
根据所述标签识别模型的无标注标签的损失值和所述标签识别模型的标注标签的损失值,对所述标签识别模型进行调整,得到用于对所述调整后的文本生成模型进行训练的目标标签识别模型。
13.一种文本信息生成方法,其特征在于,包括:
获取所述目标对象的属性信息,以及针对所述目标对象的属性信息的情感信息;
根据所述目标对象的属性信息,以及所述目标对象的属性信息的情感信息,生成所述目标对象的目标属性情感标签;
采用目标文本生成模型,对所述目标属性情感标签进行文本识别,得到目标文本信息;所述目标文本生成模型是采用如权利要求1-12任一项所述文本信息生成方法对文本生成模型调整得到的。
14.一种文本信息生成装置,其特征在于,包括:
获取模块,用于获取第一原始文本信息;
标签识别模块,用于对所述第一原始文本信息进行标签识别,得到所述第一原始文本信息的第一预测属性情感标签;
文本预测模块,用于采用文本生成模型对所述第一预测属性情感标签进行文本预测,得到第一预测文本信息,对所述第一预测文本信息进行标签预测,得到所述第一预测文本信息的第二预测属性情感标签;
调整模块,用于根据所述第一原始文本信息、所述第一预测文本信息、所述第一预测属性情感标签以及所述第二预测属性情感标签,对所述文本生成模型进行调整,得到用于生成目标文本信息的目标文本生成模型。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-13任一项所述的方法。
CN202010949883.6A 2020-09-10 2020-09-10 文本信息生成方法、装置、存储介质及设备 Pending CN112100375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010949883.6A CN112100375A (zh) 2020-09-10 2020-09-10 文本信息生成方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010949883.6A CN112100375A (zh) 2020-09-10 2020-09-10 文本信息生成方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN112100375A true CN112100375A (zh) 2020-12-18

Family

ID=73752305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010949883.6A Pending CN112100375A (zh) 2020-09-10 2020-09-10 文本信息生成方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112100375A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257393A (zh) * 2020-12-22 2021-01-22 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113268562A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113378576A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食品安全数据挖掘方法
CN113643700A (zh) * 2021-07-27 2021-11-12 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统
CN115714002A (zh) * 2022-09-06 2023-02-24 湖南工商大学 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257393A (zh) * 2020-12-22 2021-01-22 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
US11675983B2 (en) 2020-12-22 2023-06-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Implementing text generation
CN113065336A (zh) * 2021-05-06 2021-07-02 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113065336B (zh) * 2021-05-06 2022-11-25 清华大学深圳国际研究生院 一种基于深度学习和内容规划的文本自动生成方法及装置
CN113378576A (zh) * 2021-05-08 2021-09-10 重庆航天信息有限公司 食品安全数据挖掘方法
CN113378576B (zh) * 2021-05-08 2023-05-26 重庆航天信息有限公司 食品安全数据挖掘方法
CN113268562A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113268562B (zh) * 2021-05-24 2022-05-13 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113643700A (zh) * 2021-07-27 2021-11-12 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统
CN113643700B (zh) * 2021-07-27 2024-02-27 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统
CN115714002A (zh) * 2022-09-06 2023-02-24 湖南工商大学 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
CN115714002B (zh) * 2022-09-06 2023-08-11 湖南工商大学 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备

Similar Documents

Publication Publication Date Title
CN111444709B (zh) 文本分类方法、装置、存储介质及设备
CN112100375A (zh) 文本信息生成方法、装置、存储介质及设备
CN113157965B (zh) 音频可视化模型训练及音频可视化方法、装置及设备
CN111325571B (zh) 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN110796160A (zh) 一种文本分类方法、装置和存储介质
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN111666400A (zh) 消息获取方法、装置、计算机设备及存储介质
CN117216535A (zh) 推荐文本生成模型的训练方法、装置、设备及介质
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
CN116541492A (zh) 一种数据处理方法及相关设备
Zarzour et al. Sentiment analysis based on deep learning methods for explainable recommendations with reviews
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115688758A (zh) 一种语句意图识别方法、装置和存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN114048319B (zh) 基于注意力机制的幽默文本分类方法、装置、设备、介质
CN116910539A (zh) 一种客户异议识别模型的训练方法、装置、设备及介质
Quan et al. For better and quicker understanding of how users feel: an optimized sentiment classification model for long comments on social networks
CN117151113A (zh) 一种结合情景消息的对话情感检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination