CN116226677A - 平行语料构建方法及装置、存储介质及电子设备 - Google Patents

平行语料构建方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116226677A
CN116226677A CN202310515441.4A CN202310515441A CN116226677A CN 116226677 A CN116226677 A CN 116226677A CN 202310515441 A CN202310515441 A CN 202310515441A CN 116226677 A CN116226677 A CN 116226677A
Authority
CN
China
Prior art keywords
corpus
comment
text
original
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310515441.4A
Other languages
English (en)
Other versions
CN116226677B (zh
Inventor
黎斯思
亓克娜
王卿云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN202310515441.4A priority Critical patent/CN116226677B/zh
Publication of CN116226677A publication Critical patent/CN116226677A/zh
Application granted granted Critical
Publication of CN116226677B publication Critical patent/CN116226677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Multi Processors (AREA)

Abstract

本发明提供一种平行语料构建方法及装置、存储介质及电子设备,该方法包括:确定多个原始语料,其中包括多个文本语料和多个具有特定语言风格的评论语料;对每个原始语料进行关键词提取处理,得到每个原始语料对应的关键词集合;依据每个原始语料对应的关键词集合,确定每个原始语料对应的情感类型;依据各个原始语料对应的情感类型,在多个评论语料中,确定每个文本语料对应的目标评论语料;依据预设的评论改写策略,对每个文本语料对应的目标评论语料进行改写处理,得到每个文本语料对应的改写评论语料;将每个文本语料及其对应的改写评论语料作为一组平行语料。应用本发明的方法,可提高平行语料的构建效率,提高平行语料的质量。

Description

平行语料构建方法及装置、存储介质及电子设备
技术领域
本发明涉及机器学习技术领域,特别是涉及一种平行语料构建方法及装置、存储介质及电子设备。
背景技术
在新闻网站等具有评论互动的媒体平台的运营领域中,通常会将平台上发布的文本内容,如新闻,输入经训练的预训练语言模型,通过模型生成相应的评论内容,将生成的评论内容发布在对应的评论区,以提高平台用户的参与度和互动性。
而预训练语言模型生成评论的质量与模型训练的样本质量息息相关。在模型训练中,用于模型训练的一组输入文本和输出文本存在对应关系,称为平行语料,故在评论生成任务中,用于模型训练的文本语料及其对应的评论语料是一对平行语料。
目前,通常是通过人工标注数据构建平行语料,继而得到平行语料库。基于现有方式,平行语料的构建过程需耗费大量的人力和时间,平行语料构建效率较低。其次,基于现有方式构建得到的平行语料受到标注人员文化水平、喜好偏见等个人主观因素影响,语料质量不稳定,容易对后续模型训练效果造成不良影响。
发明内容
有鉴于此,本发明实施例提供了一种平行语料构建方法,以解决现有的平行语料构建方法,费时费力,且语料质量不稳定,易对训练效果造成不良影响的问题。
本发明实施例还提供了一种平行语料构建装置,用以保证上述方法实际中的实现及应用。
为实现上述目的,本发明实施例提供如下技术方案:
一种平行语料构建方法,包括:
确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
上述的方法,可选的,所述对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合,包括:
基于预设的第一关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第一关键词集合;所述第一关键词提取算法为基于词频-逆向文件频率设置的关键词提取算法;
基于预设的第二关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第二关键词集合;所述第二关键词提取算法为基于词性标注工具设置的关键词提取算法;
对于每个所述原始语料,将该原始语料对应的第一关键词集合和第二关键词集合进行合并处理,将合并结果作为该原始语料对应的关键词集合。
上述的方法,可选的,所述依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型,包括:
对于每个所述原始语料,将该原始语料对应的关键词集合输入预先构建的情感分类模型,经所述情感分类模型处理后,获取所述情感分类模型输出的情感分类结果,并将该情感分类结果作为该原始语料对应的情感类型。
上述的方法,可选的,所述依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料,包括:
对于每个所述文本语料,在所述多个评论语料中,确定该文本语料对应的各个候选评论语料,每个所述候选评论语料对应的情感类型与该文本语料对应的情感类型相同;
对于每个所述文本语料,确定该文本语料对应的相似度集合,该相似度集合包括该文本语料与其对应的每个候选评论语料之间的相似度;
对于每个所述文本语料,依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料。
上述的方法,可选的,所述确定该文本语料对应的相似度集合,包括:
依据该文本语料对应的关键词集合,构建该文本语料对应的关键词向量矩阵;
对于该文本语料对应的每个候选评论语料,依据该候选评论语料对应的关键词集合,构建该候选评论语料对应的关键词向量矩阵;
对于该文本语料对应的每个候选评论语料,将该候选评论语料对应的关键词向量矩阵与该文本语料对应的关键词向量矩阵进行乘积运算,将运算结果作为该候选评论语料与该文本语料之间的相似度;
将该文本语料与其对应的各个候选评论语料之间的相似度组成该文本语料对应的相似度集合。
上述的方法,可选的,所述依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料,包括:
判断该文本语料对应的相似度集合中是否存在大于预设阈值的相似度;
若该文本语料对应的相似度集合中存在大于所述预设阈值的相似度,则将该文本语料对应的相似度集合中大于所述预设阈值的相似度作为目标相似度;
在该文本语料对应的各个候选评论语料中,确定每个所述目标相似度对应的候选评论语料;
在各个所述目标相似度对应的候选评论语料中进行随机抽取操作,将随机抽取得到的候选评论语料作为该文本语料对应的目标评论语料。
上述的方法,可选的,所述依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料,包括:
基于预设的命名实体识别工具,对每个所述文本语料进行实体提取处理,得到每个所述文本语料对应的实体集合;每个所述实体集合包括至少一个实体对象;
对于每个所述文本语料对应的实体集合中的每个实体对象,基于预设的实体改写规则,对该实体对象进行实体改写处理,得到该实体对象对应的目标实体对象,将该目标实体对象作为该文本语料对应的改写实体对象;
对于每个所述文本语料对应的目标评论语料,依据该文本语料对应的每个改写实体对象,对该目标评论语料进行实体替换处理,得到该文本语料对应的实体改写评论语料;
对于每个所述文本语料对应的实体改写评论语料,基于预先构建的文本改写模型,对该实体改写评论语料进行文本改写处理,将文本改写结果作为该文本语料对应的改写评论语料。
一种平行语料构建装置,包括:
第一确定单元,用于确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
提取单元,用于对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
第二确定单元,用于依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
第三确定单元,用于依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
改写单元,用于依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
第四确定单元,用于对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的平行语料构建方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的平行语料构建方法。
基于上述本发明实施例提供的一种平行语料构建方法,包括:确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个评论语料为具有特定语言风格的语料;对每个原始语料进行关键词提取处理,得到每个原始语料对应的关键词集合;依据每个原始语料对应的关键词集合,确定每个原始语料对应的情感类型;依据各个原始语料对应的情感类型,在各个评论语料中,确定每个文本语料对应的目标评论语料;依据预设的评论改写策略,对每个文本语料对应的目标评论语料进行改写处理,得到每个文本语料对应的改写评论语料;对于每个文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。应用本发明实施例提供的方法,可基于情感分类,在原始的评论语料中,找到与文本语料具有情感关联的目标评论语料。通过对目标评论语料的改写,可使其与文本语料的内容关联,且使其内容区别于原始语料。此过程无需人工参与,便可基于原始语料构建出多组平行语料,可提高平行语料的构建效率,降低人工成本,同时可以避免人为因素引入噪声样本,有利于提高语料质量,继而改善模型效果。其次,由此生成的平行语料中的评论语料具有特定语言风格,有利于提高用户的互动性和参与度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种平行语料构建方法的方法流程图;
图2为本发明实施例提供的一种平行语料构建方法的又一方法流程图;
图3为本发明实施例提供的一种平行语料构建过程的示例图;
图4为本发明实施例提供的一种平行语料构建装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种平行语料构建方法,所述方法可应用于平行语料构建系统,其执行主体可以为系统的处理器,所述方法的方法流程图如图1所示,包括:
S101:确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
本发明实施例提供的方法中,可以通过网络爬取等数据收集方法,预先采集多个文本语料和多个具有特定语言风格的评论语料,得到文本语料库和评论语料库。例如,在生成具有浪漫主义语言风格的新闻评论的应用场景中,各个文本语料则为新闻语料,各个评论语料为具有浪漫主义语言风格的评论语料。又如,在生成具有幽默风格的作文评论的应用场景中,各个文本语料则为文章语料,各个评论语料为具有幽默风格的评论语料。将采集的各个文本语料和各个评论语料作为各个原始语料,即将文本语料库和评论语料库作为原始语料库。
S102:对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
本发明实施例提供的方法中,通过预设的关键词提取策略,提取每个原始语料中的一些词汇作为原始语料对应的关键词,由此得到每个原始语料对应的关键词集合,也就是可得到每个文本语料对应的关键词集合和每个评论语料对应的关键词集合。每个原始语料对应的关键词集合中包括至少一个关键词。具体的,可以识别语料中的名词、形容词等词性的词语作为语料的关键词。
S103:依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
本发明实施例提供的方法中,可以预先设置多种表征情感倾向的情感类型,例如以情感正向、情感负向等类别作为情感类型,又如以开心、愤怒、悲伤等类别作为情感类型。基于每个原始语料对应的关键词集合,在预先设置的各个情感类型中,确定每个原始语料对应的情感类型。例如,可以基于机器学习的方法构建情感分类模型,通过情感分类模型对原始语料的关键词集合进行情感识别,以确定原始语料对应的情感类型。也可以基于词典的分析方法,对关键词集合的情感进行分类,以确定原始语料对应的情感类型。还可以通过其他现有的文本情感分析的方式对原始语料的关键词集合进行情感分类,以识别原始语料对应的情感类型。
需要说明的是,确定原始语料对应的情感类型的方式可以根据实际需求设置,不影响本发明实施例提供的方法实现功能。
S104:依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
本发明实施例提供的方法中,可以基于评论语料和文本语料对应的情感类型,将文本语料与评论语料进行匹配,找到与文本语料相对应的目标评论语料。文本语料对应的情感类型与该文本语料对应的目标评论语料所对应的情感类型相同。例如,将各个评论语料中,其对应的情感类型与文本语料对应的情感类型相同的评论语料,作为与该文本语料相匹配的评论语料,可以在文本语料匹配的各个评论语料中,随机抽取一个评论语料作为目标评论语料。也可以在基于情感类型的基础上,进一步结合其他指标进行文本语料和评论语料的匹配,例如在基于情感类型获得文本语料匹配的各个评论语料后,进一步计算该文本语料与其匹配的每个评论语料之间的相似度,选取与该文本语料相似度最高的评论语料作为目标评论语料。
S105:依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
本发明实施例提供的方法中,可以根据实际需求设置评论改写策略,评论改写策略指的是对评论语料进行改写的策略,具体可以包括实体改写、语句改写等操作。通过预设的评论改写策略,对每个文本语料对应的目标评论语料进行改写,将改写后的目标评论语料作为相应的文本语料所对应的改写评论语料。
S106:对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
本发明实施例提供的方法中,将每个文本语料及其对应的改写评论语料作为一组平行语料,由此可得到各个文本语料及其对应的改写评论语料构成的各组平行语料,由各组平行语料构建平行语料库,用于训练评论生成任务中的预训练语言模型。
基于本发明实施例提供的方法,确定多个原始语料,其中包括多个文本语料和多个评论语料;每个评论语料为具有特定语言风格的语料;对每个原始语料进行关键词提取处理,得到每个原始语料对应的关键词集合;依据每个原始语料对应的关键词集合,确定每个原始语料对应的情感类型;依据各个原始语料对应的情感类型,在各个评论语料中,确定每个文本语料对应的目标评论语料;依据预设的评论改写策略,对每个文本语料对应的目标评论语料进行改写处理,得到每个文本语料对应的改写评论语料;对于每个文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。应用本发明实施例提供的方法,可基于情感分类,在原始的评论语料中,找到与文本语料具有情感关联的目标评论语料。通过对目标评论语料的改写,可使其与文本语料的内容关联,且使其内容区别于原始语料。此过程无需人工参与,便可基于原始语料构建出多组平行语料,可提高平行语料的构建效率,降低人工成本,同时可以避免人为因素引入噪声样本,有利于提高语料质量,继而改善模型效果。其次,由此生成的平行语料中的评论语料具有特定语言风格,有利于提高用户的互动性和参与度。
在图1所示方法的基础上,本发明实施例提供的方法中,步骤S102中提及的对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合的过程,包括:
基于预设的第一关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第一关键词集合;所述第一关键词提取算法为基于词频-逆向文件频率设置的关键词提取算法;
本发明实施例提供的方法中,预先基于词频-逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF)的算法设置关键词提取算法,该关键词提取算法即为第一关键词提取算法。基于TF-IDF的关键词提取算法是基于现有算法原理设置的,在此不作详细说明。对于每个原始语料,通过基于TF-IDF设置的关键词提取算法对其进行关键词提取操作,将提取得到的各个关键词组成该原始语料对应的第一关键词集合。
基于预设的第二关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第二关键词集合;所述第二关键词提取算法为基于词性标注工具设置的关键词提取算法;
本发明实施例提供的方法中,预先基于词性标注工具设置关键词提取算法,该关键词提取算法即为第二关键词提取算法。基于词性标注工具的关键词提取算法是基于现有算法原理设置的,在此不作详细说明。对于每个原始语料,通过基于词性标注工具设置的关键词提取算法对其进行关键词提取操作,将提取到的各个关键词组成该原始语料对应的第二关键词集合。
在实际的应用场景中,各个关键词提取算法可配置为对文本中出现的名词、形容词等词语进行识别,依次提取相应词性的词语作为文本的关键词,在基于每个关键词提取算法进行关键词提取操作的过程中,当满足预定的提取要求后,可结束关键词提取过程,预定的提取要求可以是提取的关键词的个数达到预定个数,也可以是完成整个文本的识别处理,具体可以根据实际需求设置,不影响本发明实施例提供的方法实现功能。
对于每个所述原始语料,将该原始语料对应的第一关键词集合和第二关键词集合进行合并处理,将合并结果作为该原始语料对应的关键词集合。
本发明实施例提供的方法中,对于每个原始语料,将其对应的第一关键词集合及其对应的第二关键词集合进行整合,将整合后得到的关键词集合作为该原始语料对应的关键词集合。也就是对每个原始语料对应的第一关键词集合及其对应的第二关键词集合取并集,将两个集合的并集作为相应的原始语料的关键词集合。
在图1所示方法的基础上,本发明实施例提供的方法中,步骤S103中提及的依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型的过程,包括:
对于每个所述原始语料,将该原始语料对应的关键词集合输入预先构建的情感分类模型,经所述情感分类模型处理后,获取所述情感分类模型输出的情感分类结果,并将该情感分类结果作为该原始语料对应的情感类型。
本发明实施例提供的方法中,基于预训练语言模型构建情感分类模型,即通过样本数据对预训练语言模型进行训练,得到实现情感分析的情感分类模型。具体的,可以采用BERT模型等现有的预训练语言模型构建情感分类模型。情感分类模型可基于输入模型的各个关键词进行文本情感分析,输出相应的情感分类。
本发明实施例提供的方法中,对于每个原始语料,可将其对应的关键词集合输入情感分类模型,使情感分类模型对关键词集合进行情感分析,输出相对应的情感分类结果,该情感分类结果即为该原始语料对应的情感类型。在情感分类模型的实际应用过程中,对于需要输入模型的关键词集合,可以将该关键词集合中的所有关键词用逗号进行词汇拼接,将拼接后的各个关键词作为一条输入数据,将该输入数据输入模型。
在图1所示方法的基础上,本发明实施例提供的方法中,步骤S104中提及的依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料的过程,包括:
对于每个所述文本语料,在所述多个评论语料中,确定该文本语料对应的各个候选评论语料,每个所述候选评论语料对应的情感类型与该文本语料对应的情感类型相同;
本发明实施例提供的方法中,对于每个文本语料,将各个评论语料中,其对应的情感类型与该文本语料对应的情感类型相同的评论语料,作为该文本语料对应的候选评论语料。具体的,可以按照情感类型对各个原始语料进行分组,将对应的情感类型相同的所有原始语料划分为一个语料组。对于每个文本语料,将与该文本语料处于同一个语料组的评论语料,作为该文本语料对应的候选评论语料。
对于每个所述文本语料,确定该文本语料对应的相似度集合,该相似度集合包括该文本语料与其对应的每个候选评论语料之间的相似度;
本发明实施例提供的方法中,可基于预设的相似度计算策略,计算每个文本语料与其对应的每个候选评论语料之间的相似度,由此得到每个文本语料对应的相似度集合。可以理解的是,文本语料对应的相似度集合中包括多个相似度,各个相似度与该文本语料对应的各个候选评论语料一一对应,每个相似度为其对应的候选评论语料与该文本语料之间的相似度。相似度计算策略可以基于现有的文本相似度算法进行设置,需要说明的是,相似度计算策略可以基于实际需求设置,不影响本发明实施例提供的方法实现功能。
对于每个所述文本语料,依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料。
本发明实施例提供的方法中,根据相似度的高低,在每个文本语料对应的各个候选评论语料中,选取一个候选评论语料作为该文本语料对应的目标评论语料。
在上述实施例提供的方法的基础上,本发明实施例提供的方法中,所述确定该文本语料对应的相似度集合的过程,包括:
依据该文本语料对应的关键词集合,构建该文本语料对应的关键词向量矩阵;
本发明实施例提供的方法中,可基于预先训练好的词语向量库,确定文本语料对应的关键词集合中每个关键词对应的向量表示,即关键词对应的词向量。基于关键词集合中各个关键词对应的向量表示,可构建该文本语料对应的关键词向量矩阵。
对于该文本语料对应的每个候选评论语料,依据该候选评论语料对应的关键词集合,构建该候选评论语料对应的关键词向量矩阵;
本发明实施例提供的方法中,对于候选评论语料对应的关键词集合,亦基于词语向量库,确定该关键词集合中每个关键词对应的向量表示,由该关键词集合中各个关键词的向量表示,构建该候选评论语料对应的关键词向量矩阵。
对于该文本语料对应的每个候选评论语料,将该候选评论语料对应的关键词向量矩阵与该文本语料对应的关键词向量矩阵进行乘积运算,将运算结果作为该候选评论语料与该文本语料之间的相似度;
本发明实施例提供的方法中,分别计算文本语料与其对应的每个候选评论语料之间的相似度。在文本语料与候选评论语料的相似度计算过程中,将该文本语料对应的关键词向量矩阵与该候选评论语料对应的关键词向量矩阵相乘,将两者的乘积作为该文本语料与该候选评论语料之间的相似度。
将该文本语料与其对应的各个候选评论语料之间的相似度组成该文本语料对应的相似度集合。
本发明实施例提供的方法中,将文本语料与该文本语料对应的各个候选评论语料之间的相似度组成该文本语料对应的相似度集合。
在上述实施例提供的方法的基础上,本发明实施例提供的方法中,所述依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料,包括:
判断该文本语料对应的相似度集合中是否存在大于预设阈值的相似度;
本发明实施例提供的方法中,根据实际需求预先设置了一个相似度的阈值。在确定文本语料对应的目标评论语料的过程中,将文本语料对应的相似度集合中的每个相似度与该预设阈值进行大小比较,以识别该相似度集合中是否存在大于预设阈值的相似度。本发明实施例提供的方法中,相似度的数值越大,其表征的相似程度越高。
若该文本语料对应的相似度集合中存在大于所述预设阈值的相似度,则将该文本语料对应的相似度集合中大于所述预设阈值的相似度作为目标相似度;
本发明实施例提供的方法中,如果文本语料对应的相似度集合中存在大于预设阈值的相似度,则将该相似度集合中每个大于该预设阈值的相似度作为目标相似度。
本发明实施例提供的方法中,若是文本语料对应的相似度集合中不存在大于预设阈值的相似度,可以将该相似度集合中数值最大的相似度所对应的候选评论语料作为该文本语料对应的目标评论语料。
在该文本语料对应的各个候选评论语料中,确定每个所述目标相似度对应的候选评论语料;
本发明实施例提供的方法中,根据相似度与候选评论语料的对应关系,在文本语料对应的各个候选评论语料中,确定每个目标相似度对应的候选评论语料。可以理解的是,目标相似度是文本语料与其对应的一个候选评论语料之间的相似度,在此相似关系中的候选评论语料即为该目标相似度对应的候选评论语料。
在各个所述目标相似度对应的候选评论语料中进行随机抽取操作,将随机抽取得到的候选评论语料作为该文本语料对应的目标评论语料。
本发明实施例提供的方法中,可以在各个目标相似度对应的候选评论语料中,随机抽取一个候选评论语料,将该候选评论语料作为该文本语料对应的目标评论语料。如果目标相似度仅有一个,可以直接将目标相似度对应的候选评论语料作为目标评论语料。
在图1所示方法的基础上,本发明实施例提供了又一种平行语料构建方法,如图2所示,本发明实施例提供的方法中,步骤S105中提及的依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料的过程,包括:
S201:基于预设的命名实体识别工具,对每个所述文本语料进行实体提取处理,得到每个所述文本语料对应的实体集合;每个所述实体集合包括至少一个实体对象;
本发明实施例提供的方法中,预先设置了命名实体识别工具,命名实体识别工具可用于识别文本中具有特定意义的实体,例如人名、地名、专有名词等。命名实体识别工具可以基于现有的实体识别技术进行配置,在此不作详细说明。
本发明实施例提供的方法中,对于每个文本语料,通过命名实体识别工具对该文本语料中的各类实体进行识别,提取该文本语料中的各个实体对象,由各个实体对象组成该文本语料对应的实体集合。例如,可以对文本语料中的人物实体、地点实体等类型的实体对象进行识别提取。
S202:对于每个所述文本语料对应的实体集合中的每个实体对象,基于预设的实体改写规则,对该实体对象进行实体改写处理,得到该实体对象对应的目标实体对象,将该目标实体对象作为该文本语料对应的改写实体对象;
本发明实施例提供的方法中,可以根据实际需求预先设置实体改写规则,即用于在实体对象的基础上,对其进行一些文本改写处理的规则。实体改写规则可以包括用于改写各类型实体对象的各个子规则。例如,子规则可以设置为基于前缀词库在实体对象上添加前缀文本,可以设置为基于后缀词库在实体对象上添加后缀文本,还可以基于其他实体改写的需求进行设置。
本发明实施例提供的方法中,对于每个实体集合中的实体对象,可基于实体改写规则,对该实体对象进行实体改写处理,将改写后得到的文本作为相应的文本语料对应的改写实体对象。具体的,在基于实体改写规则对实体对象进行实体改写处理的过程中,可以根据实体对象对应的实体类型,在实体改写规则的各个子规则中找到与其相对应的子规则,通过子规则的实体改写策略对该实体对象进行改写。例如对于人物实体,其对应的子规则为在预设的某一前缀词库中,抽取一个前缀文本对其进行改写,若当前进行处理的实体对象属于人物实体,则在相应的前缀词库中抽取一个前缀文本,将该前缀文本加到该实体对象的文本前面,得到“前缀文本-实体对象”的改写结果。
S203:对于每个所述文本语料对应的目标评论语料,依据该文本语料对应的每个改写实体对象,对该目标评论语料进行实体替换处理,得到该文本语料对应的实体改写评论语料;
本发明实施例提供的方法中,可预先设置各类型实体对象与评论语料中文本对象的替换关系,例如人物实体与人称代词进行替换、地点实体与地点实体进行替换等等。
本发明实施例提供的方法中,通过文本语料对应的各个改写实体对象,对该文本语料对应的目标评论语料进行实体替换处理,将经处理的目标评论语料作为该文本语料对应的实体改写评论语料。具体的,根据文本语料对应的每个改写实体对象的实体类型和预先设置的替换关系,在目标评论语料中识别每个改写实体对象所关联的文本对象,将目标评论语料中与改写实体对象相关联的文本对象替换为该改写实体对象,以对目标评论语料进行实体替换处理。例如,文本语料对应的各个改写实体对象为人物实体-文本A和地点实体-文本B,替换关系为文本语料的人物实体与评论语料中的人称代词进行替换,文本语料的地点实体与评论语料中的地点实体进行替换,故对目标评论语料中的人称代词和地点实体进行识别,得到目标评论语料中的人称代词-文本C和地点实体-文本D,将目标评论语料中的文本C替换为文本A,将目标评论语料中的文本D替换为文本B,经过上述实体替换处理的目标评论语料,即为相应的文本语料对应的实体改写评论语料。
S204:对于每个所述文本语料对应的实体改写评论语料,基于预先构建的文本改写模型,对该实体改写评论语料进行文本改写处理,将文本改写结果作为该文本语料对应的改写评论语料。
本发明实施例提供的方法中,预先基于文本改写技术构建文本改写模型,文本改写模型针对输入模型的文本数据进行文本改写,输出改写后的文本。文本改写模型可以基于RoFormer-Sim模型等现有文本改写模型进行设置。
本发明实施例提供的方法中,将每个文本语料对应的实体改写评论语料分别通过文本改写模型进行文本改写处理,将处理后得到的文本作为相应的文本语料所对应的改写评论语料。
基于本发明实施例提供的方法,可以通过实体改写处理,使与文本语料匹配的目标评论语料与该文本语料之间产生实体关联,并通过文本改写,在保证文本可读性的同时,使改写后的评论语料与原本的评论语料区别开。因为在实际的应用过程中,不同的文本语料可能匹配到的目标评论语料是相同的,通过文本改写,可以避免不同的文本语料关联的评论语料具有较大的相似性。
为了更好地说明本发明实施例提供的方法,在上述实施例提供的方法的基础上,结合实际的应用场景,本发明实施例提供了又一种平行语料构建方法。本发明实施例提供的方法应用于生成具有浪漫风格新闻评论的场景中,浪漫风格新闻评论指的是针对新闻内容生成的,具有浪漫主义语言风格的评论文本。例如,在浪漫风格新闻评论中,不仅会出现与新闻相关联的内容,还会出现一些意象表达特定的情绪,例如星辰、落日、少女等积极的意象,又如雨、大风等消极的意象。除了意象,浪漫风格新闻评论中会出现一些特定的语言节奏,例如出现反问,感叹以及一些语气助词,使得评论读起来活泼生动。
本发明实施例提供的方法可基于平行语料构建系统实现,该系统是对于图1所示平行语料构建方法的一种实例化,该系统主要由关键词抽取模块、情感分类模块、匹配模块、实体提取模块、实体对象改写模块和评论改写模块构成。各个模块的主要功能如下表所示:
Figure SMS_1
本发明实施例提供的平行语料的构建过程,可以简要概括为:
抽取原始语料库中新闻内容的关键词以及浪漫评论中的关键词;
对新闻内容和浪漫评论进行情感倾向分类,将文本划分为情感正向文本或情感负向文本;
通过得到的关键词、情感倾向等信息,将新闻和浪漫评论进行初步的匹配,使新闻和浪漫评论产生情感关联;
提取新闻中出现的实体对象;
针对新闻中出现的实体对象,使用基于规则的方式对其进行改写,将其融入到与新闻相匹配的浪漫评论中,使新闻和浪漫评论产生实体关联;
使用文本改写模型对浪漫评论进行改写,让评论读起来显得更为自然。
具体的,本发明实施例提供的方法中,首先通过网络爬取等数据收集方法,获取新闻语料库和具有浪漫主义语言风格的评论语料库,两者作为原始语料库。新闻语料库中包括预先收集到的各个新闻内容,评论语料库中包括预先收集到的各个具有浪漫主义语言风格的评论语料,评论语料库中的评论语料简称为浪漫评论。结合图3所示流程,接下来对本发明实施例提供的过程作简要说明。本发明实施例提供的构建过程中,基于各模块的处理流程,主要包括:
关键词抽取模块:抽取名词、形容词等词语作为文本关键词;
本发明实施例提供的方法中,通过TF-IDF算法、词性标注工具包提取文本中出现的名词、形容词等词语作为文本的关键词。对新闻来说,新闻文本中往往会出现名词,因此可以将名词作为新闻关键词。对浪漫风格评论文本来说,可能其内容较短,不一定会出现名词,可以依次提取名词、形容词、动词,直到满足关键词个数要求或完成所有抽取内容后,结束抽取过程。此模块提取到的关键词能够概括文本的关键内容和粗粒度的情感。本发明实施例提供的方法中,通过关键词抽取模块分别对新闻语料库中的每个新闻内容进行关键词抽取操作,抽取文本中的名词、形容词等词汇作为该新闻内容对应的新闻关键词。通过关键词抽取模块分别对评论语料库中的每个浪漫评论进行关键词抽取操作,抽取文本中的名词、形容词等词语作为评论语料对应的评论关键词。
情感分类模块:根据获得的关键词对文本的情感倾向进行分类;
本发明实施例提供的方法中,针对新闻语料库中的每个新闻内容和评论语料库中的每个浪漫评论,应用情感分类模型细化文本的情感粒度,对文本反映的情感进行定性,即根据获得的关键词,分别对每个新闻内容和每个浪漫评论的情感倾向进行分类。
匹配模块:基于关键词向量矩阵的相似度计算,完成新闻内容和浪漫评论的匹配;
本发明实施例提供的方法中,原始语料库中的所有文本内容的关键词和情感分类已经明确。首先通过情感分类可将各个新闻内容和各个浪漫评论进行初步划分,将情感分类相同的新闻内容和浪漫评论划分为一个情感分组。针对每个新闻内容和每个浪漫评论,应用预先训练好的中文词语向量库可以计算得到文本的每个关键词的向量表征。由于文本往往存在一个以上的关键词,因此由各个关键词的向量表征构成文本的关键词向量矩阵。遍历新闻语料库中每个新闻内容,针对每个新闻内容,在其对应的情感分组中找到与该新闻内容相匹配的浪漫评论。在单个新闻内容匹配浪漫评论的过程中,可以通过倒排索引获得关键词与浪漫评论的对应关系,并获取情感分组中所有浪漫评论的关键词列表,构建各个浪漫评论关键词向量矩阵。通过计算新闻内容的关键词向量矩阵与各个浪漫评论关键词向量矩阵的乘积,可以得到新闻内容与浪漫评论各个关键词之间的相似度。通过预先设置相似度的阈值,可以获得与新闻内容关键词相似度大于阈值的浪漫评论关键词。然后根据倒排索引在情感分组中找到符合当前关键词的所有浪漫评论,随机抽取一条作为当前新闻内容匹配的浪漫评论。至此完成新闻内容和浪漫评论的匹配过程。
实体提取模块:提取新闻内容中出现的人物实体、地点实体;
本发明实施例提供的方法中,针对每个新闻内容,使用命名实体识别工具对新闻内容中的人物实体、地点实体进行抽取,得到新闻中出现的关键对象。
实体对象改写模块:对实体对象进行改写,并加入浪漫评论中;
本发明实施例提供的方法中,针对每个新闻内容,基于预先设置的改写规则,分别对提取得到的人物实体、地点实体等实体对象进行实体改写,然后通过改写后的实体对象替换该新闻内容匹配的浪漫评论中的相应内容,例如替换浪漫评论中的人称代词。具体的,实体改写可以为对人物实体增加一些前缀或者后缀文本,然后替换浪漫评论中的“你”等人称代词,让新闻和浪漫评论之间产生实体关联。
评论改写模块:用文本改写模型对浪漫评论进行改写;
本发明实施例提供的方法中,此模块使用文本改写模型RoFormer-Sim对替换过内容的浪漫评论进行文本改写。让浪漫评论在部分内容被改写的同时,保证评论文本的可读性。通常新闻语料的数量级相对于浪漫评论语料大很多,容易出现多条新闻内容匹配的浪漫评论是同一条的现象。通过评论改写模块能够辅助扩增浪漫评论文本的数量,缓解多对一的问题,同时保证评论文本的可读性。对于每个新闻内容,对其匹配的浪漫评论进行改写后,得到改写后的浪漫评论,将该新闻内容和改写后的浪漫评论作为一对平行语料。例如,新闻内容为关于“电视剧《XXX》第二部你希望原班人马吗”的内容,其中介绍了出演电视剧《XXX》的各个演员,包括演员甲。通过匹配处理后,新闻内容匹配的浪漫评论为:“一生平淡无奇,偏偏遇见了你,我的心便波澜四起。”。通过实体提取和实体对象改写的处理,提取到了新闻内容中的“演员甲”这一人物实体,通过添加前缀的规则将其改写为“帅气的演员甲”。将浪漫评论中的“你”替换成“帅气的演员甲”,并通过文本改写模型对替换了内容的浪漫评论进行文本改写,得到改写后的浪漫评论:“一生平淡无奇,偏偏遇到了帅气的演员甲,一场风雨骤然。”,将该新闻内容与该改写后的浪漫评论作为一组平行语料。
基于本发明实施例提供的方法,在生成新闻浪漫风格评论的场景中,基于关键词匹配、情感极性匹配、实体对象改写、评论改写等处理方式,实现平行语料库的自动构建。此构建方法能够大大提高平行语料库的构建速度,降低平行语料库的构建成本,同时避免人为因素引入噪声样本,从语料库层面提高下游生成具有浪漫风格的新闻评论的质量。
与图1所示的一种平行语料构建方法相对应的,本发明实施例还提供了一种平行语料构建装置,用于对图1中所示方法的具体实现,其结构示意图如图4所示,包括:
第一确定单元301,用于确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
提取单元302,用于对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
第二确定单元303,用于依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
第三确定单元304,用于依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
改写单元305,用于依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
第四确定单元306,用于对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
基于本发明实施例提供的装置,确定多个原始语料,其中包括多个文本语料和多个评论语料;每个评论语料为具有特定语言风格的语料;对每个原始语料进行关键词提取处理,得到每个原始语料对应的关键词集合;依据每个原始语料对应的关键词集合,确定每个原始语料对应的情感类型;依据各个原始语料对应的情感类型,在各个评论语料中,确定每个文本语料对应的目标评论语料;依据预设的评论改写策略,对每个文本语料对应的目标评论语料进行改写处理,得到每个文本语料对应的改写评论语料;对于每个文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。应用本发明实施例提供的装置,可基于情感分类,在原始的评论语料中,找到与文本语料具有情感关联的目标评论语料。通过对目标评论语料的改写,可使其与文本语料的内容关联,且使其内容区别于原始语料。此过程无需人工参与,便可基于原始语料构建出多组平行语料,可提高平行语料的构建效率,降低人工成本,同时可以避免人为因素引入噪声样本,有利于提高语料质量,继而改善模型效果。其次,由此生成的平行语料中的评论语料具有特定语言风格,有利于提高用户的互动性和参与度。
在图4所示装置的基础上,本发明实施例提供的装置还可以进一步扩展出多个单元,各个单元的功能可参见前文对于平行语料构建方法所提供的各个实施例中的说明,在此不再进一步举例说明。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的平行语料构建方法。
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器401,以及一个或者一个以上的指令402,其中一个或者一个以上指令402存储于存储器401中,且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作:
确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种平行语料构建方法,其特征在于,包括:
确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合,包括:
基于预设的第一关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第一关键词集合;所述第一关键词提取算法为基于词频-逆向文件频率设置的关键词提取算法;
基于预设的第二关键词提取算法,对每个所述原始语料进行关键词提取,得到每个所述原始语料对应的第二关键词集合;所述第二关键词提取算法为基于词性标注工具设置的关键词提取算法;
对于每个所述原始语料,将该原始语料对应的第一关键词集合和第二关键词集合进行合并处理,将合并结果作为该原始语料对应的关键词集合。
3.根据权利要求1所述的方法,其特征在于,所述依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型,包括:
对于每个所述原始语料,将该原始语料对应的关键词集合输入预先构建的情感分类模型,经所述情感分类模型处理后,获取所述情感分类模型输出的情感分类结果,并将该情感分类结果作为该原始语料对应的情感类型。
4.根据权利要求1所述的方法,其特征在于,所述依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料,包括:
对于每个所述文本语料,在所述多个评论语料中,确定该文本语料对应的各个候选评论语料,每个所述候选评论语料对应的情感类型与该文本语料对应的情感类型相同;
对于每个所述文本语料,确定该文本语料对应的相似度集合,该相似度集合包括该文本语料与其对应的每个候选评论语料之间的相似度;
对于每个所述文本语料,依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料。
5.根据权利要求4所述的方法,其特征在于,所述确定该文本语料对应的相似度集合,包括:
依据该文本语料对应的关键词集合,构建该文本语料对应的关键词向量矩阵;
对于该文本语料对应的每个候选评论语料,依据该候选评论语料对应的关键词集合,构建该候选评论语料对应的关键词向量矩阵;
对于该文本语料对应的每个候选评论语料,将该候选评论语料对应的关键词向量矩阵与该文本语料对应的关键词向量矩阵进行乘积运算,将运算结果作为该候选评论语料与该文本语料之间的相似度;
将该文本语料与其对应的各个候选评论语料之间的相似度组成该文本语料对应的相似度集合。
6.根据权利要求4所述的方法,其特征在于,所述依据该文本语料对应的相似度集合,在该文本语料对应的各个候选评论语料中确定该文本语料对应的目标评论语料,包括:
判断该文本语料对应的相似度集合中是否存在大于预设阈值的相似度;
若该文本语料对应的相似度集合中存在大于所述预设阈值的相似度,则将该文本语料对应的相似度集合中大于所述预设阈值的相似度作为目标相似度;
在该文本语料对应的各个候选评论语料中,确定每个所述目标相似度对应的候选评论语料;
在各个所述目标相似度对应的候选评论语料中进行随机抽取操作,将随机抽取得到的候选评论语料作为该文本语料对应的目标评论语料。
7.根据权利要求1所述的方法,其特征在于,所述依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料,包括:
基于预设的命名实体识别工具,对每个所述文本语料进行实体提取处理,得到每个所述文本语料对应的实体集合;每个所述实体集合包括至少一个实体对象;
对于每个所述文本语料对应的实体集合中的每个实体对象,基于预设的实体改写规则,对该实体对象进行实体改写处理,得到该实体对象对应的目标实体对象,将该目标实体对象作为该文本语料对应的改写实体对象;
对于每个所述文本语料对应的目标评论语料,依据该文本语料对应的每个改写实体对象,对该目标评论语料进行实体替换处理,得到该文本语料对应的实体改写评论语料;
对于每个所述文本语料对应的实体改写评论语料,基于预先构建的文本改写模型,对该实体改写评论语料进行文本改写处理,将文本改写结果作为该文本语料对应的改写评论语料。
8.一种平行语料构建装置,其特征在于,包括:
第一确定单元,用于确定多个原始语料;所述多个原始语料由多个文本语料和多个评论语料构成;每个所述评论语料为具有特定语言风格的语料;
提取单元,用于对每个所述原始语料进行关键词提取处理,得到每个所述原始语料对应的关键词集合;
第二确定单元,用于依据每个所述原始语料对应的关键词集合,确定每个所述原始语料对应的情感类型;
第三确定单元,用于依据各个所述原始语料对应的情感类型,在所述多个评论语料中,确定每个所述文本语料对应的目标评论语料;
改写单元,用于依据预设的评论改写策略,对每个所述文本语料对应的目标评论语料进行改写处理,得到每个所述文本语料对应的改写评论语料;
第四确定单元,用于对于每个所述文本语料,将该文本语料及其对应的改写评论语料作为一组平行语料。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的平行语料构建方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的平行语料构建方法。
CN202310515441.4A 2023-05-09 2023-05-09 平行语料构建方法及装置、存储介质及电子设备 Active CN116226677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310515441.4A CN116226677B (zh) 2023-05-09 2023-05-09 平行语料构建方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310515441.4A CN116226677B (zh) 2023-05-09 2023-05-09 平行语料构建方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116226677A true CN116226677A (zh) 2023-06-06
CN116226677B CN116226677B (zh) 2023-07-14

Family

ID=86591446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310515441.4A Active CN116226677B (zh) 2023-05-09 2023-05-09 平行语料构建方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116226677B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337257A1 (en) * 2013-05-09 2014-11-13 Metavana, Inc. Hybrid human machine learning system and method
WO2018034426A1 (ko) * 2016-08-17 2018-02-22 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN107993126A (zh) * 2017-11-30 2018-05-04 武汉理工大学 一种基于挖掘评论修正用户评分的改进协同过滤方法
CN110362662A (zh) * 2018-04-09 2019-10-22 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN112214991A (zh) * 2020-10-10 2021-01-12 上海海事大学 一种基于多特征融合加权的微博文本立场检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337257A1 (en) * 2013-05-09 2014-11-13 Metavana, Inc. Hybrid human machine learning system and method
WO2018034426A1 (ko) * 2016-08-17 2018-02-22 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN107993126A (zh) * 2017-11-30 2018-05-04 武汉理工大学 一种基于挖掘评论修正用户评分的改进协同过滤方法
CN110362662A (zh) * 2018-04-09 2019-10-22 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN112214991A (zh) * 2020-10-10 2021-01-12 上海海事大学 一种基于多特征融合加权的微博文本立场检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MARCELO MENDOZA 等: "GENE: Graph generation conditioned on named entities for polarity and controversy detection in social media", 《INFORMATION PROCESSING & MANAGEMENT》, vol. 57, no. 6, pages 1 - 27, XP086305543, DOI: 10.1016/j.ipm.2020.102366 *
QINGCHUN BAI 等: "Entity-level sentiment prediction in Danmaku video interaction", 《THE JOURNAL OF SUPERCOMPUTING》, vol. 77, pages 9474, XP037539788, DOI: 10.1007/s11227-021-03652-4 *
刘玉林 等: "基于文本情感分析的电商在线评论数据挖掘", 《统计与信息论坛》, vol. 33, no. 12, pages 119 - 124 *
王连喜;: "微博短文本预处理及学习研究综述", 《图书情报工作》, vol. 57, no. 11, pages 127 - 133 *

Also Published As

Publication number Publication date
CN116226677B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
Peng et al. Phonetic-enriched text representation for Chinese sentiment analysis with reinforcement learning
Malandrakis et al. Distributional semantic models for affective text analysis
Zhao et al. ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN
EP2430568A1 (en) Methods and systems for knowledge discovery
US20210056261A1 (en) Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis
CN106610990B (zh) 情感倾向性分析的方法及装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
Varaprasad et al. Applications and Techniques of Natural Language Processing: An Overview.
CN111859950A (zh) 一种自动化生成讲稿的方法
CN109298796A (zh) 一种词联想方法及装置
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备
CN114547435B (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN115188376A (zh) 一种个性化语音交互方法及系统
JP2016103156A (ja) テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム
Kong et al. Construction of microblog-specific chinese sentiment lexicon based on representation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant