CN113901840A - 一种基于多粒度特征的文本生成评价方法 - Google Patents
一种基于多粒度特征的文本生成评价方法 Download PDFInfo
- Publication number
- CN113901840A CN113901840A CN202111078487.1A CN202111078487A CN113901840A CN 113901840 A CN113901840 A CN 113901840A CN 202111078487 A CN202111078487 A CN 202111078487A CN 113901840 A CN113901840 A CN 113901840A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sequence
- syllable
- semantic vector
- vector representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000013519 translation Methods 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 12
- 239000002245 particle Substances 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- NDTSRXAMMQDVSW-UHFFFAOYSA-N benzthiazide Chemical compound C1=C(Cl)C(S(=O)(=O)N)=CC(S(N2)(=O)=O)=C1N=C2CSCC1=CC=CC=C1 NDTSRXAMMQDVSW-UHFFFAOYSA-N 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 235000019580 granularity Nutrition 0.000 abstract description 47
- 238000002474 experimental method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多粒度特征的文本生成评价方法。为了获取不同粒度特征的语义表示,本发明首先采用MBERT得到参考句与生成句的子词序列并进行向量表征;基于此,根据构成音节与词组的子词组合,结合不同子词语义向量表征得到音节语义向量表征以及词组语义向量表征;其次,采用贪婪匹配分别对参考句与生成句不同粒度下的语义特征向量进行最大余弦相似度计算,使模型在多个粒度上考虑两个句子间的语义相关关系;最后,结合多粒度特征对生成句打分。本发明从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,能够更准确评估生成系统模型的好坏,同时也能有效引导生成模型提升性能。
Description
技术领域
本发明涉及一种基于多粒度特征的文本生成评价方法,属于自然语言处理技术领域。
背景技术
机器翻译、文本摘要等生成任务得到了广泛的研究,取得了令人瞩目的成就,但针对这类任务的生成文本质量评价仍是一个难点问题。一个与人类评价相关度高的自动评价指标,不仅对准确评估生成系统模型的好坏起到了至关重要的作用,而且能够有效引导生成模型提升性能。
文本生成评价可以看作一个计算生成句和标准参考句之间相似度的任务,可分为基于统计的方法和基于语义相似度的方法两类。基于统计的方法一般是计算生成句和参考句之间的不同粒度语义单元的共现程度来评价模型性能,虽然基于统计的方法能够很好的表征句子之间的重叠度,但是缺乏对句子深层语义的建模。常出现两个句子语义相近,但是重叠的词很少,限制了词汇和成分多样性。
近年来,基于预训练语言模型的语义相似度评价方法很多,其基本的思想是利用预训练语言模型来提取语义特征,基于此进行语义匹配。如Zhang等人提出BERTScore,基于预训练语言模型将参考句与生成句进行子词切分,将子词序列输入预训练语言模型得到子词语义向量表征,采用贪婪匹配计算参考句与生成句子词语义向量表征间余弦相似度,并累加子词最大余弦相似度得分。但在越南语、泰语等存在大量黏着语素的语言中多数子词并不具有完整的语义,基于子词粒度的对应关系不能很好的反映语义之间的相似关系。在此基础上,本专利在MBERT进行子词语义表征的基础上,对音节、词组等能更完整表达语义的单位进行语义表征,采用多粒度特征匹配来评价生成句与参考句之间的相似性。本发明从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,进一步增强基于子词语义特征匹配的自动评价方法。
发明内容
本发明提供了一种基于多粒度特征的文本生成评价方法,以用于解决传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题,以及基于子词粒度深度语义匹配的评价方法不能很好的反映生成句与参考句间的语义关系的问题。
本发明的技术方案是:一种基于多粒度特征的文本生成评价方法,所述一种基于多粒度特征的文本生成评价方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,构造文本生成测评任务数据集;所述文本生成测评任务数据集数据格式为:参考句-生成句,并对数据集进行人工评价;
Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列Ex与生成句子词序列EY,以及参考句子词序列语义向量表征EX与生成句子词序列语义向量表征EY;
Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列ZX与生成句音节序列ZY,并结合Step2,得到参考句音节序列语义向量表征ZX与生成句音节序列语义向量表征ZY;
Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列WX与生成句词组序列WY,并结合Step3,得到参考句词组序列语义向量表征WX与生成句词组序列语义向量表征WY;
Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及FE值;
Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及FZ值;
Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及FW值;
Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要—中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分(1最差,5最好)。
作为本发明的优选方案,所述步骤Step1.1的具体步骤:
Step1.1.1、过滤越南语、泰语、中文数据少于10个字符的句子:
Step1.1.2、过滤句子中的特殊字符;
Step1.1.3、并在每个语言中各挑出200个句子,作为越南语/泰语/中文参考句;
Step1.1.4、将参考句,利用谷歌翻译模型进行回译(将A语言的正向翻译成B,在将B反向翻译成A)的方式,反向翻译得到目标语言生成句。
作为本发明的优选方案,所述步骤Step1.2的具体步骤:
Step1.2.1、从LCST抽取200个摘要对,数据格式为:中文摘要—中文文档;
Step1.2.2、将中文摘要翻译为越南语摘要,作为越南语参考摘要;
Step1.2.3、方法一:跨语言摘要模型采用传统的基线方法先摘要后翻译(ST),将中文文档输入LexRank(无监督的抽取式摘要模型),得到中文生成摘要;在将中文生成摘要输入谷歌翻译模型,得到越南语生成摘要;
Step1.2.4、方法二:跨语言摘要模型采用传统的基线方法先翻译后摘要(TS),将中文摘要与文档采用谷歌翻译模型翻译成越南语后,输入LexRank,得到越南语生成摘要。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn}与生成句子词序列EY={ey1,ey2,ey3,…,eym},其中,exn表示参考句X中第n个子词;eym表示生成句Y中第m个子词;
Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn},exn表示参考句X中第n个子词;
{ex1,ex2,ex3,…,exn}=WordPiece(X) (2)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列EY={ey1,ey2,ey3,…,eym},eym表示生成句Y中第m个子词;
{ey1,ey2,ey3,…,eym}=WordPiece(Y) (3)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.4、将得到的参考句子词序列Ex输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},exn表示参考句X中第n个子词的向量表征;
{excls,ex1,ex2,ex3,…,exn,exsep}=MBERT{[cls],ex1,ex2,ex3,…,exn,[sep]} (4)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
Step2.5、将得到的生成句子词序列EY输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},eym表示生成句Y中第m个子词的向量表征;
{eycls,ey1,ey2,ey3,…,eym,eysep}=MBERT{[cls],ey1,ey2,ey3,…,eym,[sep]} (5)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
其中,syllablePiece表示进行音节切分,越南语以空格切分,泰语利用PyThaiNLP工具切分;
其中,syllablePiece表示进行音节切分;
Step3.3、基于Step2.4的得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},对参考句音节序列ZX进行对音节语义向量表示,根据下式(8),得到参考句音节序列语义向量表征
其中,pooling表示average pooling。
Step3.4、基于Step2.5得到的生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},对生成句音节序列ZY进行对音节语义向量表征表示,根据下式(8),得到生成句音节序列语义向量表征
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
其中,phrasePiece表示进行词组切分,中文使用jieba工具,越南语使用VnCoreNLP工具,泰语使用PyThaiNLP工具词;
其中,phrasePiece表示进行词组切分;
其中,pooling表示average pooling。
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的召回率RE;
Step5.2、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的精确率PE;
Step5.3、根据下式计算子词粒度下生成句的FE;
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.3、根据下式计算音节粒度下生成句的FZ;
作为本发明的优选方案,所述步骤Step7的具体步骤为:
Step7.3、根据下式计算词组粒度下生成句的FW;
作为本发明的优选方案,所述步骤Step8的具体步骤为:
Step8.1、结合多粒度的语义特征,根据下式计算生成句的召回率R;
Step8.2、结合多粒度的语义特征,根据下式计算生成句的精确率;
Step8.3、根据下式计算词组粒度下生成句的F;
本发明的有益效果是:
1)引入MBERT预训练语言模型进行语义表征,从语义的角度出发,改善了传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题。
2)结合越南语、泰语等存在大量黏着语素的语言结构特点,从子词、字、短语考虑,捕捉到了不同粒度的语义,提取了更加全面的特征信息。不仅提升了多语言预训练语言模型在该类语言上的表征能力,也更好反映了生成句与参考句间的语义关系,为快速准确的自动评价文本生成模型性能提供了有力支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明各预训练语言模型不同层数下的实验结果;
图3为本发明中测评数据集构建流程图;
图4为本发明中多粒度特性评价方法模型结构示意图。
具体实施方式
实施例1:如图1-图4所示,一种基于多粒度特征的文本生成评价方法,所述一种基于多粒度特征的文本生成评价方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,构造文本生成任务测评数据集。所述文本生成任务测评数据集数据格式为:参考句-生成句,各文本生成测评数据集的详细信息如表1所示。
表1数据集统计信息
Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列Ex与生成句子词序列EY,以及参考句子词序列语义向量表征EX与生成句子词序列语义向量表征EY;
Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列ZX与生成句音节序列ZY,并结合Step2,得到参考句音节序列语义向量表征ZX与生成句音节序列语义向量表征ZY;
Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列WX与生成句词组序列WY,并结合Step3,得到参考句词组序列语义向量表征WX与生成句词组序列语义向量表征WY;
Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及FE值;
Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及FZ值。
Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及FW值
Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
实施例2:如图1-图4所示,一种基于多粒度特征的文本生成评价方法,本实施例与实施例1相同,其中:
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要-中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分(1最差,5最好)。
作为本发明的优选方案,所述步骤Step1.1的具体步骤:
Step1.1.1、过滤越南语、泰语、中文数据少于10个字符的句子:
Step1.1.2、过滤句子中的特殊字符;
Step1.1.3、并在每个语言中各挑出200个句子,作为越南语/泰语/中文参考句;
Step1.1.4、将参考句,利用谷歌翻译模型进行回译(将A语言的正向翻译成B,在将B反向翻译成A)的方式,反向翻译得到目标语言生成句。
作为本发明的优选方案,所述步骤Step1.2的具体步骤:
Step1.2.1、从LCST抽取200个摘要对,数据格式为:中文摘要-中文文档;
Step1.2.2、将中文摘要翻译为越南语摘要,作为越南语参考摘要;
Step1.2.3、方法一:跨语言摘要模型采用传统的基线方法先摘要后翻译(ST),将中文文档输入LexRank(无监督的抽取式摘要模型),得到中文生成摘要;在将中文生成摘要输入谷歌翻译模型,得到越南语生成摘要;
Step1.2.4、方法二:跨语言摘要模型采用传统的基线方法先翻译后摘要(TS),将中文摘要与文档采用谷歌翻译模型翻译成越南语后,输入LexRank,得到越南语生成摘要。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn}与生成句子词序列EY={ey1,ey2,ey3,…,eym},其中,exn表示参考句X中第n个子词;eym表示生成句Y中第m个子词;
Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn},exn表示参考句X中第n个子词;
{ex1,ex2,ex3,…,exn}=WordPiece(X) (1)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列EY={ey1,ey2,ey3,…,eym},eym表示生成句Y中第m个子词;
{ey1,ey2,ey3,…,eym}=WordPiece(Y) (2)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.4、将得到的参考句子词序列Ex输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},exn表示参考句X中第n个子词的向量表征;
{excls,ex1,ex2,ex3,…,exn,exsep}=MBERT{[cls],ex1,ex2,ex3,…,exn,[sep]} (3)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
Step2.5、将得到的生成句子词序列EY输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},eym表示生成句Y中第m个子词的向量表征;
{eycls,ey1,ey2,ey3,…,eym,eysep}=MBERT{[cls],ey1,ey2,ey3,…,eym,[sep]} (4)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
其中,syllablePiece表示进行音节切分,越南语以空格切分,泰语利用PyThaiNLP工具切分;
其中,syllablePiece表示进行音节切分;
Step3.3、基于Step2.4的得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},对参考句音节序列ZX进行对音节语义向量表示,根据下式(18),得到参考句音节序列语义向量表征
其中,pooling表示average pooling。
Step3.4、基于Step2.5得到的生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},对生成句音节序列ZY进行对音节语义向量表征表示,根据下式(8),得到生成句音节序列语义向量表征
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
其中,phrasePiece表示进行词组切分,中文使用jieba工具,越南语使用VnCoreNLP工具,泰语使用PyThaiNLP工具词;
其中,phrasePiece表示进行词组切分;
其中,pooling表示average pooling。
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的召回率RE;
Step5.2、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的精确率PE;
Step5.3、根据下式计算子词粒度下生成句的FE;
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.3、根据下式计算音节粒度下生成句的FZ;
作为本发明的优选方案,所述步骤Step7的具体步骤为:
Step7.3、根据下式计算词组粒度下生成句的FW;
作为本发明的优选方案,所述步骤Step8的具体步骤为:
Step8.1、结合多粒度的语义特征,根据下式计算生成句的召回率R;
Step8.2、结合多粒度的语义特征,根据下式计算生成句的精确率;
Step8.3、根据下式计算词组粒度下生成句的F;
为了说明本发明的在文本生成测评上的有效性,本文设计了三组实验进行验证。第一组实验验证本发明在评价文本生成任务中的有效性;第二组验证多粒度特征在文本生成评价的有效性;实验三:验证了本发明在不同预训练语言模型及不同层数下的有效性。
本发明采用判断评价方法最常用皮尔逊相关系数r、斯皮尔曼等级系数ρ以及肯德尔等级系数τ来判定不同的自动评价指标与人工评价的相关性,r、ρ、τ取值越接近1表示相关性越好。
(1)本发明在评价文本生成任务中的有效性
本节在评价机器翻译、跨语言摘要两个文本生成任务上验证本发明的有效性,并选取以下四种评价方法作为基线方法。在同一文本生成任务中,所有的基线方法测评对象与本发明相同。
BLEU:基于统计的评价方法,在机器翻译评价任务中使用最广泛的评价指标,将生成句与参考句之间的长短关系作为惩罚因子,基于此,结合参考句与生成句的N-gram重叠率进行评分,在本文计算中,N最大为4;
ROUGE:基于统计的评价方法,在文本摘要评价任务中使用最为广泛,通过对比参考句与生成句间的N-gram重叠率进行评分,本文分别计算ROUGE-1、ROUGE-2、ROUGE-L的F1值;
Bertscore:基于深度语义匹配的评价方法,可用于文本生成任务的评价,通过计算参考句与生成句的子词粒度语义相似度进行评分,本文计算在该评价方法下的三个指标,为R召回率、P精确率、F值;
本发明:本文提出的评价方法,可用于文本生成任务的评价,综合子词、音节、词组语义特征信息对生成句进行评分,本文计算在该评价方法下的三个指标,为R召回率、P精确率、F值。
在机器翻译测评上,表2展示了在越中、中越、中泰机器翻译测评任务中本发明带来的性能提升。其中,MT(vi→zh)表示越中机器翻译测评任务,MT(zh→vi)表示中越机器翻译测评任务,MT(zh→th)表示中泰机器翻译测评任务。
表2机器翻译测评任务中基线方法对比实验
从上表可以看出:在越中测评任务上,本文提出的评价方法与人工评价相关性低于Bertscore。这是由于中文上子词属于较粗粒度(中文子词与音节基本相同),子词嵌入向量表征存在的误差,导致了多粒度语义特征提取时出现错误传播现象较为严重。
另外,在中越及中泰两个语言对的机器翻译测评任务上,本发明与人工评价的相关性明显高于基线BLEU和Bertscore,证明本发明评价的有效性。其中,本发明在中泰测评任务中提升最大,与Bertscore最优结果相比,在相关性系数r、ρ、τ分别取得了3.5%,2.8%,1.9%的提升。
在跨语言摘要测评上,表3展示了中越跨语言摘要测评任务中本发明带来的性能提升。其中,TS(zh→vi)表示先翻译后摘要的中越跨语言摘要测评任务;ST(zh→vi)表示先摘要后翻译的中越跨语言摘要测评任务。
表3跨语言摘要测评任务中基线方法对比实验
从上表可以看出:在中越跨语言摘要测评任务中,相比于ROUGE与Bertscore,本发明取得了最优结果。其中,Bertscore与本发明均是基于MBERT表征进行评价,二者与人工评估的相关性明显高于ROUGE,说明了基于语义相似度评价的方法比基于统计的评价方法更具有优势。在TS模型中,本发明与Bertscore最优结果相比,在相关系数r、ρ、τ上分别提升了1.6%,2.0%,1.9%;类似地,在ST模型中,本发明与Bertscore最优结果相比,在相关系数r、ρ、τ上分别得到1.3%,0.8%,0.2%的提升,证明了多粒度特征评价方法与人工评价相关性更高。
(2)多粒度特征在文本生成评价的有效性
为了验证本发明的多粒度特征文本生成评价方法优于单粒度的评价方法,本实验在中越与中泰两个语言对的测评任务上,探究在不同粒度特征匹配下的F值与人工评价的皮尔逊相关系数r、斯皮尔曼等级系数ρ以及肯德尔等级系数τ,实验结果如表4所示。
表4不同粒度下的F值对比实验
在上表中可以发现,针对r、ρ相关系数来说,在中越测评任务上,基于词组粒度的评价与人工评价相关系数最高;在中泰测评任务上,基于音节粒度的评价与人工评价相关系数最高;但无论是在中泰还是中越测评任务中,本发明与人工评估的相关系数r、ρ均维持在高于中位数水平,由此可见,结合多粒度特征的评价方法有较高的稳定性。针对相关系数τ来说,本发明与单粒度评价中的最优结果相近。由此,进一步证明了本发明的评估方法具有更加稳定的性能。
(3)本发明在不同预训练语言模型及不同层数下的有效性
为了验证本文提出方法在不同预训练语言模型上的有效性,以及探究预训练语言模型层数对本文提出的评价方法的性能的影响,本小节在MBERT与XLM(xlm-mlm-100-1280)两个预训练语言模型上进行实验,计算不同层表示下本发明或Bertscore的F值与人工评估的皮尔逊相关系数ρ,结果如图2所示。
从上图可以看出,一方面,在不同的预训练语言模型中,本发明与Bertscore相比表现更好。另一方面,在中越与中泰的测评任务中,本发明或Bertscore与人工评估的相关性并没有随着模型层数的增加而不断上升,而是在中间层取得了更好的结果,说明中间层的表示包含了更多的语义信息。同时,本发明与Bertscore比较,在低层表示时性能提升较大,这是由于低层的表征中包含了更多子词本身的信息,此时更加明显的体现出了基于多粒度的方法能提取更全面的信息。而随着层数的增加,子词向量表征提取到了更多上下文的信息以及一些语义无关信息,此时带来的错误传播也更为明显,以致于本发明较Bertscore在性能提升出现了减缓的趋势。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种基于多粒度特征的文本生成评价方法,其特征在于:所述基于多粒度特征的文本生成评价方法具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,构造文本生成测评任务数据集;所述文本生成测评任务数据集数据格式为:参考句-生成句,并对数据集进行人工评价;
Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列Ex与生成句子词序列EY,以及参考句子词序列语义向量表征EX与生成句子词序列语义向量表征EY;
Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列ZX与生成句音节序列ZY,并结合Step2,得到参考句音节序列语义向量表征ZX与生成句音节序列语义向量表征ZY;
Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列WX与生成句词组序列WY,并结合Step3,得到参考句词组序列语义向量表征WX与生成句词组序列语义向量表征WY;
Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及FE值;
Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及FZ值;
Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及FW值;
Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
2.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要—中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分。
3.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn}与生成句子词序列EY={ey1,ey2,ey3,…,eym},其中,exn表示参考句X中第n个子词;eym表示生成句Y中第m个子词;
Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn},exn表示参考句X中第n个子词;
{ex1,ex2,ex3,…,exn}=WordPiece(X) (1)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分;
Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列EY={ey1,ey2,ey3,…,eym},eym表示生成句Y中第m个子词;
{ey1,ey2,ey3,…,eym}=WordPiece(Y) (2)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分;
Step2.4、将得到的参考句子词序列Ex输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},exn表示参考句X中第n个子词的向量表征;
{excls,ex1,ex2,ex3,…,exn,exsep}=MBERT{[cls],ex1,ex2,ex3,…,exn,[sep]} (3)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
Step2.5、将得到的生成句子词序列EY输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},eym表示生成句Y中第m个子词的向量表征;
{eycls,ey1,ey2,ey3,…,eym,eysep}=MBERT{[cls],ey1,ey2,ey3,…,eym,[sep]} (4)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位。
4.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step3的具体步骤为:
其中,syllablePiece表示进行音节切分,越南语以空格切分,泰语利用PyThaiNLP工具切分;
其中,syllablePiece表示进行音节切分;
Step3.3、基于得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},对参考句音节序列ZX进行对音节语义向量表示,根据下式(1),得到参考句音节序列语义向量表征
其中,pooling表示average pooling。
Step3.4、基于得到的生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},对生成句音节序列ZY进行对音节语义向量表征表示,根据下式(8),得到生成句音节序列语义向量表征
其中,pooling表示average pooling。
5.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step4的具体步骤为:
其中,phrasePiece表示进行词组切分,中文使用jieba工具,越南语使用VnCoreNLP工具,泰语使用PyThaiNLP工具词;
其中,phrasePiece表示进行词组切分;
其中,pooling表示average pooling;
其中,pooling表示average pooling。
6.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的召回率RE;
Step5.2、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的精确率PE;
Step5.3、根据下式计算子词粒度下生成句的FE;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111078487.1A CN113901840B (zh) | 2021-09-15 | 2021-09-15 | 一种基于多粒度特征的文本生成评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111078487.1A CN113901840B (zh) | 2021-09-15 | 2021-09-15 | 一种基于多粒度特征的文本生成评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901840A true CN113901840A (zh) | 2022-01-07 |
CN113901840B CN113901840B (zh) | 2024-04-19 |
Family
ID=79028280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111078487.1A Active CN113901840B (zh) | 2021-09-15 | 2021-09-15 | 一种基于多粒度特征的文本生成评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901840B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818666A (zh) * | 2022-04-26 | 2022-07-29 | 广东外语外贸大学 | 一种汉语语法纠错的评估方法、装置、设备及存储介质 |
CN114896959A (zh) * | 2022-04-15 | 2022-08-12 | 合肥工业大学 | 中日词语自动对齐方法和系统 |
CN115422362A (zh) * | 2022-10-09 | 2022-12-02 | 重庆邮电大学 | 一种基于人工智能的文本匹配方法 |
CN116308635A (zh) * | 2023-02-23 | 2023-06-23 | 广州快塑电子科技有限公司 | 塑化产业报价结构化方法、装置、设备及存储介质 |
CN117034961A (zh) * | 2023-10-09 | 2023-11-10 | 武汉大学 | 一种基于bert的中法互译质量测评方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202035A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 基于组合方法的越南语兼类词消歧方法 |
CN111581985A (zh) * | 2020-05-14 | 2020-08-25 | 兰州大学 | 一种基于Transformer的汉盲翻译方法及系统 |
CN111914062A (zh) * | 2020-07-13 | 2020-11-10 | 上海乐言信息科技有限公司 | 一种基于关键词的长文本问答对生成系统 |
CA3081242A1 (en) * | 2019-05-22 | 2020-11-22 | Royal Bank Of Canada | System and method for controllable machine text generation architecture |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
-
2021
- 2021-09-15 CN CN202111078487.1A patent/CN113901840B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202035A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 基于组合方法的越南语兼类词消歧方法 |
CA3081242A1 (en) * | 2019-05-22 | 2020-11-22 | Royal Bank Of Canada | System and method for controllable machine text generation architecture |
CN111581985A (zh) * | 2020-05-14 | 2020-08-25 | 兰州大学 | 一种基于Transformer的汉盲翻译方法及系统 |
CN111914062A (zh) * | 2020-07-13 | 2020-11-10 | 上海乐言信息科技有限公司 | 一种基于关键词的长文本问答对生成系统 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
Non-Patent Citations (3)
Title |
---|
LALITA LOWPHANSIRIKUL等: "WangchanBERTa: Pretraining transformer-based Thai Language Models", 《ARXIV:2101.09635 》, 20 March 2021 (2021-03-20), pages 1 - 24 * |
李威宇: "问答系统中复合问句分解技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, 15 February 2020 (2020-02-15), pages 138 - 2366 * |
赖华等: "基于多粒度特征的文本生成评价方法", 《中文信息学报》, vol. 36, no. 03, 15 March 2022 (2022-03-15), pages 45 - 53 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896959A (zh) * | 2022-04-15 | 2022-08-12 | 合肥工业大学 | 中日词语自动对齐方法和系统 |
CN114896959B (zh) * | 2022-04-15 | 2023-07-07 | 合肥工业大学 | 中日词语自动对齐方法和系统 |
CN114818666A (zh) * | 2022-04-26 | 2022-07-29 | 广东外语外贸大学 | 一种汉语语法纠错的评估方法、装置、设备及存储介质 |
CN115422362A (zh) * | 2022-10-09 | 2022-12-02 | 重庆邮电大学 | 一种基于人工智能的文本匹配方法 |
CN115422362B (zh) * | 2022-10-09 | 2023-10-31 | 郑州数智技术研究院有限公司 | 一种基于人工智能的文本匹配方法 |
CN116308635A (zh) * | 2023-02-23 | 2023-06-23 | 广州快塑电子科技有限公司 | 塑化产业报价结构化方法、装置、设备及存储介质 |
CN116308635B (zh) * | 2023-02-23 | 2023-09-29 | 广州快塑电子科技有限公司 | 塑化产业报价结构化方法、装置、设备及存储介质 |
CN117034961A (zh) * | 2023-10-09 | 2023-11-10 | 武汉大学 | 一种基于bert的中法互译质量测评方法 |
CN117034961B (zh) * | 2023-10-09 | 2023-12-19 | 武汉大学 | 一种基于bert的中法互译质量测评方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113901840B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113901840A (zh) | 一种基于多粒度特征的文本生成评价方法 | |
CN112257453B (zh) | 融合关键词和语义特征的汉越文本相似度计算方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
Harrat et al. | Cross-dialectal arabic processing | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113569562A (zh) | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN115525763A (zh) | 基于改进so-pmi算法和融合词向量的情感分析方法 | |
Heo et al. | Multimodal neural machine translation with weakly labeled images | |
CN115470393A (zh) | 面向汉越跨语言事件检索的事件预训练方法 | |
Rahman et al. | A corpus based n-gram hybrid approach of bengali to english machine translation | |
Mermer | Unsupervised search for the optimal segmentation for statistical machine translation | |
Song et al. | Improving embedding-based unsupervised keyphrase extraction by incorporating structural information | |
Chen et al. | A simple and effective unsupervised word segmentation approach | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
Tündik et al. | Assessing the Semantic Space Bias Caused by ASR Error Propagation and its Effect on Spoken Document Summarization. | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
Vakare et al. | Sentence semantic similarity using dependency parsing | |
Khemakhem et al. | Integrating morpho-syntactic features in English-Arabic statistical machine translation | |
Grönroos et al. | Low-resource active learning of North Sámi morphological segmentation | |
Yadav et al. | Image Processing-Based Transliteration from Hindi to English | |
Kurniawan et al. | Building related words in Indonesian and English translation of Al-Qur’an vocabulary based on distributional similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |