CN113901840A - 一种基于多粒度特征的文本生成评价方法 - Google Patents

一种基于多粒度特征的文本生成评价方法 Download PDF

Info

Publication number
CN113901840A
CN113901840A CN202111078487.1A CN202111078487A CN113901840A CN 113901840 A CN113901840 A CN 113901840A CN 202111078487 A CN202111078487 A CN 202111078487A CN 113901840 A CN113901840 A CN 113901840A
Authority
CN
China
Prior art keywords
sentence
sequence
syllable
semantic vector
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111078487.1A
Other languages
English (en)
Other versions
CN113901840B (zh
Inventor
赖华
高玉梦
余正涛
黄于欣
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111078487.1A priority Critical patent/CN113901840B/zh
Publication of CN113901840A publication Critical patent/CN113901840A/zh
Application granted granted Critical
Publication of CN113901840B publication Critical patent/CN113901840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多粒度特征的文本生成评价方法。为了获取不同粒度特征的语义表示,本发明首先采用MBERT得到参考句与生成句的子词序列并进行向量表征;基于此,根据构成音节与词组的子词组合,结合不同子词语义向量表征得到音节语义向量表征以及词组语义向量表征;其次,采用贪婪匹配分别对参考句与生成句不同粒度下的语义特征向量进行最大余弦相似度计算,使模型在多个粒度上考虑两个句子间的语义相关关系;最后,结合多粒度特征对生成句打分。本发明从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,能够更准确评估生成系统模型的好坏,同时也能有效引导生成模型提升性能。

Description

一种基于多粒度特征的文本生成评价方法
技术领域
本发明涉及一种基于多粒度特征的文本生成评价方法,属于自然语言处理技术领域。
背景技术
机器翻译、文本摘要等生成任务得到了广泛的研究,取得了令人瞩目的成就,但针对这类任务的生成文本质量评价仍是一个难点问题。一个与人类评价相关度高的自动评价指标,不仅对准确评估生成系统模型的好坏起到了至关重要的作用,而且能够有效引导生成模型提升性能。
文本生成评价可以看作一个计算生成句和标准参考句之间相似度的任务,可分为基于统计的方法和基于语义相似度的方法两类。基于统计的方法一般是计算生成句和参考句之间的不同粒度语义单元的共现程度来评价模型性能,虽然基于统计的方法能够很好的表征句子之间的重叠度,但是缺乏对句子深层语义的建模。常出现两个句子语义相近,但是重叠的词很少,限制了词汇和成分多样性。
近年来,基于预训练语言模型的语义相似度评价方法很多,其基本的思想是利用预训练语言模型来提取语义特征,基于此进行语义匹配。如Zhang等人提出BERTScore,基于预训练语言模型将参考句与生成句进行子词切分,将子词序列输入预训练语言模型得到子词语义向量表征,采用贪婪匹配计算参考句与生成句子词语义向量表征间余弦相似度,并累加子词最大余弦相似度得分。但在越南语、泰语等存在大量黏着语素的语言中多数子词并不具有完整的语义,基于子词粒度的对应关系不能很好的反映语义之间的相似关系。在此基础上,本专利在MBERT进行子词语义表征的基础上,对音节、词组等能更完整表达语义的单位进行语义表征,采用多粒度特征匹配来评价生成句与参考句之间的相似性。本发明从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,进一步增强基于子词语义特征匹配的自动评价方法。
发明内容
本发明提供了一种基于多粒度特征的文本生成评价方法,以用于解决传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题,以及基于子词粒度深度语义匹配的评价方法不能很好的反映生成句与参考句间的语义关系的问题。
本发明的技术方案是:一种基于多粒度特征的文本生成评价方法,所述一种基于多粒度特征的文本生成评价方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,构造文本生成测评任务数据集;所述文本生成测评任务数据集数据格式为:参考句-生成句,并对数据集进行人工评价;
Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列Ex与生成句子词序列EY,以及参考句子词序列语义向量表征EX与生成句子词序列语义向量表征EY
Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列ZX与生成句音节序列ZY,并结合Step2,得到参考句音节序列语义向量表征ZX与生成句音节序列语义向量表征ZY
Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列WX与生成句词组序列WY,并结合Step3,得到参考句词组序列语义向量表征WX与生成句词组序列语义向量表征WY
Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及FE值;
Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及FZ值;
Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及FW值;
Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要—中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分(1最差,5最好)。
作为本发明的优选方案,所述步骤Step1.1的具体步骤:
Step1.1.1、过滤越南语、泰语、中文数据少于10个字符的句子:
Step1.1.2、过滤句子中的特殊字符;
Step1.1.3、并在每个语言中各挑出200个句子,作为越南语/泰语/中文参考句;
Step1.1.4、将参考句,利用谷歌翻译模型进行回译(将A语言的正向翻译成B,在将B反向翻译成A)的方式,反向翻译得到目标语言生成句。
作为本发明的优选方案,所述步骤Step1.2的具体步骤:
Step1.2.1、从LCST抽取200个摘要对,数据格式为:中文摘要—中文文档;
Step1.2.2、将中文摘要翻译为越南语摘要,作为越南语参考摘要;
Step1.2.3、方法一:跨语言摘要模型采用传统的基线方法先摘要后翻译(ST),将中文文档输入LexRank(无监督的抽取式摘要模型),得到中文生成摘要;在将中文生成摘要输入谷歌翻译模型,得到越南语生成摘要;
Step1.2.4、方法二:跨语言摘要模型采用传统的基线方法先翻译后摘要(TS),将中文摘要与文档采用谷歌翻译模型翻译成越南语后,输入LexRank,得到越南语生成摘要。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn}与生成句子词序列EY={ey1,ey2,ey3,…,eym},其中,exn表示参考句X中第n个子词;eym表示生成句Y中第m个子词;
Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn},exn表示参考句X中第n个子词;
{ex1,ex2,ex3,…,exn}=WordPiece(X) (2)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列EY={ey1,ey2,ey3,…,eym},eym表示生成句Y中第m个子词;
{ey1,ey2,ey3,…,eym}=WordPiece(Y) (3)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.4、将得到的参考句子词序列Ex输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},exn表示参考句X中第n个子词的向量表征;
{excls,ex1,ex2,ex3,…,exn,exsep}=MBERT{[cls],ex1,ex2,ex3,…,exn,[sep]} (4)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
Step2.5、将得到的生成句子词序列EY输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},eym表示生成句Y中第m个子词的向量表征;
{eycls,ey1,ey2,ey3,…,eym,eysep}=MBERT{[cls],ey1,ey2,ey3,…,eym,[sep]} (5)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用分词工具对参考句进行音节切分得到音节序列
Figure BDA0003262932600000041
Figure BDA0003262932600000042
表示参考句X中的第i音节由第n-1与第n个子词构成:
Figure BDA0003262932600000043
其中,syllablePiece表示进行音节切分,越南语以空格切分,泰语利用PyThaiNLP工具切分;
Step3.2、使用分词工具对生成句与进行音节切分得到
Figure BDA0003262932600000044
其中
Figure BDA0003262932600000045
表示参考句Y中的第j音节由第m个子词构成:
Figure BDA0003262932600000046
其中,syllablePiece表示进行音节切分;
Step3.3、基于Step2.4的得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},对参考句音节序列ZX进行对音节语义向量表示,根据下式(8),得到参考句音节序列语义向量表征
Figure BDA0003262932600000051
Figure BDA0003262932600000052
其中,pooling表示average pooling。
Step3.4、基于Step2.5得到的生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},对生成句音节序列ZY进行对音节语义向量表征表示,根据下式(8),得到生成句音节序列语义向量表征
Figure BDA0003262932600000053
Figure BDA0003262932600000054
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、在各语种下,根据式(9)对原始输入序列参考句X得到词组序列
Figure BDA0003262932600000055
其中,
Figure BDA0003262932600000056
表示生成句X中第l个词组由第i个音节构成。
Figure BDA0003262932600000057
其中,phrasePiece表示进行词组切分,中文使用jieba工具,越南语使用VnCoreNLP工具,泰语使用PyThaiNLP工具词;
Step4.2、在各语种下,根据式(10)对原始输入序列生成句Y分词得到词组序列
Figure BDA0003262932600000058
其中,
Figure BDA0003262932600000059
表示生成句Y中第p个词组由第j-2,j-1,j个音节构成。
Figure BDA00032629326000000510
其中,phrasePiece表示进行词组切分;
Step4.3、基于Step3.3得到的参考句音节序列语义向量表征
Figure BDA00032629326000000511
对参考句词组序列WX进行对词组语义向量表征表示,根据式(11)计算参考句词组序列语义向量表征
Figure BDA00032629326000000512
Figure BDA00032629326000000513
其中,pooling表示average pooling。
Step4.4、基于Step3.4得到的生成句音节序列语义向量表征
Figure BDA0003262932600000061
对生成句词组序列WY进行对词组语义向量表征表示,根据式(12)计算生成句词组序列语义向量表征
Figure BDA0003262932600000062
Figure BDA0003262932600000063
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的召回率RE
Figure BDA0003262932600000064
其中,|Ex|为参考句子词序列的长度,
Figure BDA0003262932600000065
表示为exn与eym余弦相似度计算。
Step5.2、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的精确率PE
Figure BDA0003262932600000066
其中,|Ey|为生成句子词序列的长度,
Figure BDA0003262932600000067
表示为exn与eym余弦相似度计算。
Step5.3、根据下式计算子词粒度下生成句的FE
Figure BDA0003262932600000068
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.1、基于得到的参考句音节序列语义向量表征
Figure BDA0003262932600000069
与生成句音节序列语义向量表征
Figure BDA00032629326000000610
根据下式计算音节粒度下生成句的召回率RZ
Figure BDA0003262932600000071
其中,|ZX|为参考句音节序列的长度,
Figure BDA0003262932600000072
表示为
Figure BDA0003262932600000073
Figure BDA0003262932600000074
余弦相似度计算。
Step6.2、基于得到的音节序列语义向量表征
Figure BDA0003262932600000075
与生成句音节序列语义向量表征
Figure BDA0003262932600000076
根据下式计算音节粒度下生成句的精确率PZ
Figure BDA0003262932600000077
其中,|ZY|为生成句音节序列的长度,
Figure BDA0003262932600000078
表示为
Figure BDA0003262932600000079
Figure BDA00032629326000000710
余弦相似度计算。
Step6.3、根据下式计算音节粒度下生成句的FZ
Figure BDA00032629326000000711
作为本发明的优选方案,所述步骤Step7的具体步骤为:
Step7.1、基于得到的参考句词组序列语义向量表征
Figure BDA00032629326000000712
与生成句词组序列语义向量表征
Figure BDA00032629326000000713
根据下式计算词组粒度下生成句的召回率RW
Figure BDA00032629326000000714
其中,|WX|为参考句词组序列的长度,
Figure BDA00032629326000000715
表示为
Figure BDA00032629326000000716
Figure BDA00032629326000000717
余弦相似度计算;
Step7.2、基于得到的参考句词组序列语义向量表征
Figure BDA00032629326000000718
与生成句词组序列语义向量表征
Figure BDA00032629326000000719
根据下式计算词组粒度下生成句的精确率PW
Figure BDA00032629326000000720
其中,|WY|为生成句音节序列的长度,
Figure BDA0003262932600000081
表示为
Figure BDA0003262932600000082
Figure BDA0003262932600000083
余弦相似度计算;
Step7.3、根据下式计算词组粒度下生成句的FW
Figure BDA0003262932600000084
作为本发明的优选方案,所述步骤Step8的具体步骤为:
Step8.1、结合多粒度的语义特征,根据下式计算生成句的召回率R;
Figure BDA0003262932600000085
Step8.2、结合多粒度的语义特征,根据下式计算生成句的精确率;
Figure BDA0003262932600000086
Step8.3、根据下式计算词组粒度下生成句的F;
Figure BDA0003262932600000087
本发明的有益效果是:
1)引入MBERT预训练语言模型进行语义表征,从语义的角度出发,改善了传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题。
2)结合越南语、泰语等存在大量黏着语素的语言结构特点,从子词、字、短语考虑,捕捉到了不同粒度的语义,提取了更加全面的特征信息。不仅提升了多语言预训练语言模型在该类语言上的表征能力,也更好反映了生成句与参考句间的语义关系,为快速准确的自动评价文本生成模型性能提供了有力支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明各预训练语言模型不同层数下的实验结果;
图3为本发明中测评数据集构建流程图;
图4为本发明中多粒度特性评价方法模型结构示意图。
具体实施方式
实施例1:如图1-图4所示,一种基于多粒度特征的文本生成评价方法,所述一种基于多粒度特征的文本生成评价方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,构造文本生成任务测评数据集。所述文本生成任务测评数据集数据格式为:参考句-生成句,各文本生成测评数据集的详细信息如表1所示。
表1数据集统计信息
Figure BDA0003262932600000091
Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列Ex与生成句子词序列EY,以及参考句子词序列语义向量表征EX与生成句子词序列语义向量表征EY
Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列ZX与生成句音节序列ZY,并结合Step2,得到参考句音节序列语义向量表征ZX与生成句音节序列语义向量表征ZY
Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列WX与生成句词组序列WY,并结合Step3,得到参考句词组序列语义向量表征WX与生成句词组序列语义向量表征WY
Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及FE值;
Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及FZ值。
Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及FW
Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
实施例2:如图1-图4所示,一种基于多粒度特征的文本生成评价方法,本实施例与实施例1相同,其中:
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要-中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分(1最差,5最好)。
作为本发明的优选方案,所述步骤Step1.1的具体步骤:
Step1.1.1、过滤越南语、泰语、中文数据少于10个字符的句子:
Step1.1.2、过滤句子中的特殊字符;
Step1.1.3、并在每个语言中各挑出200个句子,作为越南语/泰语/中文参考句;
Step1.1.4、将参考句,利用谷歌翻译模型进行回译(将A语言的正向翻译成B,在将B反向翻译成A)的方式,反向翻译得到目标语言生成句。
作为本发明的优选方案,所述步骤Step1.2的具体步骤:
Step1.2.1、从LCST抽取200个摘要对,数据格式为:中文摘要-中文文档;
Step1.2.2、将中文摘要翻译为越南语摘要,作为越南语参考摘要;
Step1.2.3、方法一:跨语言摘要模型采用传统的基线方法先摘要后翻译(ST),将中文文档输入LexRank(无监督的抽取式摘要模型),得到中文生成摘要;在将中文生成摘要输入谷歌翻译模型,得到越南语生成摘要;
Step1.2.4、方法二:跨语言摘要模型采用传统的基线方法先翻译后摘要(TS),将中文摘要与文档采用谷歌翻译模型翻译成越南语后,输入LexRank,得到越南语生成摘要。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn}与生成句子词序列EY={ey1,ey2,ey3,…,eym},其中,exn表示参考句X中第n个子词;eym表示生成句Y中第m个子词;
Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn},exn表示参考句X中第n个子词;
{ex1,ex2,ex3,…,exn}=WordPiece(X) (1)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列EY={ey1,ey2,ey3,…,eym},eym表示生成句Y中第m个子词;
{ey1,ey2,ey3,…,eym}=WordPiece(Y) (2)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分。
Step2.4、将得到的参考句子词序列Ex输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},exn表示参考句X中第n个子词的向量表征;
{excls,ex1,ex2,ex3,…,exn,exsep}=MBERT{[cls],ex1,ex2,ex3,…,exn,[sep]} (3)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
Step2.5、将得到的生成句子词序列EY输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},eym表示生成句Y中第m个子词的向量表征;
{eycls,ey1,ey2,ey3,…,eym,eysep}=MBERT{[cls],ey1,ey2,ey3,…,eym,[sep]} (4)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用分词工具对参考句进行音节切分得到音节序列
Figure BDA0003262932600000111
Figure BDA0003262932600000112
表示参考句X中的第i音节由第n-1与第n个子词构成:
Figure BDA0003262932600000113
其中,syllablePiece表示进行音节切分,越南语以空格切分,泰语利用PyThaiNLP工具切分;
Step3.2、使用分词工具对生成句与进行音节切分得到
Figure BDA0003262932600000114
其中
Figure BDA0003262932600000115
表示参考句Y中的第j音节由第m个子词构成:
Figure BDA0003262932600000116
其中,syllablePiece表示进行音节切分;
Step3.3、基于Step2.4的得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},对参考句音节序列ZX进行对音节语义向量表示,根据下式(18),得到参考句音节序列语义向量表征
Figure BDA0003262932600000121
Figure BDA0003262932600000122
其中,pooling表示average pooling。
Step3.4、基于Step2.5得到的生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},对生成句音节序列ZY进行对音节语义向量表征表示,根据下式(8),得到生成句音节序列语义向量表征
Figure BDA0003262932600000123
Figure BDA0003262932600000124
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、在各语种下,根据式(9)对原始输入序列参考句X得到词组序列
Figure BDA0003262932600000125
其中,
Figure BDA0003262932600000126
表示生成句X中第l个词组由第i个音节构成。
Figure BDA0003262932600000127
其中,phrasePiece表示进行词组切分,中文使用jieba工具,越南语使用VnCoreNLP工具,泰语使用PyThaiNLP工具词;
Step4.2、在各语种下,根据式(10)对原始输入序列生成句Y分词得到词组序列
Figure BDA0003262932600000128
其中,
Figure BDA0003262932600000129
表示生成句Y中第p个词组由第j-2,j-1,j个音节构成。
Figure BDA00032629326000001210
其中,phrasePiece表示进行词组切分;
Step4.3、基于Step3.3得到的参考句音节序列语义向量表征
Figure BDA00032629326000001211
对参考句词组序列WX进行对词组语义向量表征表示,根据式(11)计算参考句词组序列语义向量表征
Figure BDA00032629326000001212
Figure BDA00032629326000001213
其中,pooling表示average pooling。
Step4.4、基于Step3.4得到的生成句音节序列语义向量表征
Figure BDA0003262932600000131
对生成句词组序列WY进行对词组语义向量表征表示,根据式(12)计算生成句词组序列语义向量表征
Figure BDA0003262932600000132
Figure BDA0003262932600000133
其中,pooling表示average pooling。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的召回率RE
Figure BDA0003262932600000134
其中,|Ex|为参考句子词序列的长度,
Figure BDA0003262932600000135
表示为exn与eym余弦相似度计算。
Step5.2、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的精确率PE
Figure BDA0003262932600000136
其中,|Ey|为生成句子词序列的长度,
Figure BDA0003262932600000137
表示为exn与eym余弦相似度计算。
Step5.3、根据下式计算子词粒度下生成句的FE
Figure BDA0003262932600000138
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.1、基于得到的参考句音节序列语义向量表征
Figure BDA0003262932600000139
与生成句音节序列语义向量表征
Figure BDA00032629326000001310
根据下式计算音节粒度下生成句的召回率RZ
Figure BDA0003262932600000141
其中,|ZX|为参考句音节序列的长度,
Figure BDA0003262932600000142
表示为
Figure BDA0003262932600000143
Figure BDA0003262932600000144
余弦相似度计算。
Step6.2、基于得到的音节序列语义向量表征
Figure BDA0003262932600000145
与生成句音节序列语义向量表征
Figure BDA0003262932600000146
根据下式计算音节粒度下生成句的精确率PZ
Figure BDA0003262932600000147
其中,|ZY|为生成句音节序列的长度,
Figure BDA0003262932600000148
表示为
Figure BDA0003262932600000149
Figure BDA00032629326000001410
余弦相似度计算。
Step6.3、根据下式计算音节粒度下生成句的FZ
Figure BDA00032629326000001411
作为本发明的优选方案,所述步骤Step7的具体步骤为:
Step7.1、基于得到的参考句词组序列语义向量表征
Figure BDA00032629326000001412
与生成句词组序列语义向量表征
Figure BDA00032629326000001413
根据下式计算词组粒度下生成句的召回率RW
Figure BDA00032629326000001414
其中,|WX|为参考句词组序列的长度,
Figure BDA00032629326000001415
表示为
Figure BDA00032629326000001416
Figure BDA00032629326000001417
余弦相似度计算;
Step7.2、基于得到的参考句词组序列语义向量表征
Figure BDA00032629326000001418
与生成句词组序列语义向量表征
Figure BDA00032629326000001419
根据下式计算词组粒度下生成句的精确率PW
Figure BDA00032629326000001420
其中,|WY|为生成句音节序列的长度,
Figure BDA0003262932600000151
表示为
Figure BDA0003262932600000152
Figure BDA0003262932600000153
余弦相似度计算;
Step7.3、根据下式计算词组粒度下生成句的FW
Figure BDA0003262932600000154
作为本发明的优选方案,所述步骤Step8的具体步骤为:
Step8.1、结合多粒度的语义特征,根据下式计算生成句的召回率R;
Figure BDA0003262932600000155
Step8.2、结合多粒度的语义特征,根据下式计算生成句的精确率;
Figure BDA0003262932600000156
Step8.3、根据下式计算词组粒度下生成句的F;
Figure BDA0003262932600000157
为了说明本发明的在文本生成测评上的有效性,本文设计了三组实验进行验证。第一组实验验证本发明在评价文本生成任务中的有效性;第二组验证多粒度特征在文本生成评价的有效性;实验三:验证了本发明在不同预训练语言模型及不同层数下的有效性。
本发明采用判断评价方法最常用皮尔逊相关系数r、斯皮尔曼等级系数ρ以及肯德尔等级系数τ来判定不同的自动评价指标与人工评价的相关性,r、ρ、τ取值越接近1表示相关性越好。
(1)本发明在评价文本生成任务中的有效性
本节在评价机器翻译、跨语言摘要两个文本生成任务上验证本发明的有效性,并选取以下四种评价方法作为基线方法。在同一文本生成任务中,所有的基线方法测评对象与本发明相同。
BLEU:基于统计的评价方法,在机器翻译评价任务中使用最广泛的评价指标,将生成句与参考句之间的长短关系作为惩罚因子,基于此,结合参考句与生成句的N-gram重叠率进行评分,在本文计算中,N最大为4;
ROUGE:基于统计的评价方法,在文本摘要评价任务中使用最为广泛,通过对比参考句与生成句间的N-gram重叠率进行评分,本文分别计算ROUGE-1、ROUGE-2、ROUGE-L的F1值;
Bertscore:基于深度语义匹配的评价方法,可用于文本生成任务的评价,通过计算参考句与生成句的子词粒度语义相似度进行评分,本文计算在该评价方法下的三个指标,为R召回率、P精确率、F值;
本发明:本文提出的评价方法,可用于文本生成任务的评价,综合子词、音节、词组语义特征信息对生成句进行评分,本文计算在该评价方法下的三个指标,为R召回率、P精确率、F值。
在机器翻译测评上,表2展示了在越中、中越、中泰机器翻译测评任务中本发明带来的性能提升。其中,MT(vi→zh)表示越中机器翻译测评任务,MT(zh→vi)表示中越机器翻译测评任务,MT(zh→th)表示中泰机器翻译测评任务。
表2机器翻译测评任务中基线方法对比实验
Figure BDA0003262932600000161
从上表可以看出:在越中测评任务上,本文提出的评价方法与人工评价相关性低于Bertscore。这是由于中文上子词属于较粗粒度(中文子词与音节基本相同),子词嵌入向量表征存在的误差,导致了多粒度语义特征提取时出现错误传播现象较为严重。
另外,在中越及中泰两个语言对的机器翻译测评任务上,本发明与人工评价的相关性明显高于基线BLEU和Bertscore,证明本发明评价的有效性。其中,本发明在中泰测评任务中提升最大,与Bertscore最优结果相比,在相关性系数r、ρ、τ分别取得了3.5%,2.8%,1.9%的提升。
在跨语言摘要测评上,表3展示了中越跨语言摘要测评任务中本发明带来的性能提升。其中,TS(zh→vi)表示先翻译后摘要的中越跨语言摘要测评任务;ST(zh→vi)表示先摘要后翻译的中越跨语言摘要测评任务。
表3跨语言摘要测评任务中基线方法对比实验
Figure BDA0003262932600000162
Figure BDA0003262932600000171
从上表可以看出:在中越跨语言摘要测评任务中,相比于ROUGE与Bertscore,本发明取得了最优结果。其中,Bertscore与本发明均是基于MBERT表征进行评价,二者与人工评估的相关性明显高于ROUGE,说明了基于语义相似度评价的方法比基于统计的评价方法更具有优势。在TS模型中,本发明与Bertscore最优结果相比,在相关系数r、ρ、τ上分别提升了1.6%,2.0%,1.9%;类似地,在ST模型中,本发明与Bertscore最优结果相比,在相关系数r、ρ、τ上分别得到1.3%,0.8%,0.2%的提升,证明了多粒度特征评价方法与人工评价相关性更高。
(2)多粒度特征在文本生成评价的有效性
为了验证本发明的多粒度特征文本生成评价方法优于单粒度的评价方法,本实验在中越与中泰两个语言对的测评任务上,探究在不同粒度特征匹配下的F值与人工评价的皮尔逊相关系数r、斯皮尔曼等级系数ρ以及肯德尔等级系数τ,实验结果如表4所示。
表4不同粒度下的F值对比实验
Figure BDA0003262932600000172
在上表中可以发现,针对r、ρ相关系数来说,在中越测评任务上,基于词组粒度的评价与人工评价相关系数最高;在中泰测评任务上,基于音节粒度的评价与人工评价相关系数最高;但无论是在中泰还是中越测评任务中,本发明与人工评估的相关系数r、ρ均维持在高于中位数水平,由此可见,结合多粒度特征的评价方法有较高的稳定性。针对相关系数τ来说,本发明与单粒度评价中的最优结果相近。由此,进一步证明了本发明的评估方法具有更加稳定的性能。
(3)本发明在不同预训练语言模型及不同层数下的有效性
为了验证本文提出方法在不同预训练语言模型上的有效性,以及探究预训练语言模型层数对本文提出的评价方法的性能的影响,本小节在MBERT与XLM(xlm-mlm-100-1280)两个预训练语言模型上进行实验,计算不同层表示下本发明或Bertscore的F值与人工评估的皮尔逊相关系数ρ,结果如图2所示。
从上图可以看出,一方面,在不同的预训练语言模型中,本发明与Bertscore相比表现更好。另一方面,在中越与中泰的测评任务中,本发明或Bertscore与人工评估的相关性并没有随着模型层数的增加而不断上升,而是在中间层取得了更好的结果,说明中间层的表示包含了更多的语义信息。同时,本发明与Bertscore比较,在低层表示时性能提升较大,这是由于低层的表征中包含了更多子词本身的信息,此时更加明显的体现出了基于多粒度的方法能提取更全面的信息。而随着层数的增加,子词向量表征提取到了更多上下文的信息以及一些语义无关信息,此时带来的错误传播也更为明显,以致于本发明较Bertscore在性能提升出现了减缓的趋势。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种基于多粒度特征的文本生成评价方法,其特征在于:所述基于多粒度特征的文本生成评价方法具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,构造文本生成测评任务数据集;所述文本生成测评任务数据集数据格式为:参考句-生成句,并对数据集进行人工评价;
Step2、在上述构造的文本生成测评任务数据集基础上,对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征,得到参考句子词序列Ex与生成句子词序列EY,以及参考句子词序列语义向量表征EX与生成句子词序列语义向量表征EY
Step3、利用对应语言音节切分工具,对参考句X与生成句Y进行音节切分,得到参考句音节序列ZX与生成句音节序列ZY,并结合Step2,得到参考句音节序列语义向量表征ZX与生成句音节序列语义向量表征ZY
Step4、利用对应语言分词工具,对参考句X与生成句Y进行词组切分,得到参考句词组序列WX与生成句词组序列WY,并结合Step3,得到参考句词组序列语义向量表征WX与生成句词组序列语义向量表征WY
Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及FE值;
Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及FZ值;
Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及FW值;
Step8、结合各粒度下的召回率、精确率与F值,综合考虑各粒度特征,确定生成句最终的召回率R、精确率P与F值。
2.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、构造机器翻译测评数据集:从互联网采集越南语、泰语、中文数据并人工进行处理,得到越南语、泰语、中文句子,作为参考句,利用谷歌翻译得到生成句;
Step1.2、构造跨语言摘要测评数据集:采用公开的中文短文本摘要数据集LCSTS,数据格式为:中文摘要—中文文档,其中,中文摘要翻译成越南语作为参考句;将中文文档输入跨语言摘要模型得到越南语生成摘要;
Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价,人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到;打分时,以参考句为基准,综合考虑生成句的相关性、一致性和流畅性,打分范围为以1到5分。
3.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、利用MBERT模型中的WordPiece模块,对参考句X与生成句Y进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn}与生成句子词序列EY={ey1,ey2,ey3,…,eym},其中,exn表示参考句X中第n个子词;eym表示生成句Y中第m个子词;
Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列Ex={ex1,ex2,ex3,…,exn},exn表示参考句X中第n个子词;
{ex1,ex2,ex3,…,exn}=WordPiece(X) (1)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分;
Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列EY={ey1,ey2,ey3,…,eym},eym表示生成句Y中第m个子词;
{ey1,ey2,ey3,…,eym}=WordPiece(Y) (2)
其中,WordPiece表示采用WordPiece模块对句子进行子词切分;
Step2.4、将得到的参考句子词序列Ex输入MBERT模型,对其进行上下文嵌入得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},exn表示参考句X中第n个子词的向量表征;
{excls,ex1,ex2,ex3,…,exn,exsep}=MBERT{[cls],ex1,ex2,ex3,…,exn,[sep]} (3)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位;
Step2.5、将得到的生成句子词序列EY输入MBERT模型,对其进行上下文嵌入得到生成句的子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},eym表示生成句Y中第m个子词的向量表征;
{eycls,ey1,ey2,ey3,…,eym,eysep}=MBERT{[cls],ey1,ey2,ey3,…,eym,[sep]} (4)
其中,MBERT表示Multilingual BERT词嵌入;[cls]表示句子的起始标志位;[sep]表示句子的结束标志位。
4.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、使用分词工具对参考句进行音节切分得到音节序列
Figure FDA0003262932590000031
Figure FDA0003262932590000032
表示参考句X中的第i音节由第n-1与第n个子词构成:
Figure FDA0003262932590000033
其中,syllablePiece表示进行音节切分,越南语以空格切分,泰语利用PyThaiNLP工具切分;
Step3.2、使用分词工具对生成句与进行音节切分得到
Figure FDA0003262932590000034
其中
Figure FDA0003262932590000035
表示参考句Y中的第j音节由第m个子词构成:
Figure FDA0003262932590000036
其中,syllablePiece表示进行音节切分;
Step3.3、基于得到参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep},对参考句音节序列ZX进行对音节语义向量表示,根据下式(1),得到参考句音节序列语义向量表征
Figure FDA0003262932590000037
Figure FDA0003262932590000038
其中,pooling表示average pooling。
Step3.4、基于得到的生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},对生成句音节序列ZY进行对音节语义向量表征表示,根据下式(8),得到生成句音节序列语义向量表征
Figure FDA0003262932590000039
Figure FDA00032629325900000310
其中,pooling表示average pooling。
5.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、在各语种下,根据式(9)对原始输入序列参考句X得到词组序列
Figure FDA0003262932590000041
其中,
Figure FDA0003262932590000042
表示生成句X中第l个词组由第i个音节构成;
Figure FDA0003262932590000043
其中,phrasePiece表示进行词组切分,中文使用jieba工具,越南语使用VnCoreNLP工具,泰语使用PyThaiNLP工具词;
Step4.2、在各语种下,根据式(10)对原始输入序列生成句Y分词得到词组序列
Figure FDA0003262932590000044
其中,
Figure FDA0003262932590000045
表示生成句Y中第p个词组由第j-2,j-1,j个音节构成;
Figure FDA0003262932590000046
其中,phrasePiece表示进行词组切分;
Step4.3、基于得到的参考句音节序列语义向量表征
Figure FDA0003262932590000047
对参考句词组序列WX进行对词组语义向量表征表示,根据式(11)计算参考句词组序列语义向量表征
Figure FDA0003262932590000048
Figure FDA0003262932590000049
其中,pooling表示average pooling;
Step4.4、基于得到的生成句音节序列语义向量表征
Figure FDA00032629325900000410
对生成句词组序列WY进行对词组语义向量表征表示,根据式(12)计算生成句词组序列语义向量表征
Figure FDA00032629325900000411
Figure FDA00032629325900000412
其中,pooling表示average pooling。
6.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的召回率RE
Figure FDA0003262932590000051
其中,|Ex|为参考句子词序列的长度,
Figure FDA0003262932590000052
表示为exn与eym余弦相似度计算;
Step5.2、基于得到的参考句子词序列语义向量表征EX={excls,ex1,ex2,ex3,…,exn,exsep}与生成句子词序列语义向量表征EY={eycls,ey1,ey2,ey3,…,eym,eysep},根据下式计算子词粒度下生成句的精确率PE
Figure FDA0003262932590000053
其中,|Ey|为生成句子词序列的长度,
Figure FDA0003262932590000054
表示为exn与eym余弦相似度计算;
Step5.3、根据下式计算子词粒度下生成句的FE
Figure FDA0003262932590000055
7.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step6的具体步骤为:
Step6.1、基于得到的参考句音节序列语义向量表征
Figure FDA0003262932590000056
与生成句音节序列语义向量表征
Figure FDA0003262932590000057
根据下式计算音节粒度下生成句的召回率RZ
Figure FDA0003262932590000058
其中,|ZX|为参考句音节序列的长度,
Figure FDA0003262932590000059
表示为
Figure FDA00032629325900000510
Figure FDA00032629325900000511
余弦相似度计算;
Step6.2、基于得到的音节序列语义向量表征
Figure FDA00032629325900000512
与生成句音节序列语义向量表征
Figure FDA00032629325900000513
根据下式计算音节粒度下生成句的精确率PZ
Figure FDA00032629325900000514
其中,|ZY|为生成句音节序列的长度,
Figure FDA0003262932590000061
表示为
Figure FDA0003262932590000062
Figure FDA0003262932590000063
余弦相似度计算;
Step6.3、根据下式计算音节粒度下生成句的FZ
Figure FDA0003262932590000064
8.根据权利要求1所述的基于多粒度特征的文本生成评价方法,其特征在于:所述步骤Step7的具体步骤为:
Step7.1、基于得到的参考句词组序列语义向量表征
Figure FDA0003262932590000065
与生成句词组序列语义向量表征
Figure FDA0003262932590000066
根据下式计算词组粒度下生成句的召回率RW
Figure FDA0003262932590000067
其中,|WX|为参考句词组序列的长度,
Figure FDA0003262932590000068
表示为
Figure FDA0003262932590000069
Figure FDA00032629325900000610
余弦相似度计算;
Step7.2、基于得到的参考句词组序列语义向量表征
Figure FDA00032629325900000611
与生成句词组序列语义向量表征
Figure FDA00032629325900000612
根据下式计算词组粒度下生成句的精确率PW
Figure FDA00032629325900000613
其中,|WY|为生成句音节序列的长度,
Figure FDA00032629325900000614
表示为
Figure FDA00032629325900000615
Figure FDA00032629325900000616
余弦相似度计算;
Step7.3、根据下式计算词组粒度下生成句的FW
Figure FDA00032629325900000617
CN202111078487.1A 2021-09-15 2021-09-15 一种基于多粒度特征的文本生成评价方法 Active CN113901840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111078487.1A CN113901840B (zh) 2021-09-15 2021-09-15 一种基于多粒度特征的文本生成评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111078487.1A CN113901840B (zh) 2021-09-15 2021-09-15 一种基于多粒度特征的文本生成评价方法

Publications (2)

Publication Number Publication Date
CN113901840A true CN113901840A (zh) 2022-01-07
CN113901840B CN113901840B (zh) 2024-04-19

Family

ID=79028280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111078487.1A Active CN113901840B (zh) 2021-09-15 2021-09-15 一种基于多粒度特征的文本生成评价方法

Country Status (1)

Country Link
CN (1) CN113901840B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818666A (zh) * 2022-04-26 2022-07-29 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质
CN114896959A (zh) * 2022-04-15 2022-08-12 合肥工业大学 中日词语自动对齐方法和系统
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN116308635A (zh) * 2023-02-23 2023-06-23 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN117034961A (zh) * 2023-10-09 2023-11-10 武汉大学 一种基于bert的中法互译质量测评方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202035A (zh) * 2016-06-30 2016-12-07 昆明理工大学 基于组合方法的越南语兼类词消歧方法
CN111581985A (zh) * 2020-05-14 2020-08-25 兰州大学 一种基于Transformer的汉盲翻译方法及系统
CN111914062A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 一种基于关键词的长文本问答对生成系统
CA3081242A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202035A (zh) * 2016-06-30 2016-12-07 昆明理工大学 基于组合方法的越南语兼类词消歧方法
CA3081242A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN111581985A (zh) * 2020-05-14 2020-08-25 兰州大学 一种基于Transformer的汉盲翻译方法及系统
CN111914062A (zh) * 2020-07-13 2020-11-10 上海乐言信息科技有限公司 一种基于关键词的长文本问答对生成系统
CN112257453A (zh) * 2020-09-23 2021-01-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LALITA LOWPHANSIRIKUL等: "WangchanBERTa: Pretraining transformer-based Thai Language Models", 《ARXIV:2101.09635 》, 20 March 2021 (2021-03-20), pages 1 - 24 *
李威宇: "问答系统中复合问句分解技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, 15 February 2020 (2020-02-15), pages 138 - 2366 *
赖华等: "基于多粒度特征的文本生成评价方法", 《中文信息学报》, vol. 36, no. 03, 15 March 2022 (2022-03-15), pages 45 - 53 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896959A (zh) * 2022-04-15 2022-08-12 合肥工业大学 中日词语自动对齐方法和系统
CN114896959B (zh) * 2022-04-15 2023-07-07 合肥工业大学 中日词语自动对齐方法和系统
CN114818666A (zh) * 2022-04-26 2022-07-29 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115422362B (zh) * 2022-10-09 2023-10-31 郑州数智技术研究院有限公司 一种基于人工智能的文本匹配方法
CN116308635A (zh) * 2023-02-23 2023-06-23 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN116308635B (zh) * 2023-02-23 2023-09-29 广州快塑电子科技有限公司 塑化产业报价结构化方法、装置、设备及存储介质
CN117034961A (zh) * 2023-10-09 2023-11-10 武汉大学 一种基于bert的中法互译质量测评方法
CN117034961B (zh) * 2023-10-09 2023-12-19 武汉大学 一种基于bert的中法互译质量测评方法

Also Published As

Publication number Publication date
CN113901840B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN113901840A (zh) 一种基于多粒度特征的文本生成评价方法
CN112257453B (zh) 融合关键词和语义特征的汉越文本相似度计算方法
CN105068997B (zh) 平行语料的构建方法及装置
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
Harrat et al. Cross-dialectal arabic processing
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113569562A (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN115525763A (zh) 基于改进so-pmi算法和融合词向量的情感分析方法
Heo et al. Multimodal neural machine translation with weakly labeled images
CN115470393A (zh) 面向汉越跨语言事件检索的事件预训练方法
Rahman et al. A corpus based n-gram hybrid approach of bengali to english machine translation
Mermer Unsupervised search for the optimal segmentation for statistical machine translation
Song et al. Improving embedding-based unsupervised keyphrase extraction by incorporating structural information
Chen et al. A simple and effective unsupervised word segmentation approach
CN111159405B (zh) 基于背景知识的讽刺检测方法
Tündik et al. Assessing the Semantic Space Bias Caused by ASR Error Propagation and its Effect on Spoken Document Summarization.
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Vakare et al. Sentence semantic similarity using dependency parsing
Khemakhem et al. Integrating morpho-syntactic features in English-Arabic statistical machine translation
Grönroos et al. Low-resource active learning of North Sámi morphological segmentation
Yadav et al. Image Processing-Based Transliteration from Hindi to English
Kurniawan et al. Building related words in Indonesian and English translation of Al-Qur’an vocabulary based on distributional similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant