CN114611492B - 一种文本顺滑方法、系统和计算机设备 - Google Patents

一种文本顺滑方法、系统和计算机设备 Download PDF

Info

Publication number
CN114611492B
CN114611492B CN202210262908.4A CN202210262908A CN114611492B CN 114611492 B CN114611492 B CN 114611492B CN 202210262908 A CN202210262908 A CN 202210262908A CN 114611492 B CN114611492 B CN 114611492B
Authority
CN
China
Prior art keywords
text
smooth
word
smoothing
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210262908.4A
Other languages
English (en)
Other versions
CN114611492A (zh
Inventor
陈玮
冯少辉
张建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202210262908.4A priority Critical patent/CN114611492B/zh
Publication of CN114611492A publication Critical patent/CN114611492A/zh
Application granted granted Critical
Publication of CN114611492B publication Critical patent/CN114611492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种文本顺滑方法、系统和计算机设备,属于语音识别技术领域;解决了现有技术中语音转写口语文本的顺滑方法无法满足复杂场景的需求,且生成的顺滑后的文本忠诚度和流畅度不高的问题;本发明的文本顺滑方法包括:通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充,得到扩充后的训练样本集合;利用训练样本集合对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到文本顺滑模型;利用文本顺滑模型识别待顺滑文本得到顺滑后的文本。本发明通过一个网络进行多任务建模,实现了不流畅文本检测,同时输出顺滑后的文本,提高了口语文本的可阅读性,识别文本更加人性化。

Description

一种文本顺滑方法、系统和计算机设备
技术领域
本发明涉及语音识别技术领域,特别涉及一种文本顺滑方法、系统和计算机设备。
背景技术
自动语音识别(Automatic Speech Recognition,ASR)得到的文本中往往含有大量不流畅的现象,这些不流畅现象会对后面的自然语言理解系统造成严重干扰。文本顺滑任务作为语音识别系统和自然语言理解系统之间的一个任务,是对语音识别后的文本不顺滑现象进行检测。经过顺滑后的文本不仅能有效提高语音识别后文本的可阅读性,且能减少对后续自然语言处理任务的干扰。
不流畅现象的原因主要包括ASR系统识别错误和说话人话中自带的不顺滑这两类。由于语言本身的复杂性和实际数据的多样性,并非通过简单的规则就能解决这些不顺滑问题,也难以人为的手动提取特征,所以借助人工标注和深度学习技术则成为了当前的主流方法。
文本顺滑任务现有的处理方法主要包括语音识别和自然语言处理两个方面。语音识别方法主要关注ASR识别错误,涉及语音降噪和声学模型建模等多种方法,例如噪声信道模型和端到端的Encoder-Decoder模型。自然语言处理方法则有基于句法解析的方法、序列标注方法、序列到序列文本生成方法等;本发明中重点关注自然语言处理方法的不顺滑现象。
现有的自然语言处理方法没有考虑到现有序列生成算法解码时的不可控性,顺滑后的文本忠诚度和流畅度不够,另外生成系列到系列模型通常有重复片段的系列生成,使得顺滑后的句子或多或少的改变着口语文本原有的含义,使得文本顺滑结果不够准确,或可读性不强,难以满足复杂场景的需求。
发明内容
鉴于上述的分析,本发明旨在提供一种文本顺滑方法、系统和计算机设备;解决现有技术中语音转写口语文本的顺滑方法无法满足复杂场景的需求,且生成的顺滑后的文本忠诚度和流畅度不高的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种文本顺滑方法,包括以下步骤:
样本构造,包括:通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充,得到扩充后的训练样本集合;
模型训练,包括:利用所述训练样本集合对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到文本顺滑模型;所述文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前所述不顺滑文本对应的顺滑文本;
顺滑文本识别,包括:获取语音识别后的待顺滑文本,利用所述文本顺滑模型识别得到顺滑后的文本。
进一步的,所述文本顺滑模型使用T5-base的预训练模型作为初始模型,包括输入层、编码器-解码器层和输出层;
所述编码器使用T5原生的基于自注意力机制的编码模型;根据输入的不顺滑文本得到具有不流畅文本上下文表示的隐向量;
所述解码器用于根据编码器隐向量,通过注意力计算,得到目标文本单词概率分布;
所述输出层包括不顺滑标签预测和顺滑文本生成任务;所述不顺滑标签预测任务,使用条件随机场来预测不顺滑标签序列;所述顺滑文本生成任务,采用集束搜索方法搜索出概率最大化的文本为目标顺滑文本。
进一步的,所述模型训练过程中,还包括忠诚度和流畅度提升策略及抑制重复片段生成策略;其中,
所述忠诚度和流畅度提升策略包括,所述解码器在计算目标文本单词概率过程中,使用Copy机制,将解码器每步生成出的单词概率分布与拷贝原文的单词概率看做一个混合模型,利用注意力得分作为拷贝单词的概率;
所述抑制重复片段生成策略包括,所述解码器在注意力计算过程中,引用覆盖机制,将当前时间步之前的注意力分数求和,得到覆盖特征向量ct;将ct作为计算注意力的输入时有,
其中,ct为当前时间步t之前的所有解码时间步输出的注意力分数之和,at′为在解码过程中,第t’步的注意力分数;
所述解码器采用下述公式计算带覆盖机制的注意力分布:
其中,vT、Wh、Ws、wc、b为可学习的参数;为覆盖特征向量;/>为归一化之前的注意力分布,hi为编码器隐状态,st为解码器状态。
进一步的,利用下述公式计算目标文本单词的概率分布:
其中,P(w)为最终的目标文本单词概率分布,pgen为复制输入序列的单词概率,Pvocab(w)为词汇表中生成的单词概率分布,w为任意一个词,为输入序列中所有等于当前时间步t词w所在的位置i对应/>的和,/>为注意力分布,即/> 为归一化之前的注意力分布;/>为编码器的上下文编码向量,hi为编码器隐状态,st为解码器状态,/>bptr、V′、V、b、b′为可学习的参数;
进一步的,所述解码器输出的顺滑序列集合,采用集束搜索方法搜索出最优的目标顺滑文本;搜索的最终目标结果Y={y1,y2……yt}的概率表示为:
其中,t为结果序列输出当前时间步,Ty为结果序列的长度;x为源序列输入;概率最大化目标结果的概率表示为:
其中,α为缓和系数。
进一步的,所述损失函数包括标签序列识别的损失函数、目标文本生成的损失函数以及两者结合的损伤函数,其中;
标签序列识别的损失函数为:
SRealPath为输入文本的真实标签路径,为某个时刻所有标签的总得分,/>(0<=i<=N)是某个时刻标签为i的得分;/>指第i个词被标记为zi的概率;/>表示从标签zi到zi+1的转移概率;η为CRF参数,x为源序列输入,z为标签序列;
目标文本生成的损失函数为:
λ为平衡系数,δ为Coverage的权重参数,为时间步t时刻的目标词;
两者结合后的损失函数:
L(x,y,z|θ)=(1-β)L(x,z|θ,η)+βL(x,y|θ,δ)
β为加权因子。
进一步的,所述构造包含伪标签的不顺滑语料对,包括:构造只包含“Filter”类别的语料对、构造只包含“Restart”类别的语料对和构造同时包含“Filter”和“Restart”类别的语料对;其中,
使用语气词集合,随机插入到原语句的任意位置,以构造得到所述只包含“Filter”类别的语料对;
随机从原始语句中选择一个文本片段,插入到该片段前的邻接位置,以构造得到所述只包含“Restart”类别的语料对;
对同一语句依次执行构造所述只包含“Filter”类别的语料对和构造所述只包含“Restart”类别的样本流程,构造出同时包含“Filter”和“Restart”类别的语料对;
所述构造扩充的不包含标签的语料对包括,将原语料库中不包含标签的语料对输入到相似文本扩展模型,得到与原句相似的文本,构造出不含标签的扩充语料对。
进一步的,所述样本构造还包括通过标签定义对原始数据中的标签进行优化,包括:使用标签“B-<e/>”、“I-<e/>”、“B-<rm/>”、“I-<rm/>”、“O”表示不顺滑序列;其中,“B-<e/>”表示语气词所在起始位置,“I-<e/>”标记语气词的中间和结束;“B-<rm/>”表示字词冗余起始位置,“I-<rm/>”表示冗余词中间和结束位置,“O”表示顺滑位置。
另一方面,本发明还提供了一种文本顺滑系统,包括:智能语音识别模块、辅助标注模块和文本顺滑模块;
所述文本顺滑模块,用于将语音转写文本经过顺滑文本生成任务,得到顺滑文本;并对语音转写文本经过不流畅检测,得到不顺滑标签;
所述语音识别模块,用于获取用户语音数据流,经过处理输出实时的语音转写文本,并输入到文本顺滑模块;
所述辅助标注模块,用于根据所述文本顺滑模块输出的所述不顺滑标签,对语音转写文本进行自动标注,并输出给文本顺滑模块。
第三方面,本发明还提供了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的文本顺滑方法。
本技术方案的有益效果:
本发明引入不流畅序列标签标注任务和流畅文本生成两个任务,能够满足辅助标注和顺滑生成的复杂场景需求,进一步减少了获取大量标记数据耗费的人力成本、时间成本,并且模型具有较强的文本顺滑能力。
本发明引入忠诚度和流畅度提升策略及抑制重复片段生成策略,使得生成的顺滑后的文本在不改变原有含义的前提下可阅读性更强。
本发明的关键技术点:
1.通过构造包含伪标签的训练样本和构造不含标签的扩充训练样本,对原有样本进行扩充,很大程度上增强了训练样本集合。
2.引入特殊符号<rm/>用来填充目标序列中不顺滑的空缺位,降低了顺滑模型学习难度并让模型更关注序列本身的上下文语义。
3.引入不流畅序列标签标注任务和流畅文本生成两个任务,能满足辅助标注和顺滑生成的复杂场景需求,进一步减少了获取大量标记数据耗费的人力成本、时间成本,并且模型具有比较强的文本顺滑能力。
4.引入忠诚度和流畅度提升策略及抑制重复片段生成策略,使得生成的顺滑后的文本在不改变原有含义的前提下可阅读性更强。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的文本顺滑方法的流程图。
图2为本发明实施例的文本顺滑模型结构图。
图3为本发明实施例的训练架构图。
图4为本发明实施例的文本顺滑系统。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的技术构思:本发明提出一种基于无监督预训练模型T5-base的多任务fine-tuning文本顺滑模型和训练方法。在样本构造方面,通过扩充顺滑和不顺滑样本集,增加样本多样性;多任务神经网络模型实现不流畅序列标签标注任务和流畅文本生成两个任务,可以在文本不流畅检测的同时也能得到顺滑之后的文本;在训练阶段,使用多任务联合学习方法去做参数微调,得到文本顺滑模型权重。其中,针对流畅文本生成不可控的问题引入缓解机制Copy机制和Coverage机制,提升顺滑后文本的忠诚度和流畅度。模型利用集束搜索选择最优的顺滑文本序列,利用CRF选择最优的标签序列,在真实的数据集上进行验证,辅助序列标注任务并实现在语音转写真实场景中符合规范的文本书面语。
本实施例中的一种文本顺滑方法,如图1所示,包括以下步骤:
步骤S1、通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对进行样本扩充;
常见的语音转写文本不流畅现象主要包括“Filter”和“Restart”两类;其中,“Filter”主要是指句子中没有实际含义的词,通常是语气词或呼应性的词,这些词对句子含义没有任何贡献,例如表1和表2所示。
表1中文中“Filter”不流畅现象示例
表2英文中“Filter”不流畅现象示例
而“Restart”指口语中存在的重复、冗余、修正或不完整词语的替换插入等,例如表3和表4所示。“Restart”这类不顺滑现象复杂多样,无法穷举,是顺滑任务的难点。
表3中文中“Restart”不流畅现象示例
表4英文中“Restart”不流畅现象示例
具体的,本实施例以SwitchBoard数据集为例:
首先,定义W1为“Filter”类别不顺滑的文本词集合,该集合通过统计SwitchBoard的所有出现的<e/>对应的字和词获得,<e/>为标记出现语气词的不顺滑序列位置的标签;
定义D为原始的SwitchBoard数据集,D=D1+D2,其中D1为包含不顺滑标签的语料对集合,D2为不包含标签的语料对集合;
定义扩充后最终的训练语料集合D'=D1+D2+D1'+D2',其中D1'为包含伪标签的不顺滑语料对集合,D2'为不包含标签的扩充语料对集合;
定义Li为第i个句子的长度。
训练样本构造包括如下步骤:
(1)标签定义:为了简化不顺滑文本的标签识别难度,将原始的SwitchBoard数据中的标签做了如下标签转换,以达到标签优化的目的;
在不流利检测任务中,针对“Filter”和“Restart”这两类不顺滑语句,SWBD使用“<e/>”和“<rm-N/><rpEndSub/>”、“<rm-N/><rpMid/>”、“<rpEndSub/>”来标记不顺滑的序列位置,使用“<f/>”标记顺滑的位置。其中<rm-N>中的N配合rm标签用来指向被替换文本,表示从当前位置算起前N个的序列为被替换文本。<rpMid/>表示替换文本的起始或中间标记,<rpEndSub/>表示替换文本的结束标记。
对于模型来说,SWBD这种标签结构复杂,学习难度大,为了方便CRF训练,本方案使用“B-<e/>”、“I-<e/>”、“B-<rm/>”、“I-<rm/>”、“O”来表示不顺滑序列,其中,“B-<e/>”表示语气词所在起始位置,“I-<e/>”表示语气词的中间和结束;“B-<rm/>”表示冗余字词起始位置,“I-<rm/>”表示冗余字词中间和结束位置;“O”表示顺滑的位置。
不顺滑检测就是预测出输入文本的这些标签序列,然后根据标签及其位置去检测不流畅的文本位置,这将有助于智能文本处理系统的辅助标注工作的实现。
表5展示了对SWBD原始标签的转化结果;
表5SWBD构造前后样本对比
(2)构造包含伪标签的不顺滑语料对集合D1':
首先,获取一批流畅的口语文本,去除文本中的标点符号,然后按照3:3:4的比例随机分为3份文本集合分别作为只包含“Filter”、只包含“Restart”以及同时包含“Filter”和“Restart”的原始构造样本,通过样本构造得到扩充后包含伪标签的“Filter”类别的样本集合Dfilter、“Restart”类别样本集合Drestart和同时包含“Filter”和“Restart”的样本集合Dfilter_restart
对于“Filter”类型不顺滑,其不顺滑部分通常是可以穷举的,使用W1中有限的词集合,随机插入到Li个任意位置,得到Dfilter
对于“Restart”类不顺滑:随机从原始句子中选择一个文本片段,插入到该片段的前边邻接位置,得到Drestart
Dfilter_restart数据集,通过依次执行上述“Filter”类型和“Restart”类型的构造流程,得到同时包含“Filter”和“Restart”的样本集合;
(3)构造不包含标签的扩充语料对集合D2':将SwitchBoard数据集中不包含标签的语料对集合D2中的原句输入到相似文本扩展模型,得到多个与原句相似的文本,作为新的样本加入不包含标签的扩充语料对集合D2';
(4)训练样本筛选:扩充后的样本集合D'中包含大量的脏数据,本发明使用训练好的kenlm语言模型得到目标句子的流畅度得分,该得分反映了该句子是否属于正常的表达方式,以此作为依据筛出掉部分不流畅的样本。
需要说明的是,原始的SWBD(SwitchBoard数据集)已经划分好了训练集、开发集和测试集。在训练样本构造过程中,训练集和开发集按照上述样本构造流程进行样本扩充,测试集除了标签做转化外其他均不做改变。表6和表7分别展示了SWBD构造前和构造后的样本统计情况。
表6原始SWBD数据集样本数和标签数统计
表7扩充后训练样本数和标签数统计
根据表6可以看出SWBD数据中大部分样本不包含不顺滑标签。对于无不顺滑标签的数据,本实施例首先依次使用英-中、中-英的翻译引擎进行数据增强;然后将不带标签的数据,构造为包含伪标签的数据。
作为一个具体的实施例,构造包含伪标签的数据的方法还包括:
根据SWBD数据集,统计“口语语气词-词频”表,选取概率大于0.7的语气词,随机插入原语句中某个分词后的位置;
利用训练样本中的翻译语料,将原始语句分词,随机选取分词后的词组进行重复,插入选择重复的词后面;
由于原词与可修正的词非常相似,模拟需要置换的词语,插入原词后面,使用EDA(Easy Data Augmentation)方法进行同义词替换(Synonyms Replace,SR),得到新的不顺滑语句;
由此,经过处理后,训练数据增多了2倍多,用以缓解样本不均衡带来的过拟合和模型准确率差的问题。表7展示了增强后的训练样本统计信息。
步骤S2:根据标签序列识别和目标文本生成的任务要求进行模型构建,如图2所示,本实施例的文本顺滑模型包括输入层、encoder-decoder层和输出层三部分,encoder和decoder均由12个T5Block堆叠而成;在encoder阶段,每个T5Block中包含SelfAttention、LayerNorm和DenseReluDense 3部分;在decoder阶段,除encoder的T5Block中已有模块,还增加了CrossAttention和LayerNorm模块,用来与encoder的隐输出一起计算相似权重,以发现与输入不顺滑文本的潜在关联,加强解码的特征表示能力。对于标签预测任务,经过decoder得到的解码特征经过全连接神经网络转换为输入序列到标签的概率分布,然后经过CRF的标签预测得到每个输入序列的标签。对于顺滑文本生成任务,上述解码特征经过Copy机制转换到词表和拷贝原词的联合概率表示,对此使用集束搜索得到最终的顺滑文本;
具体的,输入层接受不顺滑文本的输入Source=<X1,X2……XL>,并使用EV×D表示其特征,其中V、D分别为不顺滑文本的词表大小和词嵌入的特征维度。
中间层使用编码器、解码器的结构,用于提取文本的上下文信息。
输出层包含2个并列的子任务:标签预测任务和顺滑文本生成任务;标签预测任务使用条件随机场(Conditional Random Field,CRF)预测标签序列,即Tag=<Z1,Z2……ZL>;文本生成任务使用语言模型解码得到最终的顺滑文本,即Target=<Y1,Y2……YM>;其中L为原始序列长度,M为目标序列长度,Xi为原始句子序列化后的第i个序列单元,Zi是第i个单元的标签,Yj是目标句子中第j个单元,0<i≤L,0<j≤M;输出层的两个子任务共享中间层的参数。
特别的,对于顺滑文本生成任务,本实施例使用</rm>对不顺滑位置进行填充。
作为一个具体的实施例:
对于输入层:引入特殊词“</rm>”后,使用E′(V+1)×D替代EV×D表示词嵌入特征,该特征随模型训练得到合适的词向量;根据输入的不顺滑文本,经过分词后找到对应的词向量作为该层的输出。
对于中间层,包括:
(1)编码器:本方案编码器使用T5原生的基于自注意力机制的编码模型,输入的原始不流畅文本经过自注意力机制,得到具有不流畅文本上下文表示的隐向量H,即H=fencoder(X1,X1…XL);
(2)解码器:
不同于摘要生成任务,实际的语音识别系统中,对于顺滑后的文本要求忠诚于顺滑前的文本,为了提高这种忠诚度,本方案在解码器引入了Copy机制,以提高顺滑文本的忠诚度和流畅度。
前述的Copy机制,即将每步生成出的单词概率分布与拷贝原文的单词概率看做一个混合模型,利用注意力得分作为拷贝单词的概率:
其中,P(w)为最终的目标文本单词概率分布,pgen为复制输入序列的单词概率,Pvocab(w)为词汇表中生成的单词概率分布,w为任意一个词,为输入序列中所有等于当前时间步t的词w所在的位置i对应/>的和,/>为注意力分布,即 为归一化之前的注意力分布;/>为编码器的上下文编码向量,hi为编码器隐状态,st为解码器状态,/>bptr、V′、V、b、b′为可学习的参数。
另外,生成序列到序列模型通常有重复片段的序列会被生成,为了抑制重复片段生成,在解码器的注意力计算过程中,引入了Coverage机制,该机制的目的主要是对已经生成的词进行抑制,防止生成重复的词:
ct为新引入的覆盖特征向量;
该值为所有先前解码时间步输出的注意力分布,其作为计算注意力的输入,这有助于在计算注意力权重时避免重复的词出现:
其中,vT、Wh、Ws、wc、b为可学习的参数;为覆盖特征向量;/>为归一化之前的注意力分布,hi为编码器隐状态,st为解码器状态。
表8为重复片段生成示例,采用本实施例的Coverage机制后,可以很好的抑制这种重复现象。
表8重复片段生成示例
对于输出层,包括标签预测任务和顺滑文本生成任务;
标签预测任务:对于检测不顺滑位置的目的,使用条件随机场(ConditionalRandom Field,CRF)来预测不顺滑标签序列,在CRF中,输入的X作为观测序列输入,标签序列Z为状态序列,对给定X条件下Z的条件概率分布P(Z|X)进行建模,CRF的目标求使目标函数最大化的最优序列。CRF在训练阶段,学习P(Z|X)中蕴含的观测特征权重和状态特征权重,用训练好的CRF模型预测(解码)时,使用动态规划的维特比(Viterbi)算法来求解最优路径,即找出一条概率最大最可能的状态序列,即可得到输出序列Z;
顺滑文本生成任务:常用的顺滑文本生成方法为贪心法,贪心法是对decoder的输出直接取每个词的最大概率作为最终的顺滑文本;本发明使用集束搜索(BeamSearch)方法搜索出最优的目标顺滑文本。
集束搜索是一种常用的最佳序列结果的寻找方法;不同于贪心搜索,集束搜索是站在整个词序列整体的角度上使其概率最大化,集束搜索的方法中设有集束宽(beamwidth)参数,是指在生成每个结果yi时,会考虑集束宽个候选结果,本方案中集束宽设为3;
使用集束搜索方法的最终目标结果的概率表示为:
其中,t为结果序列输出当前时间步,Ty为结果序列的长度,上式中除以Ty是为了缓解集束搜索偏向更短的句子,而α为缓和系数,用于缓和除以Ty的影响,α取0.5。
最大化上式则表示为
具体地,本方案解码器的目的是获得使概率P(y1,y2…yn)最大化所对应的结果序列y1,y2…yn
步骤S3、利用训练样本对多任务神经网络模型进行训练,得到文本顺滑模型;文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前不顺滑文本对应的顺滑文本;
图3为本发明实施例的模型训练架构图,训练过程为基于顺滑标注样本扩充样本集,利用构造的训练样本集,基于T5-base的预训练模型做多任务训练,训练完成后,得到文本顺滑模型权重。
本方案使用T5-base的预训练模型作为初始模型,具体的只对编码器部分使用T5-base的编码器权重进行初始化;本方案的原始文本词表使用T5-base开源预训练模型的词表。顺滑文本生成的目标文本长度通常与原始文本长度会有不同,这对模型学习有一定的难度,为了降低学习难度并让模型更关注序列本身的上下文语义,本方案在解码端词表中引入新词<rm/>,目标序列在该词表最后追加<rm/>特殊词作为目标文本的词表,用来填充目标序列中不顺滑的空缺位。
词表的长度作为模型构建之前的超参数,其长度的变更意味着要重新训练模型,由于本方案的词表使用了T5预训练模型中的词表,而该词表中并不包含标记<rm/>,为此本方案将<rm/>追加到T5词表的末尾,并在训练时不加载预训练模型中的decoder输出层的权重,以此既能保证<rm/>前面所有的词的权重空间不受较大影响,同时保证了<rm/>在顺滑模型训练过程中连同其他词的权重一起调整。
本发明基于pytorch开源框架对文本顺滑多任务模型进行构建;源文本词表使用T5-base中的词表,大小为32128;目标文本词表为32129;在整个训练过程中,使用下述的损失函数进行梯度更新,α取经验值0.5;训练数据迭代次数20,损失为0.05左右停止训练;
定义X,Y,Z分别为原始句子、目标句子和原始句子标签序列;
定义标签预测任务的损失函数为:
SRealPath为输入文本的真实标签路径,为某个时刻所有标签的总得分,/>(0<=i<=N)是某个时刻标签为i的得分;/>指第i个词被标记为zi的概率;/>表示从标签zi到zi+1的转移概率;η为CRF参数,x为源序列输入,z为标签序列;/>
定义顺滑文本生成任务的损失函数为:
λ为平衡参数,本实施例中λ取值为1,δ为Coverage的权重参数,为时间步t时刻的目标词,该损失的好处在于对于每个注意力分布和当前的覆盖之间的重叠进行惩罚,能抑制重复的注意力;
定义整个文本顺滑任务的损失函数为:
L(x,y,z|θ)=(1-β)L(x,z|θ,η)+βL(x,y|θ,δ);
引入加权因子β来平衡两个任务的输出,由于顺滑文本生成任务比标签预测任务更复杂,为了在使用损失函数进行梯度更新过程中使较难的任务权重占比更高,本实施例中β取值为0.2,这样更有利于两个任务向同一个方向收敛。
表9为训练语料顺滑结果示例,经过不流畅检测和文本顺滑任务,将输入文本中不流畅的部分检测出来,然后通过删除操作,得到标签序列和顺滑文本序列。
表9训练语料示例
训练结果对比如表10所示,从表中可以看出使用本方案的T5-base+MultiTask多任务顺滑方案得到的标签预测结果和顺滑后文本的效果都有不同程度的提升。
表10文本顺滑装置训练结果对比
需要说明的是,预训练任务是预测与输入文本对应的字词来获得对口语文本信息的增强表示,以此作为初始参数去对下游的任务进行参数微调,使得下游的任务有更好的性能。在本方案中,为了加快模型收敛,提高模型识别准确率,使用开源的T5预训练模型作为初始模型,并在模型初始化阶段不加载原始T5输出层的线性词表层,大大提高了训练效率和文本预测的准确性。
步骤S4、利用语音转写后文本顺滑装置,输入转写的文本,输出经过顺滑后的文本。
表11为文本顺滑装置的实施结果,从实施结果可以看出,本发明的语音识别后的文本顺滑方法能够很好的预测口语转写识别文本的不顺滑位置,且得到的顺滑文本更加流畅,可阅读性更强。
表11文本顺滑装置实施结果
本方案引入不流畅序列标签标注任务和流畅文本生成两个任务,能满足辅助标注和顺滑生成的复杂场景需求,进一步减少了获取大量标记数据耗费的人力成本、时间成本,并且模型具有比较强的文本顺滑能力。因此,本发明是有意义的。表11中例举了本方案的实施效果,从表中可以看到针对不同长短的英文口语数据,对于冗余、无意义词语能有效的标记出来,并且生成的顺滑后的文本再不改变原有含义的前提下可阅读性更强。
综上所述,本发明提出的一种文本顺滑方法,结合不流利检测和文本顺滑的多任务学习方法,该方法不需要手动提取特征、直接输入口语文本数据,在文本顺滑的同时能检测出不顺滑的位置,能够满足辅助标注和顺滑生成的复杂场景需求;进一步减少了获取大量标记数据耗费的人力成本、时间成本,能够满足实际场景中文本顺滑任务,节省了时间和空间成本。
本发明的另一个实施例,如图4所示,提供一种文本顺滑系统,包括:智能语音识别模块、辅助标注模块和文本顺滑模块;
文本顺滑模块用于将语音转写文本经过顺滑文本生成任务,得到顺滑文本;并对语音转写文本经过不流畅检测,得到不顺滑标签;语音识别模块用于获取用户语音数据流,经过处理输出实时的语音转写文本,并输入到文本顺滑模块;辅助标注模块用于根据文本顺滑模块输出的不顺滑标签,对语音转写文本进行自动标注,并将经过标注的待顺滑文本输出给文本顺滑模块。
本发明的第三个实施例,提供了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;存储器存储有可被处理器执行的指令,所述指令用于被处理器执行以实现前述实施例的文本顺滑方法。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种文本顺滑方法,其特征在于,包括以下步骤:
样本构造,包括:通过构造包含伪标签的不顺滑语料对和构造不包含标签的扩充语料对样本进行扩充,得到扩充后的训练样本集合;
所述构造包含伪标签的不顺滑语料对,包括:构造只包含“Filter”类别的语料对、构造只包含“Restart”类别的语料对和构造同时包含“Filter”和“Restart”类别的语料对;
构造包含伪标签的数据的方法还包括:根据SWBD数据集,统计口语语气词词频表,选取概率大于0.7的语气词,随机插入原语句中某个分词后的位置;利用训练样本中的翻译语料,将原始语句分词,随机选取分词后的词组进行重复,插入选择重复的词后面;
所述样本构造还包括通过标签定义对原始数据中的标签进行优化,包括:使用标签“B-<e/>”、“I-<e/>”、“B-<rm/>”、“I-<rm/>”、“O”表示不顺滑序列;其中,“B-<e/>”表示语气词所在起始位置,“I-<e/>”标记语气词的中间和结束;“B-<rm/>”表示字词冗余起始位置,“I-<rm/>”表示冗余词中间和结束位置,“O”表示顺滑位置;
模型训练,包括:利用所述训练样本集合对多任务神经网络模型进行训练,并使用损失函数进行梯度更新,得到文本顺滑模型;所述文本顺滑模型用于输出当前不顺滑文本的不顺滑有序标签以及当前所述不顺滑文本对应的顺滑文本;对于不顺滑有序标签,经过解码器得到的解码特征,输入全连接神经网络转换为输入序列到标签的概率分布,经过CRF标签预测得到;对于所述顺滑文本,将所述解码特征经过Copy机制转换到词表和拷贝原词的联合概率表示,利用注意力得分作为拷贝单词的概率,并通过集束搜索得到;所述文本顺滑模型使用T5-base的预训练模型作为初始模型,原始文本词表使用T5-base开源预训练模型的词表,并在该词表最后追加特殊词<rm/>作为目标文本的词表,所述特殊词<rm/>用于填充目标序列中不顺滑的空缺位;所述文本顺滑模型包括输入层、编码器-解码器层和输出层;所述输入层使用E′(V+1)×D替代EV×D表示词嵌入特征,其中V、D分别为不顺滑文本的词表大小和词嵌入的特征维度;所述模型训练过程中,还包括抑制重复片段生成策略,包括,所述解码器在注意力计算过程中,通过覆盖机制,将当前时间步之前的注意力分数求和,得到覆盖特征向量ct;将ct作为计算注意力的输入时有,
其中,ct为当前时间步t之前的所有解码时间步输出的注意力分数之和,at′为在解码过程中,第t’步的注意力分数;
所述解码器采用下述公式计算带覆盖机制的注意力分布:
其中,为归一化之前的注意力分布,vT、Wh、Ws、wc、b为可学习的参数;/>为覆盖特征向量;hi为编码器隐状态,st为解码器状态,
顺滑文本识别,包括:获取语音识别后的待顺滑文本,利用所述文本顺滑模型识别得到顺滑后的文本。
2.根据权利要求1所述的文本顺滑方法,其特征在于,所述编码器使用T5原生的基于自注意力机制的编码模型;根据输入的不顺滑文本得到具有不流畅文本上下文表示的隐向量;
所述解码器用于根据编码器隐向量,通过注意力计算,得到目标文本单词概率分布;
所述输出层包括不顺滑标签预测和顺滑文本生成任务;所述不顺滑标签预测任务,使用条件随机场来预测不顺滑标签序列;所述顺滑文本生成任务,采用集束搜索方法搜索出概率最大化的文本为目标顺滑文本。
3.根据权利要求1所述的文本顺滑方法,其特征在于,利用下述公式计算目标文本单词的概率分布:
其中,P(w)为最终的目标文本单词概率分布,pgen为复制输入序列的单词概率,Pvocab(w)为词汇表中生成的单词概率分布,w为任意一个词,为输入序列中所有等于当前时间步t词w所在的位置i对应/>的和,/>为注意力分布,即/> 为归一化之前的注意力分布;/>为编码器的上下文编码向量,hi为编码器隐状态,st为解码器状态,/>bptr、V′、V、b、b′为可学习的参数。
4.根据权利要求2所述的文本顺滑方法,其特征在于,所述解码器输出的顺滑序列集合,采用集束搜索方法搜索出最优的目标顺滑文本;搜索的最终目标结果Y={y1,y2……yt}的概率表示为:
其中,t为结果序列输出当前时间步,Ty为结果序列的长度;x为源序列输入;概率最大化目标结果的概率表示为:
其中,α为缓和系数。
5.根据权利要求3所述的文本顺滑方法,其特征在于,所述损失函数包括标签序列识别的损失函数、目标文本生成的损失函数以及两者结合的损伤函数,其中;
标签序列识别的损失函数为:
SRealPath为输入文本的真实标签路径,为某个时刻所有标签的总得分,/>是某个时刻标签为i的得分;/>指第i个词被标记为zi的概率;表示从标签zi到zi+1的转移概率;η为CRF参数;x为源序列输入,z为标签序列;
目标文本生成的损失函数为:
λ为平衡参数,δ为Coverage的权重参数,为时间步t时刻的目标词;
两者结合后的损失函数:
L(x,y,z|θ)=(1-β)L(x,z|θ,η)+βL(x,y|θ,δ)
β为加权因子。
6.根据权利要求1所述的文本顺滑方法,其特征在于,使用语气词集合,随机插入到原语句的任意位置,以构造得到所述只包含“Filter”类别的语料对;
随机从原始语句中选择一个文本片段,插入到该片段前的邻接位置,以构造得到所述只包含“Restart”类别的语料对;
对同一语句依次执行构造所述只包含“Filter”类别的语料对和构造所述只包含“Restart”类别的样本流程,构造出同时包含“Filter”和“Restart”类别的语料对;
所述构造扩充的不包含标签的语料对包括,将原语料库中不包含标签的语料对输入到相似文本扩展模型,得到与原句相似的文本,构造出不含标签的扩充语料对。
7.一种文本顺滑系统,其特征在于,包括:智能语音识别模块、辅助标注模块和文本顺滑模块;
所述文本顺滑模块,用于将语音转写文本经过顺滑文本生成任务,得到顺滑文本;并对语音转写文本经过不流畅检测,得到不顺滑标签;所述文本顺滑模块通过权利要求1所述的模型训练方法训练得到;
所述语音识别模块,用于获取用户语音数据流,经过处理输出实时的语音转写文本,并输入到文本顺滑模块;
所述辅助标注模块,用于根据所述文本顺滑模块输出的所述不顺滑标签,对语音转写文本进行自动标注,并输出给文本顺滑模块。
8.一种计算机设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的文本顺滑方法。
CN202210262908.4A 2022-03-17 2022-03-17 一种文本顺滑方法、系统和计算机设备 Active CN114611492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210262908.4A CN114611492B (zh) 2022-03-17 2022-03-17 一种文本顺滑方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210262908.4A CN114611492B (zh) 2022-03-17 2022-03-17 一种文本顺滑方法、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN114611492A CN114611492A (zh) 2022-06-10
CN114611492B true CN114611492B (zh) 2023-11-17

Family

ID=81864637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210262908.4A Active CN114611492B (zh) 2022-03-17 2022-03-17 一种文本顺滑方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN114611492B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830599B (zh) * 2023-02-08 2023-04-21 成都数联云算科技有限公司 工业字符识别方法、模型训练方法、装置、设备和介质
CN116468341B (zh) * 2023-04-03 2024-04-09 上海乾臻信息科技有限公司 仲裁工单的处理方法、装置、系统及存储介质
CN116434753B (zh) * 2023-06-09 2023-10-24 荣耀终端有限公司 一种文本顺滑方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112507695A (zh) * 2020-12-01 2021-03-16 平安科技(深圳)有限公司 文本纠错模型建立方法、装置、介质及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767718A (zh) * 2020-07-03 2020-10-13 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112507695A (zh) * 2020-12-01 2021-03-16 平安科技(深圳)有限公司 文本纠错模型建立方法、装置、介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Get To The Point: Summarization with Pointer-Generator Networks;Abigail See;computation and language;全文 *
Multi-Task Self-Supervised Learning for Disfluency Detection;ShaoleiWang 等,;Proceedings of the AAAI Conference on Artificial Intelligence;第9193-9200页 *
基于自注意力机制的口语文本顺滑算法;智能计算机与应用,第188-192页,公开日2019年11月;智能计算机与应用;第188-192页 *

Also Published As

Publication number Publication date
CN114611492A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN114611492B (zh) 一种文本顺滑方法、系统和计算机设备
Liu et al. Diffsinger: Singing voice synthesis via shallow diffusion mechanism
CN111488726B (zh) 基于指针网络的非结构文本抽取多任务联合训练方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN108460013A (zh) 一种基于细粒度词表示模型的序列标注模型
CN114708868A (zh) 一种文本顺滑的语音识别方法、系统及存储介质
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN115293139B (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115062139B (zh) 一种对话文本摘要模型自动搜索方法
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN116821326A (zh) 基于自注意力和相对位置编码的文本摘要生成方法及装置
CN116483990A (zh) 一种基于大数据的互联网新闻内容自动生成方法
CN115994204A (zh) 适用于少样本场景的国防科技文本结构化语义分析方法
CN114781356B (zh) 一种基于输入共享的文本摘要生成方法
Forsati et al. An efficient meta heuristic algorithm for pos-tagging
Tseng et al. Cascading and direct approaches to unsupervised constituency parsing on spoken sentences
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
Wang et al. Refbert: Compressing bert by referencing to pre-computed representations
CN114333760A (zh) 一种信息预测模块的构建方法、信息预测方法及相关设备
CN111090720A (zh) 一种热词的添加方法和装置
CN114626362B (zh) 一种可控开放式组合规则知识生成方法及系统
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant