CN110858268B - 一种检测语音翻译系统中不流畅现象的方法及系统 - Google Patents
一种检测语音翻译系统中不流畅现象的方法及系统 Download PDFInfo
- Publication number
- CN110858268B CN110858268B CN201810949635.4A CN201810949635A CN110858268B CN 110858268 B CN110858268 B CN 110858268B CN 201810949635 A CN201810949635 A CN 201810949635A CN 110858268 B CN110858268 B CN 110858268B
- Authority
- CN
- China
- Prior art keywords
- text data
- fluent
- data
- training
- fluency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 77
- 239000013598 vector Substances 0.000 claims description 60
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000003416 augmentation Effects 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 208000031361 Hiccup Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供的一种检测语音翻译系统中不流畅现象的方法及系统,通过训练的不流畅检测模型对待检测的源文本数据中的不流畅现象进行标注,从语义层面将不流畅的文本数据转换为更适合书面表达的流畅的目标文本数据,以使其更符合书面语的表达习惯,更方便下游机器翻译任务的处理。
Description
技术领域
本发明涉及自然语言处理及语音信号处理领域,具体涉及一种检测语音翻译系统中不流畅现象的方法及系统。
背景技术
语音信号系统作为一项将语音信号转化为文本信号的技术,是移动互联网时代智能终端的重要组成部分。随着世界一体化,语言逐渐成为阻碍不同国家人们获取实时信息的一大障碍,因此语音翻译应运而生。
典型的语音翻译系统的结构,由语音识别模块,机器翻译模块,语音合成模块三部分串联组成。通常情况下,这些语音信号通过语音识别系统识别出来的文本与规范化书面文本有很大差别,而基于书面文本训练的机器翻译系统在处理口语文本时会遇到诸多问题,主要体现在口语文本还有很多不流畅因素。
不流畅检测任务的主要内容是识别出大多数口语文本中含有的重复,停顿,修正,冗余等口语现象,保留口语文本的主干内容,从而使口语文本更加贴近于书面语文本。为后续的自然语言处理任务(机器翻译,句法分析等)带来便利,提升性能。
发明内容
本发明实施例提供一种检测语音翻译中不流畅现象的方法及系统,提高语音翻译的性能。
为此,本发明提供如下技术方案:
第一方面,本发明实施例提供一种检测语音翻译系统中不流畅现象的方法,所述方法包括:
获取待检测的源文本数据;
对所述源文本数据进行预处理及向量化处理,得到每句源文本数据的词向量序列;
将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型,得到不流畅检测模型的输出结果;
根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。
可选的,所述不流畅检测模型的网络结构包括编码器和解码器;
所述不流畅检测模型的训练包括:
获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据;
分别对所述文本数据样本和流畅文本数据进行预处理及向量化处理,得到所述文本数据样本的词向量序列和所述流畅文本数据的词向量序列;
将所述文本数据样本的词向量序列输入所述编码器,得到所述文本数据样本的词编码向量;
将所述文本数据样本的词编码向量及对应的流畅文本数据输入所述解码器,得到目标文本序列;
利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型进行训练。
可选的,所述获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据,包括:
收集大量真实训练数据,所述真实训练数据包括带不流畅标注的文本数据及对应的流畅文本数据;
收集大量流畅的无标注文本数据,对所述无标注文本数据进行预处理及向量化处理,得到每句无标注文本数据的词向量序列;
将每句无标注文本数据的词向量序列输入预先训练好的反翻译模型,输出不流畅的目标文本数据;
对所述不流畅的目标文本数据进行筛选,得到增广训练数据;
将所述真实训练数据和所述增广训练数据组合成训练数据,所述训练数据包括带不流畅标注的文本数据样本和对应的流畅文本数据。
可选的,根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果,包括:
将不流畅检测模型的输出结果输入预先训练好的流畅端语言模型,计算所述不流畅检测模型的输出结果的得分;
比较所述不流畅检测模型的输出结果的得分,得到得分最高的不流畅检测模型的输出结果;
根据所述得分最高的不流畅检测模型的输出结果,得到最终的所述源文本数据对应流畅目标文本数据和不流畅标注结果。
可选的,所述流畅端语言模型的训练包括:
以所述训练数据中的所述流畅文本数据作为训练语料,利用所述训练语料和kenlm工具训练流畅端语言模型。
可选的,所述反翻译模型的网络结构包括编码器和解码器,所述反翻译模型的训练包括:
获取流畅的文本数据样本和与所述流畅的文本数据样本对应的带不流畅标注的文本数据;
分别对所述流畅的文本数据样本和带不流畅标注的文本数据进行预处理及向量化处理,得到所述流畅的文本数据样本的词向量序列和所述带不流畅标注的文本数据的词向量序列;
将所述流畅的文本数据样本的词向量序列输入编码器,得到所述流畅的文本数据样本的词编码向量;
将所述流畅的文本数据样本的词编码向量及对应的带不流畅标注的文本数据输入解码器,得到不流畅的目标文本序列;
利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型进行训练。
可选的,所述对所述源文本数据进行预处理包括:
对所述源文本数据按字切分,提取所述源文本数据的二元语法及三元语法特征;
根据所述源文本数据对应的语音信号提取韵律特征。
可选的,所述不流畅检测模型的输出结果包括:所述源文本数据对应的流畅目标文本数据和相应的不流畅标注结果。
可选的,所述流畅的无标注本文数据包括:新闻数据集和/或对话数据集。
可选的,对所述不流畅的目标文本数据进行筛选,得到增广训练数据,包括:
将所述不流畅的目标文本数据输入预先训练好的不流畅端语言模型,计算所述不流畅的目标文本数据的得分;
将所述不流畅的目标文本数据的得分与预设的阈值进行比较,舍弃低于所述阈值的不流畅的目标文本数据。
可选的,所述不流畅端语言模型的训练包括:
以所述训练语料中的带不流畅标注的文本数据样本作为训练语料,利用kenlm工具训练不流畅端语言模型。
可选的,所述损失函数采用交叉熵作为衡量指标。
可选的,所述真实训练数据包括:
会议语音数据、演讲语音数据和/或个人陈述语音数据;
使用语音识别工具处理所述会议语音数据、演讲语音数据和/或个人陈述语音数据,得到带不流畅因素的文本数据;
人工标注所述带不流畅因素的文本数据中的不流畅因素,得到带不流畅标注的文本数据及对应的流畅文本数据。
第二方面,本发明实施例提供一种检测语音翻译系统中不流畅现象的系统,所述系统包括:
获取模块,用于获取待检测的源文本数据;
词向量模块,用于对所述源文本数据进行预处理及向量化处理,得到每句源文本数据的词向量序列;
不流畅检测模块,用于将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型,得到不流畅检测模型的输出结果;
结果确定模块,用于根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。
第三方面,本发明实施例提供一种终端,所述终端包括处理器、存储器和总线;所述处理器和存储器通过所述总线进行通信连接,所述存储器存储有检测语音翻译系统中不流畅现象的方法程序,所述处理器执行所述存储器中的程序,以实现第一方面的步骤。
本发明实施例提供的一种检测语音翻译系统中不流畅现象的方法,通过训练的不流畅检测模型对待检测的源文本数据中的不流畅现象进行标注,从语义层面将不流畅的文本数据转换为更适合书面表达的流畅的目标文本数据,以使其更符合书面语的表达习惯,更方便下游机器翻译任务的处理。
附图说明
为了更清晰地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例检测语音翻译系统中不流畅现象的方法的流程图;
图2是本发明实施例中不流畅检测模型的训练流程图;
图3是本发明实施例中反翻译模型的训练流程图;
图4是本发明实施例中通过反翻译模型增加不流畅检测模型的训练数据的流程图;
图5是本发明实施例中检测语音翻译系统中不流畅现象的系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
实施例一
参照图1,图1是本发明实施例提供一种检测语音翻译系统中不流畅现象的方法的流程图,所述方法包括:
S101.获取待检测的源文本数据;
所述源文本数据为语音识别装置得到的文本数据,如演讲、会议的转录数据等。
S102.对所述源文本数据进行预处理及向量化处理,得到每句源文本数据的词向量序列;
所述预处理包括:对所述源文本数据按字切分,提取所述源文本数据的二元语法及三元语法特征,根据所述源文本数据对应的语音信号提取韵律特征。预处理中的特征提取可以采用现有技术,如基于支持向量机等进行建模,所述向量化处理同样可以采用现有技术,如基于Word2Vec方法等。
S103.将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型,得到不流畅检测模型的输出结果;
例如:待检测的源文本数据为“我/要/去/北京/呃/是/去/上海”,其中“/”表示分词符。具体检测时,将所述源文本数据的词向量序列作为不流畅检测模型的输入序列,进行编码,得到输入序列的表达向量V;解码时,由V生成目标文本数据第一个词“我”,再由V和“我”生成目标文本数据的第二个词“要”;再由V、“我”和“要”生成目标文本数据的第三词“去”,以此类推,得到目标文本数据所有词,即“我/要/去/上海”。
S104.根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。
所述流畅目标文本数据为更方便机器翻译处理的流畅的文本数据。
本发明实施例提供的一种检测语音翻译系统中不流畅现象的方法,通过训练的不流畅检测模型对待检测的源文本数据中的不流畅现象进行标注,从语义层面将不流畅的文本数据转换为更适合书面表达的流畅的目标文本数据,以使其更符合书面语的表达习惯,更方便下游机器翻译任务的处理。
在本申请实施例中,所述不流畅检测模型的网络结构包括编码器和解码器;
参照图2,所述不流畅检测模型的训练包括:
S201.获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据作为训练数据;
S202.分别对所述文本数据样本和流畅文本数据进行预处理及向量化处理,得到所述文本数据样本的词向量序列和所述流畅文本数据的词向量序列;
需要说明的是,在不流畅检测模型训练过程中对训练数据中的带不流畅标注的文本数据样本和流畅文本数据进行预处理及向量化处理的方法与前面步骤120中对所述源文本数据进行预处理及向量化处理的方法可以相同,也可以不同,对此本发明实施例不做限定。
S203.将所述文本数据样本的词向量序列输入所述编码器,得到所述文本数据样本的词编码向量;
S204.将所述文本数据样本的词编码向量及对应的流畅文本数据输入所述解码器,得到目标文本序列;
S205.利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型进行训练。
所述训练包括:利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型的参数进行更新;在训练结束后,得到不流畅检测模型的参数。
所述损失函数采用交叉熵作为衡量指标。
在本申请实施例中,为了增加不流畅检测模型的训练数据,可以通过反翻译模型得到增广数据。
所述反翻译模型的网络结构包括编码器和解码器。
参照图3,所述反翻译模型的训练包括:
S301.获取流畅的文本数据样本和与所述流畅的文本数据样本对应的带不流畅标注的文本数据;
S302.分别对所述流畅的文本数据样本和带不流畅标注的文本数据进行预处理及向量化处理,得到所述流畅的文本数据样本的词向量序列和所述带不流畅标注的文本数据的词向量序列;
S303.将所述流畅的文本数据样本的词向量序列输入编码器,得到所述流畅的文本数据样本的词编码向量;
S304.将所述流畅的文本数据样本的词编码向量及对应的带不流畅标注的文本数据输入解码器,得到不流畅的目标文本序列;
S305.利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型进行训练。
所述训练包括:利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型的参数进行更新;在训练结束后,得到反翻译模型的参数。
所述损失函数采用交叉熵作为衡量指标。
参照图4,通过反翻译模型增加不流畅检测模型的训练数据,包括:
S401.收集大量真实训练数据,所述真实训练数据包括带不流畅标注的文本数据及对应的流畅文本数据;
所述真实训练数据可以包括但不局限于会议语音数据、演讲语音数据和个人陈述语音数据;
使用语音识别工具处理所述会议语音数据、演讲语音数据和/或个人陈述语音数据,得到带不流畅因素的文本数据;
人工标注所述带不流畅因素的文本数据中的不流畅因素,得到带不流畅标注的文本数据及对应的流畅文本数据。
S402.收集大量流畅的无标注文本数据,对所述无标注文本数据进行预处理及向量化处理,得到每句无标注文本数据的词向量序列;
S403.将每句无标注文本数据的词向量序列输入预先训练好的反翻译模型,输出不流畅的目标文本数据;
S404.对所述不流畅的目标文本数据进行筛选,得到增广训练数据;
S405.将所述真实训练数据和所述增广训练数据组合成训练数据,所述训练数据包括带不流畅标注的文本数据样本和对应的流畅文本数据。
在本申请实施例中,根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果,包括:
将不流畅检测模型的输出结果输入预先训练好的流畅端语言模型,计算所述不流畅检测模型的输出结果的得分;
比较所述不流畅检测模型的输出结果的得分,得到得分最高的不流畅检测模型的输出结果;
根据所述得分最高的不流畅检测模型的输出结果,得到最终的所述源文本数据对应流畅目标文本数据和不流畅标注结果。
在本申请实施例中,所述流畅端语言模型的训练包括:
以所述训练数据中的所述流畅文本数据作为训练语料,利用所述训练语料和kenlm工具训练流畅端语言模型。
在本申请实施例中,所述不流畅检测模型的输出结果包括:所述源文本数据对应的流畅目标文本数据和相应的不流畅标注结果。
所述流畅的无标注本文数据可以包括但不局限于新闻数据集和对话数据集。
在本申请实施例中,对所述不流畅的目标文本数据进行筛选,得到增广训练数据,包括:
将所述不流畅的目标文本数据输入预先训练好的不流畅端语言模型,计算所述不流畅的目标文本数据的得分;
将所述不流畅的目标文本数据的得分与预设的阈值进行比较,舍弃低于所述阈值的不流畅的目标文本数据。
在本申请实施例中,所述不流畅端语言模型的训练包括:
以所述训练语料中的带不流畅标注的文本数据样本作为训练语料,利用kenlm工具训练不流畅端语言模型。
图5为本发明实施例提供的一种检测语音翻译系统中不流畅现象的系统,如图所示,所述系统包括:
获取模块,用于获取待检测的源文本数据;
词向量模块,用于对所述源文本数据进行预处理及向量化处理,得到每句源文本数据的词向量序列;
不流畅检测模块,用于将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型,得到不流畅检测模型的输出结果;
结果确定模块,用于根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见实施例一的相关描述,在此不再详细说明。
在本实施例中,通过大规模单语语料来训练得到高性能的翻译模型,降低或者避免了对双语语料的依赖。从而大大降低了构建高性能神经机器翻译模型的人力和物力成本,降低了神经机器翻译的应用门槛,为神经机器翻译的商业应用提供了方法支撑。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (14)
1.一种检测语音翻译系统中不流畅现象的方法,其特征在于,所述方法包括:
获取待检测的源文本数据;
对所述源文本数据进行预处理及向量化处理,得到每句源文本数据的词向量序列,其中,所述预处理包括:对所述源文本数据按字切分,提取所述源文本数据的二元语法及三元语法特征,根据所述源文本数据对应的语音信号提取韵律特征;
将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型,得到不流畅检测模型的输出结果;
根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。
2.根据权利要求1所述的方法,其特征在于,所述不流畅检测模型的网络结构包括编码器和解码器;
所述不流畅检测模型的训练包括:
获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据;
分别对所述文本数据样本和流畅文本数据进行预处理及向量化处理,得到所述文本数据样本的词向量序列和所述流畅文本数据的词向量序列;
将所述文本数据样本的词向量序列输入所述编码器,得到所述文本数据样本的词编码向量;
将所述文本数据样本的词编码向量及对应的流畅文本数据输入所述解码器,得到目标文本序列;
利用所述目标文本序列与对应的流畅文本数据的词向量序列之间的损失函数对不流畅检测模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述获取带不流畅标注的文本数据样本和与所述文本数据样本对应的流畅文本数据,包括:
收集大量真实训练数据,所述真实训练数据包括带不流畅标注的文本数据及对应的流畅文本数据;
收集大量流畅的无标注文本数据,对所述无标注文本数据进行预处理及向量化处理,得到每句无标注文本数据的词向量序列;
将每句无标注文本数据的词向量序列输入预先训练好的反翻译模型,输出不流畅的目标文本数据;
对所述不流畅的目标文本数据进行筛选,得到增广训练数据;
将所述真实训练数据和所述增广训练数据组合成训练数据,所述训练数据包括带不流畅标注的文本数据样本和对应的流畅文本数据。
4.根据权利要求3所述的方法,其特征在于,根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果,包括:
将不流畅检测模型的输出结果输入预先训练好的流畅端语言模型,计算所述不流畅检测模型的输出结果的得分;
比较所述不流畅检测模型的输出结果的得分,得到得分最高的不流畅检测模型的输出结果;
根据所述得分最高的不流畅检测模型的输出结果,得到最终的所述源文本数据对应流畅目标文本数据和不流畅标注结果。
5.根据权利要求4所述的方法,其特征在于,所述流畅端语言模型的训练包括:
以所述训练数据中的所述流畅文本数据作为训练语料,利用所述训练语料和kenlm工具训练流畅端语言模型。
6.根据权利要求3所述的方法,其特征在于,所述反翻译模型的网络结构包括编码器和解码器,所述反翻译模型的训练包括:
获取流畅的文本数据样本和与所述流畅的文本数据样本对应的带不流畅标注的文本数据;
分别对所述流畅的文本数据样本和带不流畅标注的文本数据进行预处理及向量化处理,得到所述流畅的文本数据样本的词向量序列和所述带不流畅标注的文本数据的词向量序列;
将所述流畅的文本数据样本的词向量序列输入编码器,得到所述流畅的文本数据样本的词编码向量;
将所述流畅的文本数据样本的词编码向量及对应的带不流畅标注的文本数据输入解码器,得到不流畅的目标文本序列;
利用所述不流畅的目标文本序列与对应的所述带不流畅标注的文本数据的词向量序列之间的损失函数对反翻译模型进行训练。
7.根据权利要求1所述的方法,其特征在于,所述对所述源文本数据进行预处理包括:
对所述源文本数据按字切分,提取所述源文本数据的二元语法及三元语法特征;
根据所述源文本数据对应的语音信号提取韵律特征。
8.根据权利要求1所述的方法,其特征在于,所述不流畅检测模型的输出结果包括:所述源文本数据对应的流畅目标文本数据和相应的不流畅标注结果。
9.根据权利要求3所述的方法,其特征在于,所述流畅的无标注本文数据包括:新闻数据集和/或对话数据集。
10.根据权利要求3所述的方法,其特征在于,对所述不流畅的目标文本数据进行筛选,得到增广训练数据,包括:
将所述不流畅的目标文本数据输入预先训练好的不流畅端语言模型,计算所述不流畅的目标文本数据的得分;
将所述不流畅的目标文本数据的得分与预设的阈值进行比较,舍弃低于所述阈值的不流畅的目标文本数据。
11.根据权利要求10所述的方法,其特征在于,所述不流畅端语言模型的训练包括:
以训练语料中的带不流畅标注的文本数据样本作为训练语料,利用
kenlm工具训练不流畅端语言模型。
12.根据权利要求2或6所述的方法,其特征在于,所述损失函数采用交叉熵作为衡量指标。
13.根据权利要求3所述的方法,其特征在于,所述真实训练数据包括:
会议语音数据、演讲语音数据和/或个人陈述语音数据;
使用语音识别工具处理所述会议语音数据、演讲语音数据和/或个人陈述语音数据,得到带不流畅因素的文本数据;
人工标注所述带不流畅因素的文本数据中的不流畅因素,得到带不流畅标注的文本数据及对应的流畅文本数据。
14.一种检测语音翻译系统中不流畅现象的系统,其特征在于,所述系统包括:
获取模块,用于获取待检测的源文本数据;
词向量模块,用于对所述源文本数据进行预处理及向量化处理,得到每句源文本数据的词向量序列,其中,所述预处理包括:
对所述源文本数据按字切分,提取所述源文本数据的二元语法及三元语法特征,根据所述源文本数据对应的语音信号提取韵律特征;
不流畅检测模块,用于将所述源文本数据的词向量序列输入预先训练好的不流畅检测模型,得到不流畅检测模型的输出结果;
结果确定模块,用于根据所述不流畅检测模型的输出结果,得到所述源文本数据对应的流畅目标文本数据和不流畅标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810949635.4A CN110858268B (zh) | 2018-08-20 | 2018-08-20 | 一种检测语音翻译系统中不流畅现象的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810949635.4A CN110858268B (zh) | 2018-08-20 | 2018-08-20 | 一种检测语音翻译系统中不流畅现象的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110858268A CN110858268A (zh) | 2020-03-03 |
CN110858268B true CN110858268B (zh) | 2024-03-08 |
Family
ID=69634879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810949635.4A Active CN110858268B (zh) | 2018-08-20 | 2018-08-20 | 一种检测语音翻译系统中不流畅现象的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110858268B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673261A (zh) * | 2021-09-07 | 2021-11-19 | 北京小米移动软件有限公司 | 数据生成方法、装置及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105760542A (zh) * | 2016-03-15 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 一种显示控制方法、终端及服务器 |
CN107066455A (zh) * | 2017-03-30 | 2017-08-18 | 唐亮 | 一种多语言智能预处理实时统计机器翻译系统 |
CN107093427A (zh) * | 2016-02-17 | 2017-08-25 | 通用汽车环球科技运作有限责任公司 | 不流畅语言的自动语音识别 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7860719B2 (en) * | 2006-08-19 | 2010-12-28 | International Business Machines Corporation | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers |
-
2018
- 2018-08-20 CN CN201810949635.4A patent/CN110858268B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN107093427A (zh) * | 2016-02-17 | 2017-08-25 | 通用汽车环球科技运作有限责任公司 | 不流畅语言的自动语音识别 |
CN105760542A (zh) * | 2016-03-15 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 一种显示控制方法、终端及服务器 |
CN107066455A (zh) * | 2017-03-30 | 2017-08-18 | 唐亮 | 一种多语言智能预处理实时统计机器翻译系统 |
Non-Patent Citations (3)
Title |
---|
Utterance Disfluency Handling in Indonesian-English Machine Translation;Khaidzir Muhammad Shahih等;《2016 International Conference On Advanced Informatics: Concepts, Theory And Application (ICAICTA)》;全文 * |
基于大规模评论数据的产品特征词典构建方法研究;李伟卿;王伟军;;数据分析与知识发现(01);全文 * |
基于语义分布相似度的翻译模型领域自适应研究;姚亮;洪宇;刘昊;刘乐;姚建民;;山东大学学报(理学版)(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110858268A (zh) | 2020-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255113B (zh) | 智能校对系统 | |
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN111177324B (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN112925945A (zh) | 会议纪要生成方法、装置、设备及存储介质 | |
CN112259083B (zh) | 音频处理方法及装置 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN112818680A (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN110852075A (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN114495904A (zh) | 语音识别方法以及装置 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN114003700A (zh) | 一种对话信息的处理方法、系统、电子设备及存储介质 | |
CN110858268B (zh) | 一种检测语音翻译系统中不流畅现象的方法及系统 | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
CN112231440A (zh) | 一种基于人工智能的语音搜索方法 | |
CN113850290B (zh) | 文本处理及模型训练方法、装置、设备和存储介质 | |
CN114707515A (zh) | 话术判别方法、装置、电子设备及存储介质 | |
CN114519358A (zh) | 翻译质量评估方法、装置、电子设备和存储介质 | |
CN114420159A (zh) | 音频评测方法及装置、非瞬时性存储介质 | |
CN114078470A (zh) | 模型处理方法及装置、语音识别方法及装置 | |
CN112634878A (zh) | 语音识别后处理方法和系统及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |