CN110795928A - 一种基于神经网络的语言句子切分方法及装置 - Google Patents

一种基于神经网络的语言句子切分方法及装置 Download PDF

Info

Publication number
CN110795928A
CN110795928A CN201810779891.3A CN201810779891A CN110795928A CN 110795928 A CN110795928 A CN 110795928A CN 201810779891 A CN201810779891 A CN 201810779891A CN 110795928 A CN110795928 A CN 110795928A
Authority
CN
China
Prior art keywords
clause
sentence
alignment
point
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810779891.3A
Other languages
English (en)
Other versions
CN110795928B (zh
Inventor
唐海庆
胡小克
童超
梁俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongchang (suzhou) Software Technology Co Ltd
China Mobile Communications Group Co Ltd
Original Assignee
Zhongchang (suzhou) Software Technology Co Ltd
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongchang (suzhou) Software Technology Co Ltd, China Mobile Communications Group Co Ltd filed Critical Zhongchang (suzhou) Software Technology Co Ltd
Priority to CN201810779891.3A priority Critical patent/CN110795928B/zh
Publication of CN110795928A publication Critical patent/CN110795928A/zh
Application granted granted Critical
Publication of CN110795928B publication Critical patent/CN110795928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的语言句子切分方法及装置,获取第一语言对应的待翻译句子,并采用预先训练的子句切分模型将待翻译句子切分为至少两个子句。其中,子句切分模型是通过神经网络模型针对双语平行句对训练得到的,利用训练好的模型实现了对没有标点符号的句子进行切分,并且提高了神经机器翻译的灵活性。

Description

一种基于神经网络的语言句子切分方法及装置
技术领域
本发明涉及自然语言处理及机器翻译技术领域,尤其涉及一种基于神经网络的语言句子切分方法及装置。
背景技术
近年来,随着全球化浪潮的推进,国际交流日益频繁,各行各业对翻译服务的需求都更加迫切。人工翻译的成本代价较大,且不能够满足实时翻译需求,而机器翻译以其高效和便捷的优势在工业界和日常生活中逐渐被广泛地应用。
通常,待翻译的句子可称为源端句子,翻译后的句子可称为目标端句子。目前,在利用机器对源端句子进行翻译之前,会将源端句子进行切分得到子句,分别翻译每个子句,再将子句的翻译结果拼接起来,得到整个句子的翻译结果,即目标端句子。而现有技术中在对源端句子进行切分时通常都是按照标点符号和预先定义的规则进行切分。基于标点符号和预先定义的规则切分源端句子的方法大多存在一定的局限性,例如,待切分的源端句子通常需要有标点符号或预先定义的规则。该基于标点符号和预先定义的规则切分源端句子的方法只适用于有特殊标记的句子,存在局限性,不够灵活。
发明内容
本发明的目的是提供一种基于神经网络的语言句子切分方法及装置,以解决现有技术中对没有标点符号的句子无法切分的问题。
本发明的目的是通过以下技术方案实现的:
第一方面,本发明提供一种基于神经网络的语言句子切分方法,包括:
获取第一语言对应的待翻译句子;
采用预先训练的子句切分模型将所述待翻译句子切分为至少两个子句;
其中,所述子句切分模型是通过神经网络模型针对双语平行句对训练得到的;
所述双语平行句对包括第一语言句子和针对所述第一语言句子翻译得到的第二语言句子。
可选的,所述子句切分模型通过如下方式训练得到:
获取所述双语平行句对;
基于所述神经网络模型确定所述双语平行句对中每个对齐点之间的对齐概率,其中,每个对齐点由所述第一语言句子中的词语与所述第二语言句子包括的词语构成;
根据所述双语平行句对中每个对齐点之间的对齐概率,确定以所述第一对齐点作为所述双语平行句对的子句切分点的可切分度值最高;
将所述第一对齐点中的第一词语作为所述第一语言句子的子句切分点,其中所述第一词语为所述第一语言句子中的词语;
所述切分度值用于表征以对齐点作为所述双语平行句对的切换点切分后的子句包括的词语之间的匹配程度;
依据所述子句切分点将所述第一语言句子切分为第一子句和第二子句;
分别对所述第一子句和第二子句进行句法分析,得到第一子句句法树以及第二子句句法树,所述第一子句句法树用于表征所述第一子句的句子结构;
将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中。
可选的,所述第一对齐点的第二词语作为所述第二语言句子的子句切分点将所述第二语言句子切分为第三子句和第四子句;
所述确定所述第一对齐点的可切分度值,包括:
利用第一子句包括的词语与所述第三子句包括的词语之间的对齐概率以及第二子句包括的词语与所述第四子句包括的词语之间的对齐概率确定WstIn、WstOut、WtsIn、WtsOut的值;
其中WstIn表示源端的对齐点和目标端的对齐点都包含在第一子句和第三子句中的对齐概率的和;WstOut表示源端的对齐点在第一子句,目标端的对齐点不在第三子句中的权值的和;WtsIn表示目标端的对齐点和源端的对齐点都包含在第三字句和第一子句中的权值的和;WtsOut表示目标端的对齐点在第二子句,源端对齐点不在第一字句中的权值的和;
利用所述WstIn、WstOut、WtsIn、WtsOut的值确定∈s2t,∈t2s,其中,所述∈s2t表示源端句子中的第一子句对齐到目标端句子中的第二子句的事件发生的概率,∈t2s表示目标端句子中的第二子句对齐到源端句子中的第一子句的事件发生的概率;
根据所述∈s2t,∈t2s,确定第一切分点的可切分度值。
可选的,所述方法还包括:
根据所述第一语言句子中的所述第一子句和所述第二子句,与所述第二语言句子中的第三子句和第四子句的匹配程度,确定所述第三字句以及所述第四子句的拼接顺序;
将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中,包括:
将所述第一子句句法树和第二子句句法树,以及所述拼接顺序对应存储在作为所述子句切分模型的句法树库中。
第二方面,本发明提供一种基于神经网络的语言句子切分装置,包括:
获取单元,用于获取第一语言对应的待翻译句子;
处理单元,用于采用预先训练的子句切分模型将所述获取单元获取到的待翻译句子切分为至少两个子句;
其中,所述子句切分模型是通过神经网络模型针对双语平行句对训练得到的;
所述双语平行句对包括第一语言句子和针对所述第一语言句子翻译得到的第二语言句子。
可选的,所述获取单元还用于:获取所述双语平行句对;
所述处理单元还用于:基于所述神经网络模型确定所述双语平行句对中每个对齐点之间的对齐概率,其中,每个对齐点由所述第一语言句子中的词语与所述第二语言句子包括的词语构成;
所述装置还包括:确定单元,用于根据所述双语平行句对中每个对齐点之间的对齐概率,确定以所述第一对齐点作为所述双语平行句对的子句切分点的可切分度值最高,并将所述第一对齐点中的第一词语作为所述第一语言句子的子句切分点,其中所述第一词语为所述第一语言句子中的词语;
所述切分度值用于表征以对齐点作为所述双语平行句对的切换点切分后的子句包括的词语之间的匹配程度;
所述处理单元还用于:依据所述子句切分点将所述第一语言句子切分为第一子句和第二子句;
所述装置还包括:分析单元,用于分别对所述第一子句和第二子句进行句法分析,得到第一子句句法树以及第二子句句法树,所述第一子句句法树用于表征所述第一子句的句子结构;
所述装置还包括:合并单元,用于将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中。
可选的,所述第一对齐点的第二词语作为所述第二语言句子的子句切分点将所述第二语言句子切分为第三子句和第四子句;
所述确定单元具体用于按如下方式确定所述第一对齐点的可切分度值:
利用第一子句包括的词语与所述第三子句包括的词语之间的对齐概率以及第二子句包括的词语与所述第四子句包括的词语之间的对齐概率确定WstIn、 WstOut、WtsIn、WtsOut的值;
其中WstIn表示源端的对齐点和目标端的对齐点都包含在第一子句和第三子句中的对齐概率的和;WstOut表示源端的对齐点在第一子句,目标端的对齐点不在第三子句中的权值的和;WtsIn表示目标端的对齐点和源端的对齐点都包含在第三字句和第一子句中的权值的和;WtsOut表示目标端的对齐点在第二子句,源端对齐点不在第一字句中的权值的和;
利用所述WstIn、WstOut、WtsIn、WtsOut的值确定∈s2t,∈t2s,其中,所述∈s2t表示源端句子中的第一子句对齐到目标端句子中的第二子句的事件发生的概率,∈t2s表示目标端句子中的第二子句对齐到源端句子中的第一子句的事件发生的概率;
根据所述∈s2t,∈t2s,确定第一切分点的可切分度值。
可选的,所述处理单元还用于:根据所述第一语言句子中的所述第一子句和所述第二子句,与所述第二语言句子中的第三子句和第四子句的匹配程度,确定所述第三字句以及所述第四子句的拼接顺序;
所述合并单元具体用于按如下方式将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中:
将所述第一子句句法树和第二子句句法树,以及所述拼接顺序对应存储在作为所述子句切分模型的句法树库中。
第三方面,本发明提供一种基于神经网络的语言句子切分装置,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行第一方面所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面所述的方法。
附图说明
图1为本申请实施例提供的一种基于神经网络的语言句子切分方法流程图;
图2为本申请实施例提供的一种子句切分模型的训练框图;
图3为本申请实施例提供的一种子句切分模型训练流程图;
图4为本申请实施例提供的一种双语约束子句切分示例图;
图5为本申请实施例提供的一种基于神经网络的语言句子切分装置的结构框图;
图6为本申请实施例提供的另一种基于神经网络的语言句子切分装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,神经网络机器翻译系统主要对句子进行翻译时主要是针对切分后的句子进行翻译,再将翻译后的句子进行拼接。现有技术中对待翻译的句子进行切分时通常是根据句子的标点符号或者预设的规则进行切分,而对于没有标点符号的句子不能进行切分。
有鉴于此,本申请实施例中提供了一种基于神经网络的语言句子切分方法和装置,通过双语平行句对训练得到子句切分模型,利用该子句切分模型对源端句子进行切分,然后将切分得到的片段输入到神经网络机器翻译系统中,翻译出源端子句片段对应的目标端子句片段,最后将目标端子句片段进行拼接,得到源端句子对应的目标端句子,从而解决了在句子没有标点符号时无法进行切分的问题,提高了灵活性。
需要理解的是,在下文的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
需要说明的是,本文中所涉及的“源端句子”即为第一语言句子,“目标端句子”即为第二语言句子。
图1所示为本申请实施例提供的一种基于神经网络的语言句子切分方法,图1所示方法的执行主体可以为一种基于神经网络的语言句子切分装置,参阅图1所示,该方法包括:
S101:获取待翻译的句子。
本申请实施例中,待翻译的句子可理解为第一语言对应的句子。
S102:采用预先训练的子句切分模型将待翻译句子切分为至少两个子句。
本申请实施例中,子句切分模型通过神经网络模型针对双语平行句对训练得到。
可以理解的是,双语平行句对即为互为翻译的句子,即双语平行句对包括第一语言句子和与第一语言对应的第二语言句子。
具体的,可参阅图2所示的框图来说明子句切分模型的具体流程,以下将详细对该过程进行说明。
图2中,双语对齐语料即为双语平行句对,有双语平行语料推导出切分点,进而得到双语对齐子句对,在子句对中抽取源端子句,对源端子句进行句法分析,得到子句句法树,再将子句句法树进行合并得到扁平树库,对扁平树库进行训练得到子句句法分析模型。
可以理解的是,该子句句法分析模型即为子句切分模型。
一种可能的实施方式中,子句切分模型可通过如下方式训练得到,参阅图 3所示,该方法包括:
S201:获取双语平行句对。
S202:基于神经网络模型确定双语平行句对中每个对齐点之间的对齐概率。
其中,每个对齐点由第一语言句子中的词语与第二语言句子包括的词语构成。
S203:根据双语平行句对中每个对齐点之间的对齐概率,确定对齐点的可切分度值。
S204:将第一对齐点中的第一词语作为第一语言句子的子句切分点。
本申请实施例中,可将对齐点中可切分度值最高的对齐点作为双语平行句对的子句切分点。
可以理解的是,对齐点中的第一词语对应的可切分度值最高。
S205:依据子句切分点将第一语言句子切分为第一子句和第二子句。
S206:分别对第一子句和第二子句进行句法分析,得到第一子句句法树以及第二子句句法树。
其中,第一子句句法树用于表征第一子句的句子结构。
可以理解是,句法树是指对子句进行句法分析,将分析得到的句法结构等分别对应在树的结点,由这些结点组成句法树。
S207:将第一子句句法树以及第二子句句法树合并存储在作为子句切分模型的句法树库中。
本申请实施例以下将对上述方法涉及到的步骤进行详细说明。
具体的,可利用双语平行句对计算源端句子与目标端句子中词语的对齐概率,进而确定对源端句子进行切分的切分点。
以下首先对对齐概率进行说明。
假设双语平行句对为(F,E),源端句子F和目标端句子E分别包含m和 n个词语,即F={f1,f2,…,fm},E={e1,e2,…,en}。
首先,使用双向循环神经网络对F进行编码,得到F的隐式状态序列:
H={h1,h2,…,hm},其中,1≤i≤m。
然后,解码器通过最大化目标待预测词汇的似然来优化整个翻译模型,预测目标词语yj的似然函数定义如下:
Figure RE-GDA0001838578500000081
其中,
Figure RE-GDA0001838578500000082
是一个非线性函数,sj是解码器端循环神经网络在第j步时的隐状态,计算公式如下:
其中,是一个基于门循环单元的循环神经网络;aj是对于每一个解码步骤都不同的源端上下文表示,是源端每个词语对应隐层状态向量的加权和:
Figure RE-GDA0001838578500000092
其中,ai,j是源端句子F中第i个词语与目标端句子E中第j个词语的对齐概率,计算公式如下:
Figure RE-GDA0001838578500000093
其中,
Figure RE-GDA0001838578500000094
是一个前馈神经网络。
当对齐概率确定之后,本申请实施例中可利用该对齐概率确定切分点,具体的,以下将对该过程进行详细说明。
具体的,本申请实施例中可根据双语对齐平行预料来推导句子的切分点。
需要说明的是,切分的定义如下:
假设某切分点为(x,y),其中源端第x个词与目标端第y个词对齐,同时x和y必然会满足1≤x≤m和1≤x≤n。
可定义F_={f1,f2,…,fx}表示源端句子F的左子句, _F={fx+1,fx+2,…,fm}表示源端句子F的右子句;相应地,分别用 E_={e1,e2,…,ey}和_E={ey+1,ey+2,…,en}来表示目标端子句E的左右子句。因此,由切分点(x,y)在平行句对(E,F)上切分出的新平行子句对可以被表示为(F_:x,E_:y)和(x:_F,y:_E)。
以下将具体描述如何确定切分点,由于本申请实施例中是根据可切分度的值来选择切分点,故,需要先确定处可切分度的值。
需要理解的是,本申请实施例中可用“可切分度”的数值来衡量在双语对齐平行预料中某个对齐点进一步切分句子的合适程度。
首先,定义对齐矩阵M、四个权重函数和两个事件:
对齐矩阵M:上文中涉及的源端句子F中第i个词语与目标端句子E中第 j个词语的对齐概率所组成的矩阵。
ωstIn(Fs,Es):M中满足条件:源端的对齐点(词语)和目标端的对齐点均包含在子句Fs和Es中,所有权值的和。
ωstOut(Fs,Es):M中满足条件:源端的对齐点在子句Fs中而目标端的对齐点不在子句Es中,所有权重的和。
ωtsIn(Fs,Es):M中满足条件:目标端的对齐点和源端的对齐点均包含在子句Es和Fs中,所有权重的和;
ωtsOut(Fs,Es):M中满足条件:目标端的对齐点在子句Es中而源端的对齐点不在子句Fs中,所有权重的和;
εs2t:表示一个事件,源端句子中的子句Fs对齐到目标端句子中的子句Es
εt2s:表示一个事件,目标端句子中的子句Es对齐到源端句子中的子句Fs
通过上述权重函数的定义可得到:
Figure RE-GDA0001838578500000101
Figure RE-GDA0001838578500000102
Figure RE-GDA0001838578500000103
其中,M(i,j)表示对齐矩阵M中第i行和第j列的元素,用来衡量源端子句中第i个词语与目标端子句中第j个词语相互对齐的概率(1≤i≤m和 1≤j≤n),集合
Figure RE-GDA0001838578500000104
本申请实施例中,可将第一对齐点的第二词语作为第二语言句子的子句切分点,将第二语言句子切分为第三子句和第四子句。
具体的,可采用如下方式确定对齐点的可切分度值,以下将举例对该过程进行详细说明。
如图4所示,为本申请实施例提供的一种双语约束子句切分示例,图中 CN_C0和EN_C0表示第一对切分点,CN_C1和EN_C1表示第二对切分点; CN_seg_1,CN_seg_2和CN_seg_3分别表示三个源端子句,EN_seg_1, EN_seg_2和EN_seg_3分别表示三个目标端子句。
需要说明的是,图中所示例子的第一语言句子的语言类别为中文,第二语言句子的语言类别为英文,中英文翻译仅是一种示例性说明,本发明并不局限于这两种语言类别。
每条对齐边上的数值即为M(i,j),没有对齐边的视为M(i,j)=0,以第二个子句对为例来计算四个权重函数:
ωstIn(Fseg2,Eseg2)=ωtsIn(Fseg2,Eseg2)
=M(一个中国,say)+M(一个中国,one)
+M(一个中国,china)+M(的,the)+M(原则,principle)
+M(是,is)+M(的,the)+M(前提,prerequisite)
=0.8+0.2+0.2+0.32+1.0+1.0+0.85+1.0=5.37
ωstOut(Fseg2,Eseg2)=M(和平,peaceful)+M(谈判,negotiations)
=1.0+1.0=2.0
ωtsOut(Fseg2,Eseg2)=0
其次,计算两个事件的发生的概率:
Figure RE-GDA0001838578500000111
Figure RE-GDA0001838578500000121
计算出源端句子与目标端句子的子句对事件的概率后,利用上述两个事件来计算源端子句和目标端子句的对齐置信度。
具体的,对齐置信度可通过源端子句对齐到目标端子句概率p(εs2t)和目标端子句对齐到源端子句概率p(εt2s)的加权调和平均数来确定,参阅如下公式:
Figure RE-GDA0001838578500000122
其中,p(εs2t)表示Fs与Es对齐权值的总和占Fs与目标端句子对齐权值总和的比值,p(εt2s)表示Es与Fs对齐权值的总和占Es与源端句子对齐权值总和的比例。
可以理解的是,d(Fs,Es)可理解为子句对(Fs,Es)的匹配程度与(Fs,Es) 中词语对齐的一致性。
当切分点为(x,y)时,可切分度d(x,y)=d(F_,E_)×d(_F,_E)。
按照上述方式,可计算出每个对齐点的可切分度值,本申请实施例中可将可切分度值最大的对齐点作为切分点。
进一步的,本申请实施例中在切分点处对源端句子以及目标端句子进行切分,可分为以下两种情况:
第一种:
假设选择出的切分点所对应的可切分度值小于经验选取的阈值,则直接将该可切分度值最大的对齐点作为切分点。
第二种:
假设选择出的切分点所对应的可切分度值大于或等于经验选取的阈值,则对句子继续由该切分点切分出的子句进一步切分,直至切分出的子句所对应的切分点的可切分度值小于经验选取的阈值。
针对第一种情况,当以该唯一的对齐点作为切分点切分双语对齐句子之后,可导出所有的双语对齐子句。
当切分导出所有的双语对齐子句之后,可从所有的双语对齐子句中抽取出源端子句,然后对每个源端子句进行句法分析。
通过切分点的确定,然后在双语对齐子句中抽取出源端子句,针对源端子句进行训练,得到单语切分模型。
在该单语切分模型中,输入一条待翻译的句子,其可自动的对待翻译的句子切分,并且使得该待翻译的句子在翻译后的句子更加准确。
在上述句法分析,并对子句句法所组成的树进行合并得到扁平树库的过程可借助现有技术实现,此处不作过多赘述。
进一步的,可根据第一语言句子中的第一子句和第二子句,与第二语言句子中的第三子句和第四子句的匹配程度,确定第三字句以及第四子句的拼接顺序。
一种可能的实施方式中,可在切分点处添加标签,该标签用于保证目标端子句为正序或逆序。
例如,中英文翻译时,英语语法中存在倒装句,可能会使得切分后的子句对并不能完全对应,即第一语言句子切分出的第一子句可能与第二语言句子中的第四子句对应,并不是与第三子句对应,因此,在翻译时需要对子句的顺序进行调整,以使得翻译后的句子正确。
英文中除了倒装还有一些规则,例如,部分标点或引导从句,“that”、“which”,在翻译或拼接时需要注意这些规则。
具体的,本申请实施例中可用Order和Cross来分别表示目标端子句为正序或逆序。当切分点处的标签为正序时,表示该切分点处对应的目标端子句是顺序拼接的,当切分点处的标签为逆序时,表示该切分点处对应的目标端子句是逆序拼接。
更进一步的,将第一子句句法树以及第二子句句法树合并存储在作为子句切分模型的句法树库中,包括:
将第一子句句法树和第二子句句法树,以及拼接顺序对应存储在作为子句切分模型的句法树库中。
当确定了切分点并且在切分点处添加了标签之后,可将源端子句(待翻译的子句片段)输入到神经网络翻译模型中,对源端子句进行翻译。
具体的,可分为以下两种:
当源端子句只有一个时,翻译后的句子即为目标句子。
当源端子句的数量大于一个时,可对翻译后的子句进行拼接,以得到目标译文。
由于在切分点处添加了表征目标端子句为正序或逆序的标签,因此,进行拼接时,可利用预先添加的标签对翻译后的子句进行拼接,得到目标端句子。
更进一步的,本申请实施例中可在训练单语切分模型的过程中,定义一个子句跟标签CLROOT来标记每个子句的子树。
可以理解的是,每个子句在进行句法分析时,可对应一个句法分析树,即每个子句可对应一个子树。
具体的,带有标签的句法树可参阅如下例子:
(S(CLROOT(IP(NP(NR词语1))(VP(VP(VA词语2))(VP(VV词语3) (NP(NN词语4))))(Order,)))(CLROOT(FRAG(NN词语5)(PU;))))
其中,IP(简单从句)、NP(名词短语)、NR(固有名词)、VA(表语形容词)、VV(动词)、VP(动词短语)、NN(常用名词)、FRAG(fragment,翻译时出错)、PU(断句符)均为句法树中的标签。
可以理解的是,上述例子中的词语1至词语5的词性分别与其各自的标签相对应,并且上述例子只是带有标签的句法树的一种示例性说明,其句法树的具体形式(包括标签顺序及内容等),本申请实施例并不限于此。
基于与上述基于神经网络的句子切分的方法实施例相同的构思,本发明实施例还提供了一种基于神经网络的语言句子切分装置,图5所示为本发明实施例提供的一种基于神经网络的语言句子切分装置的结构框图,参阅图5所示,该装置包括:获取单元101、处理单元102。
其中:获取单元101,用于获取第一语言对应的待翻译句子。
处理单元102,用于采用预先训练的子句切分模型将获取单元101获取到的待翻译句子切分为至少两个子句。
其中,子句切分模型是通过神经网络模型针对双语平行句对训练得到的。
该双语平行句对包括第一语言句子和针对第一语言句子翻译得到的第二语言句子。
进一步的,获取单元101还用于:获取双语平行句对。
处理单元102还用于:基于神经网络模型确定双语平行句对中每个对齐点之间的对齐概率,其中,每个对齐点由所述第一语言句子中的词语与所述第二语言句子包括的词语构成。
该装置还包括:确定单元103,用于根据双语平行句对中每个对齐点之间的对齐概率,确定以所述第一对齐点作为所述双语平行句对的子句切分点的可切分度值最高,并将所述第一对齐点中的第一词语作为所述第一语言句子的子句切分点。
其中,第一词语为第一语言句子中的词语。
切分度值用于表征以对齐点作为双语平行句对的切换点切分后的子句包括的词语之间的匹配程度。
处理单元还用于:依据子句切分点将第一语言句子切分为第一子句和第二子句。
所述装置还包括:分析单元104,用于分别对第一子句和第二子句进行句法分析,得到第一子句句法树以及第二子句句法树。
该第一子句句法树用于表征第一子句的句子结构。
所述装置还包括:合并单元105,用于将第一子句句法树以及第二子句句法树合并存储在作为子句切分模型的句法树库中。
进一步的,第一对齐点的第二词语作为第二语言句子的子句切分点将第二语言句子切分为第三子句和第四子句。
确定单元103具体用于按如下方式确定所述第一对齐点的可切分度值:
利用第一子句包括的词语与所述第三子句包括的词语之间的对齐概率以及第二子句包括的词语与所述第四子句包括的词语之间的对齐概率确定WstIn、 WstOut、WtsIn、WtsOut的值。
其中WstIn表示源端的对齐点和目标端的对齐点都包含在第一子句和第三子句中的对齐概率的和;WstOut表示源端的对齐点在第一子句,目标端的对齐点不在第三子句中的权值的和;WtsIn表示目标端的对齐点和源端的对齐点都包含在第三字句和第一子句中的权值的和;WtsOut表示目标端的对齐点在第二子句,源端对齐点不在第一字句中的权值的和。
利用WstIn、WstOut、WtsIn、WtsOut的值确定∈s2t,∈t2s,其中,∈s2t表示源端句子中的第一子句对齐到目标端句子中的第二子句的事件发生的概率,∈t2s表示目标端句子中的第二子句对齐到源端句子中的第一子句的事件发生的概率;
根据∈s2t,∈t2s,确定第一切分点的可切分度值。
可选的,处理单元102还用于:根据第一语言句子中的第一子句和第二子句,与第二语言句子中的第三子句和第四子句的匹配程度,确定第三字句以及第四子句的拼接顺序。
合并单元105具体用于按如下方式将第一子句句法树以及第二子句句法树合并存储在作为子句切分模型的句法树库中:
将第一子句句法树和第二子句句法树,以及拼接顺序对应存储在作为子句切分模型的句法树库中。
需要说明的是,本发明实施例中上述涉及的基于神经网络的语言句子切分装置中各个单元的功能实现可以进一步参照相关方法实施例的描述,在此不再赘述。
本申请实施例还提供另外一种基于神经网络的语言句子切分装置,如图6 所示,该装置包括:
存储器202,用于存储程序指令。
收发机201,用于接收和发送句子切分的指令。
处理器200,用于调用所述存储器中存储的程序指令,根据收发机201接收到的指令按照获得的程序执行本申请实施例所述的任一方法流程。处理器 200用于实现图5所示的处理单元(102)以及确定单元(103)所执行的方法。
其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器200代表的一个或多个处理器和存储器202代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
收发机201可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器200负责管理总线架构和通常的处理,存储器202可以存储处理器 200在执行操作时所使用的数据。
处理器200可以是中央处理器(CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质上存储有程序指令,该程序指令被处理器执行时,用于实现如上述所述的基于神经网络的句子切分方法的程序。
所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、 EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD)) 等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于神经网络的语言句子切分方法,其特征在于,包括:
获取第一语言对应的待翻译句子;
采用预先训练的子句切分模型将所述待翻译句子切分为至少两个子句;
其中,所述子句切分模型是通过神经网络模型针对双语平行句对训练得到的;
所述双语平行句对包括第一语言句子和针对所述第一语言句子翻译得到的第二语言句子。
2.如权利要求1所述的方法,其特征在于,所述子句切分模型通过如下方式训练得到:
获取所述双语平行句对;
基于所述神经网络模型确定所述双语平行句对中每个对齐点之间的对齐概率,其中,每个对齐点由所述第一语言句子中的词语与所述第二语言句子包括的词语构成;
根据所述双语平行句对中每个对齐点之间的对齐概率,确定以所述第一对齐点作为所述双语平行句对的子句切分点的可切分度值最高;
将所述第一对齐点中的第一词语作为所述第一语言句子的子句切分点,其中所述第一词语为所述第一语言句子中的词语;
所述切分度值用于表征以对齐点作为所述双语平行句对的切换点切分后的子句包括的词语之间的匹配程度;
依据所述子句切分点将所述第一语言句子切分为第一子句和第二子句;
分别对所述第一子句和第二子句进行句法分析,得到第一子句句法树以及第二子句句法树,所述第一子句句法树用于表征所述第一子句的句子结构;
将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中。
3.如权利要求2所述的方法,其特征在于,所述第一对齐点的第二词语作为所述第二语言句子的子句切分点将所述第二语言句子切分为第三子句和第四子句;
所述确定所述第一对齐点的可切分度值,包括:
利用第一子句包括的词语与所述第三子句包括的词语之间的对齐概率以及第二子句包括的词语与所述第四子句包括的词语之间的对齐概率确定WstIn、WstOut、WtsIn、WtsOut的值;
其中WstIn表示源端的对齐点和目标端的对齐点都包含在第一子句和第三子句中的对齐概率的和;WstOut表示源端的对齐点在第一子句,目标端的对齐点不在第三子句中的权值的和;WtsIn表示目标端的对齐点和源端的对齐点都包含在第三字句和第一子句中的权值的和;WtsOut表示目标端的对齐点在第二子句,源端对齐点不在第一字句中的权值的和;
利用所述WstIn、WstOut、WtsIn、WtsOut的值确定∈s2t,∈t2s,其中,所述∈s2t表示源端句子中的第一子句对齐到目标端句子中的第二子句的事件发生的概率,∈t2s表示目标端句子中的第二子句对齐到源端句子中的第一子句的事件发生的概率;
根据所述∈s2t,∈t2s,确定第一切分点的可切分度值。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第一语言句子中的所述第一子句和所述第二子句,与所述第二语言句子中的第三子句和第四子句的匹配程度,确定所述第三字句以及所述第四子句的拼接顺序;
将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中,包括:
将所述第一子句句法树和第二子句句法树,以及所述拼接顺序对应存储在作为所述子句切分模型的句法树库中。
5.一种基于神经网络的语言句子切分装置,其特征在于,包括:
获取单元,用于获取第一语言对应的待翻译句子;
处理单元,用于采用预先训练的子句切分模型将所述获取单元获取到的待翻译句子切分为至少两个子句;
其中,所述子句切分模型是通过神经网络模型针对双语平行句对训练得到的;
所述双语平行句对包括第一语言句子和针对所述第一语言句子翻译得到的第二语言句子。
6.如权利要求5所述的装置,其特征在于,所述获取单元还用于:获取所述双语平行句对;
所述处理单元还用于:基于所述神经网络模型确定所述双语平行句对中每个对齐点之间的对齐概率,其中,每个对齐点由所述第一语言句子中的词语与所述第二语言句子包括的词语构成;
所述装置还包括:确定单元,用于根据所述双语平行句对中每个对齐点之间的对齐概率,确定以所述第一对齐点作为所述双语平行句对的子句切分点的可切分度值最高,并将所述第一对齐点中的第一词语作为所述第一语言句子的子句切分点,其中所述第一词语为所述第一语言句子中的词语;
所述切分度值用于表征以对齐点作为所述双语平行句对的切换点切分后的子句包括的词语之间的匹配程度;
所述处理单元还用于:依据所述子句切分点将所述第一语言句子切分为第一子句和第二子句;
所述装置还包括:分析单元,用于分别对所述第一子句和第二子句进行句法分析,得到第一子句句法树以及第二子句句法树,所述第一子句句法树用于表征所述第一子句的句子结构;
所述装置还包括:合并单元,用于将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中。
7.如权利要求6所述的装置,其特征在于,所述第一对齐点的第二词语作为所述第二语言句子的子句切分点将所述第二语言句子切分为第三子句和第四子句;
所述确定单元具体用于按如下方式确定所述第一对齐点的可切分度值:
利用第一子句包括的词语与所述第三子句包括的词语之间的对齐概率以及第二子句包括的词语与所述第四子句包括的词语之间的对齐概率确定WstIn、WstOut、WtsIn、WtsOut的值;
其中WstIn表示源端的对齐点和目标端的对齐点都包含在第一子句和第三子句中的对齐概率的和;WstOut表示源端的对齐点在第一子句,目标端的对齐点不在第三子句中的权值的和;WtsIn表示目标端的对齐点和源端的对齐点都包含在第三字句和第一子句中的权值的和;WtsOut表示目标端的对齐点在第二子句,源端对齐点不在第一字句中的权值的和;
利用所述WstIn、WstOut、WtsIn、WtsOut的值确定∈s2t,∈t2s,其中,所述∈s2t表示源端句子中的第一子句对齐到目标端句子中的第二子句的事件发生的概率,∈t2s表示目标端句子中的第二子句对齐到源端句子中的第一子句的事件发生的概率;
根据所述∈s2t,∈t2s,确定第一切分点的可切分度值。
8.如权利要求7所述的装置,其特征在于,所述处理单元还用于:
根据所述第一语言句子中的所述第一子句和所述第二子句,与所述第二语言句子中的第三子句和第四子句的匹配程度,确定所述第三字句以及所述第四子句的拼接顺序;
所述合并单元具体用于按如下方式将所述第一子句句法树以及第二子句句法树合并存储在作为所述子句切分模型的句法树库中:
将所述第一子句句法树和第二子句句法树,以及所述拼接顺序对应存储在作为所述子句切分模型的句法树库中。
9.一种基于神经网络的语言句子切分装置,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1~4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行权利要求1~4中任一项所述的方法。
CN201810779891.3A 2018-07-16 2018-07-16 一种基于神经网络的语言句子切分方法及装置 Active CN110795928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810779891.3A CN110795928B (zh) 2018-07-16 2018-07-16 一种基于神经网络的语言句子切分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810779891.3A CN110795928B (zh) 2018-07-16 2018-07-16 一种基于神经网络的语言句子切分方法及装置

Publications (2)

Publication Number Publication Date
CN110795928A true CN110795928A (zh) 2020-02-14
CN110795928B CN110795928B (zh) 2023-09-05

Family

ID=69424857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810779891.3A Active CN110795928B (zh) 2018-07-16 2018-07-16 一种基于神经网络的语言句子切分方法及装置

Country Status (1)

Country Link
CN (1) CN110795928B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800779A (zh) * 2021-03-29 2021-05-14 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
EP3210132A1 (en) * 2014-10-24 2017-08-30 Google, Inc. Neural machine translation systems with rare word processing
CN107423290A (zh) * 2017-04-19 2017-12-01 厦门大学 一种基于层次结构的神经网络机器翻译模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3210132A1 (en) * 2014-10-24 2017-08-30 Google, Inc. Neural machine translation systems with rare word processing
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN107423290A (zh) * 2017-04-19 2017-12-01 厦门大学 一种基于层次结构的神经网络机器翻译模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐海庆: "基于单词和短语语义的统计翻译模型研究" *
郑晓康: "面向汉英专利文献的神经网络翻译模型的集外词翻译研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800779A (zh) * 2021-03-29 2021-05-14 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Also Published As

Publication number Publication date
CN110795928B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN111309915B (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
US8660836B2 (en) Optimization of natural language processing system based on conditional output quality at risk
CN112036162B (zh) 文本纠错的适配方法、装置、电子设备及存储介质
WO2021051560A1 (zh) 文本分类方法和装置、电子设备、计算机非易失性可读存储介质
CN110210043B (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN108804428A (zh) 一种译文中术语错译的纠正方法、系统及相关装置
US11709893B2 (en) Search method, electronic device and storage medium
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
US20140067365A1 (en) Language segmentation of multilingual texts
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
US11941361B2 (en) Automatically identifying multi-word expressions
WO2021143206A1 (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN108932218A (zh) 一种实例扩展方法、装置、设备和介质
Soto et al. Joint part-of-speech and language ID tagging for code-switched data
US11126797B2 (en) Toxic vector mapping across languages
US10120843B2 (en) Generation of parsable data for deep parsing
US20180197530A1 (en) Domain terminology expansion by relevancy
CN111160036A (zh) 一种对基于神经网络的机器翻译模型的更新方法及装置
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN110795928B (zh) 一种基于神经网络的语言句子切分方法及装置
US20200089774A1 (en) Machine Translation Method and Apparatus, and Storage Medium
US9189475B2 (en) Indexing mechanism (nth phrasal index) for advanced leveraging for translation
WO2023061441A1 (zh) 文本的量子线路确定方法、文本分类方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant