CN108549629B - 一种结合相似度和图匹配的老-汉双语句子对齐方法 - Google Patents

一种结合相似度和图匹配的老-汉双语句子对齐方法 Download PDF

Info

Publication number
CN108549629B
CN108549629B CN201810225609.7A CN201810225609A CN108549629B CN 108549629 B CN108549629 B CN 108549629B CN 201810225609 A CN201810225609 A CN 201810225609A CN 108549629 B CN108549629 B CN 108549629B
Authority
CN
China
Prior art keywords
chinese
laos
word
sentence
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810225609.7A
Other languages
English (en)
Other versions
CN108549629A (zh
Inventor
周兰江
李思卓
张建安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810225609.7A priority Critical patent/CN108549629B/zh
Publication of CN108549629A publication Critical patent/CN108549629A/zh
Application granted granted Critical
Publication of CN108549629B publication Critical patent/CN108549629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。本发明首先依据构建的老‑汉双语词典计算出老挝语和汉语句子的相似度值,然后充分考虑双语句子长度信息,计算出老挝语和汉语句子长度比例值,综合两个值计算出老挝语和汉语句子相似度值,使得老‑汉双语句子相似度计算具有较高的可靠性,这样就能在对齐过程中将相似度较高的老挝语和汉语句子进行对齐,简化句子对齐的流程。本发明能够有效地从双语语料库中挖掘出平行句对,老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。

Description

一种结合相似度和图匹配的老-汉双语句子对齐方法
技术领域
本发明涉及一种结合相似度和图匹配的老-汉双语句子对齐方法,属于自然语言处理和机器学习技术领域。
背景技术
双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术,因而具有重要的研究价值。很多情况下,双语语料我们可以获得,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落或者按照整篇文章来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式,从而进行平行句对的挖掘。
发明内容
本发明要解决的技术问题是提供一种结合相似度和图匹配的老-汉双语句子对齐方法,能够有效地从双语语料库中挖掘出平行句对,将老-汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率。
本发明采用的技术方案是:一种结合相似度和图匹配的老-汉双语句子对齐方法,包括如下步骤:
Step1、针对老-汉双语平行语料中的对齐片段,分别提取老挝语和汉语的特征词生成特征词列表,进而生成老挝语和汉语特征词的候选相似;
Step1.1、首先计算每一个对齐片段中老挝语和汉语的词频TF与反文档IDF比值的频率值,即TF/IDF,以此来确定老挝语和汉语中的一个词是否为特征词,其中,某一个词w的计算方法分别表示为公式(1)和(2)所示:
Figure BDA0001601248850000011
Figure BDA0001601248850000012
其中WNw表示词w在片段P中的词频,WNp表示一个片段p包含的总的词汇数,DNt表示语料中所有对齐片段的总数量,DNw表示在所有片段中包含词w的片段的数量,TFw为词w的词频,IDFw为词w的反文档,则词w的TF/IDF值的计算方法如公式(3)所示:
Figure BDA0001601248850000013
设定一个阈值,将老挝语和汉语中TF/IDF大于此阈值的词作为各自的特征词,并形成老挝语和汉语的特征词列表;
Step1.2、分别按照TF/IDF值的大小对老挝语和汉语的特征词列表中的特征词进行排序,在各自的列表中处于相似位置的词是互为译文的;
Step1.3、根据排序后的特征词列表,选择在列表中分布相近的词汇作为候选相似对,依次针对老挝语特征词列表中的每一个特征词,以对应的汉语特征词为中心选取特定数目的汉语特征词,作为老挝语特征词的候选相似;同理根据汉语特征词列表中的每一个特征词也选取特定数目的老挝语特征词,作为其特征词的候选相似;
Step2、根据老挝语和汉语的特征词列表和候选相似生成候选相似对列表,此列表中的每一个相似对都是可能互为翻译的老挝语特征词和汉语特征词,此时需要计算每一个相似对的相似概率,计算方法如公式(4)和(5)所示:
在一个相似对中,定义老挝语特征词LWi、汉语特征词CWj,则这两个特征词之间的相似概率计算如下:
Figure BDA0001601248850000021
其中p(LWi|CWj)的计算如公式(5)所示:
Figure BDA0001601248850000022
同理可以算出p(CWj|LWi)的计算结果,
公式(5)中,Num(LWi)为LWi在CWj的候选相似集合中的出现次数,frequency(CWj)是CWj的词频,LWi为老挝语第i个特征词,CWj为汉语第j个特征词;
Step3、根据候选相似对列表中的每一个相似对生成最初老-汉双语词典,词典中的每一个条目包括了老挝语和汉语特征词对以及相似概率;
Step4、确定好最初老-汉双语词典之后,通过词典中的特征词在双语语料中的上下文来扩展双语词典,形成最终的老-汉双语词典;
Step5、基于最终的老-汉双语词典,可以得到老挝语句子中每一个特征词对应的候选相似集合,得到老挝语句子的相似结果;
Step6、基于Step3得到的相似概率和每一个相似对的相似概率,计算出老挝语句子与汉语句子之间的相似度值:
利用老挝语特征词在老挝语句子中的出现次数、汉语特征词在汉语句子中的出现次数以
及老挝语和汉语特征词的相似概率计算老-汉双语句子的相似度值,句子相似度值计算如公式(6)所示:
Figure BDA0001601248850000031
其中
Figure BDA0001601248850000032
是老挝语特征词LWi在老挝语句子L中的出现次数,
Figure BDA0001601248850000033
是汉语特征词CWj在汉语句子C中的出现次数,Sim(LWi,CWj)表示老挝语特征词LWi和汉语特征词CWj的相似概率,计算结果如公式(4)所示;
Step7、根据双语句子长度信息,计算出老挝语和汉语句子长度比例值:
Step7.1、定义句子长度比例值,计算公式如公式(7)所示:
Figure BDA0001601248850000034
上述公式中LChiText与LLaoText分别汉语词汇集与老挝语词汇集中的词汇个数;
Step7.2、根据老挝语和汉语句子长度比信息,预先设定阈值,如果计算出的句子长度比例值大于阈值,则其值加入到最终句子相似度计算中去,反之舍去;
Step8、综合Step6和Step7的计算结果,计算出最终老挝语和汉语句子的句子相似度值:
老挝语句子Li和汉语句子Cj的相似度计算公式如公式(8)所示:
Sim(Li,Cj)=Simw(L,C)+Sl(L,C) (8);
Step9、在得到老挝语和汉语的句子相似度值之后,将双语句子作为二部图的顶点,句子相似度作为连边的权值,使用二部图最大权匹配(KM)算法求得最佳匹配,完成老挝语和汉语的句子对齐。
具体地,所述的Step3的具体步骤如下;
Step3.1、预先设定阈值,选取相似概率大于阈值的相似对,加入到最初老-汉双语词典;
Step3.2、将Step2计算出的每一个相似对的相似概率加入到最初老-汉双语词典中,成为词典中每个条目的内容。
具体地,所述的Step4的具体步骤如下:
Step4.1、将最初老-汉双语词典中的每一个条目中的老挝语和汉语特征词对作为种子相似对,在此基础上,结合其上下文来扩展,不断迭代进行扩展,一直到不能产生新的词典条目为止;
Step4.2、扩充结束后便得到了最终的老-汉双语词典。
具体地,所述的对齐片段为段落对齐片段或者是篇章对齐片段。
本发明的有益效果是:
(1)本发明的结合相似度和图匹配的老-汉双语句子对齐方法,与传统的基于长度、基于词汇、两者融合的方法相比较,会提高句子对齐的准确率,简化句子对齐的流程。
(2)本发明的结合相似度和图匹配的老-汉双语句子对齐方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,构建老-汉双语词典。考虑双语句子长度的因素,并且发现对齐的双语句对的长度具有一定的比例特征,计算比例特征值,综合之后,以此计算老-汉双语句子的句子相似度值,使得老-汉双语句子相似度计算具有较高的可靠性。
(3)本发明的结合相似度和图匹配的老-汉双语句子对齐方法,借助二部图将句子对齐问题转化为二部图的最佳匹配问题,充分利用句子相似度值作为二部图连边的权值,使用二部图的最佳匹配算法求得最佳匹配得到句珠,即挖掘出平行句对进行句对齐。图匹配算法避免了动态规划算法中最优子结构和重叠子结构的限制,使得句子匹配的范围更大,可以有效地提高句子对齐的准确率。
(4)本发明的结合相似度和图匹配的老-汉双语句子对齐方法,为了选择出适合本发明的最佳的二部图匹配算法,本发明对三种匹配算法进行了对比分析,从而发现二部图的最大权匹配算法对齐的效果最好。
附图说明
图1为本发明中的总体流程图。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1:如图1所示,一种结合相似度和图匹配的老-汉双语句子对齐方法,包括如下步骤:
Step1、针对老-汉双语平行语料中的对齐片段,分别提取老挝语和汉语的特征词生成特征词列表,进而生成老挝语和汉语特征词的候选相似;
Step1.1、首先计算每一个对齐片段中老挝语和汉语的词频TF与反文档IDF比值的频率值,即TF/IDF,以此来确定老挝语和汉语中的一个词是否为特征词,其中,某一个词w的计算方法分别表示为公式(1)和(2)所示:
Figure BDA0001601248850000041
Figure BDA0001601248850000051
其中WNw表示词w在片段P中的词频,WNp表示一个片段p包含的总的词汇数,DNt表示语料中所有对齐片段的总数量,DNw表示在所有片段中包含词w的片段的数量,TFw为词w的词频,IDFw为词w的反文档,则词w的TF/IDF值的计算方法如公式(3)所示:
Figure BDA0001601248850000052
设定一个阈值,将老挝语和汉语中TF/IDF大于此阈值的词作为各自的特征词,并形成老挝语和汉语的特征词列表;
Step1.2、分别按照TF/IDF值的大小对老挝语和汉语的特征词列表中的特征词进行排序,在各自的列表中处于相似位置的词是互为译文的;
Step1.3、根据排序后的特征词列表,选择在列表中分布相近的词汇作为候选相似对,依次针对老挝语特征词列表中的每一个特征词,以对应的汉语特征词为中心选取特定数目的汉语特征词,作为老挝语特征词的候选相似;同理根据汉语特征词列表中的每一个特征词也选取特定数目的老挝语特征词,作为其特征词的候选相似;
Step2、根据老挝语和汉语的特征词列表和候选相似生成候选相似对列表,此列表中的每一个相似对都是可能互为翻译的老挝语特征词和汉语特征词,此时需要计算每一个相似对的相似概率,计算方法如公式(4)和(5)所示:
在一个相似对中,定义老挝语特征词LWi、汉语特征词CWj,则这两个特征词之间的相似概率计算如下:
Figure BDA0001601248850000053
其中p(LWi|CWj)的计算如公式(5)所示:
Figure BDA0001601248850000054
同理可以出p(CWj|LWi)的计算结果。
Num(LWi)为LWi在CWj的候选相似集合中的出现次数,frequency(CWj)是CWj的词频,LWi为老挝语第i个特征词,CWj为汉语第j个特征词。
Step3、根据候选相似对列表中的每一个相似对生成最初老-汉双语词典,词典中的每一个条目包括了老挝语和汉语特征词对以及相似概率。
Step3.1、预先设定阈值,选取相似概率大于阈值的相似对,加入到最初老-汉双语词典;
Step3.2、将Step2计算出的每一个相似对的相似概率加入到最初老-汉双语词典中,成为词典中每个条目的内容;
Step4、确定好最初老-汉双语词典之后,通过词典中的特征词在双语语料中的上下文来扩展双语词典,形成最终的老-汉双语词典。
Step4.1、将最初老-汉双语词典中的每一个条目中的老挝语和汉语特征词对作为种子相似对,在此基础上,结合其上下文来扩展,不断迭代进行扩展,一直到不能产生新的词典条目为止;
Step4.2、扩充结束后便得到了最终的老-汉双语词典。
Step5、基于最终的老-汉双语词典,可以得到老挝语句子中每一个特征词对应的候选相似集合,得到老挝语句子的相似结果。
Step5.1、例如老挝语句子L=[LW1,LW2……LWn],汉语句子C=[CW1,CW2……,CWn],其中LWi、CWj分别表示老挝语句子和汉语句子中的第i个和第j个特征词。对于每一个老挝语特征词LWi都可以在词典中找到对应的汉语,即:L=[LW1{CW1,1,…CW1,n},LW2……LWn{CWn,1,…CWn,n}],其中汉语特征词CWi,k,表示老挝语特征词LWi对应的一个译文。
Step6、基于Step3得到的相似概率和每一个相似对的相似概率,计算出老挝语句子与汉语句子之间的相似度值。
利用老挝语特征词在老挝语句子中的出现次数、汉语特征词在汉语句子中的出现次数以及老挝语和汉语特征词的相似概率计算老-汉双语句子的相似度值。
句子相似度值计算如公式(6)所示:
Figure BDA0001601248850000061
其中
Figure BDA0001601248850000062
是老挝语特征词LWi在老挝语句子L中的出现次数,
Figure BDA0001601248850000063
是汉语特征词CWj在汉语句子C中的出现次数,Sim(LWi,CWj)表示老挝语特征词LWi和汉语特征词CWj的相似概率,计算结果如公式(4)所示。
Step7、充分考虑双语句子长度信息,计算出老挝语和汉语句子长度比例值。
Step7.1、老-汉双语句子对齐方面,考虑双语句子长度的因素,并且发现对齐的双语句对的长度具有一定的比例特征,通过该特征可以很好的辨识双语句对。通过分析语料中长度不匹配的句对,这些句对多数都包含着错误,为了排除此类句子,引进了句子长度比例值,计算公式如公式(7)所示:
Figure BDA0001601248850000071
上述公式中LChiText与LLaoText分别汉语词汇集与老挝语词汇集中的词汇个数。
Step7.2、根据老挝语和汉语句子长度比信息,预先设定阈值,如果计算出的句子长度比例值大于阈值,则其值加入到最终句子相似度计算中去,反之舍去。
Step8、综合Step6和Step7的计算结果,计算出最终老挝语和汉语句子的句子相似度值。
结合上述计算结果,可以得到老挝语句子Li和汉语句子Cj的相似度计算公式如公式(8)所示:
Sim(Li,Cj)=Simw(L,C)+Sl(L,C) (8)
需要说明的是,本发明涉及到的预定阈值,可以根据实际情况进行设置,本发明不进行限定。
Step9、在得到老挝语和汉语的句子相似度值之后,将双语句子作为二部图的顶点,句子相似度作为连边的权值,使用二部图最大权匹配(KM)算法求得最佳匹配,完成老挝语和汉语的句子对齐(挖掘平行句对)。
多个老挝语句子和汉语句子两两之间的相似度可以构成相似度矩阵,如果将m个老挝语句子看作二部图的一组顶点,将n个汉语句子看作二部图的另一组顶点,将相似度矩阵中不为零的元素看作二部图的边,上述计算出来的相似度值为顶点对加权,作为二部图的边,则此时句子对齐问题(即平行句对的挖掘)就转化为二部图的最佳匹配问题。
具体地,为从老-汉双语句子集合构成的二部图中挖掘出平行句对,为使准确率更高,采用了三种图匹配算法进行比较,即顶点优先的贪婪算法、权值优先的贪婪算法、二部图最大权匹配算法,从中选择出进行句子对齐最佳的算法。
(1)顶点优先的贪婪算法
对于带权二部图G=(V,W)的每一条边都有一个非负权值,顶点集合V=L∪C,其中L为老挝语句子顶点,C为汉语句子顶点。顶点优先的贪婪算法过程为,从顶点x∈L出发,在其相邻的未覆盖顶点中,挑选边权最大的顶点y∈C,将<x,y>加入匹配,L中其他顶点依次处理。当老挝语与汉语句子数分别为m和n时,算法复杂度为O(m*n),算法匹配结果与顶点的取出顺序有关。该算法是贪心的,不能保证权值之和最大,只能保证完备匹配。
(2)权值优先的贪婪算法
权值优先的贪婪算法,从权值最大的边开始,如果该边的两个顶点都是未匹配点,则该边加入匹配,否则丢弃,依次处理直到没有可用边或者顶点为止。此算法的主要运算为边的排序操作,该算法也是贪心的,不能保证匹配边的权和最大。
(3)二部图最大权匹配算法(KM算法)
KM算法由Kuhn和Munkras提出的,时间复杂度为O(n3),n为顶点个数。最新实现的时间复杂度降低到O(m*sqrt(n)*logN)。KM算法在按照确定的顺序,不断扩展相等子图中的匹配边,达到完备匹配时就能保证总体权和最大。求解加权二部图的最优匹配算法中比较经典的就是KM算法,它是贪婪思想的一种体现。
在参考了大量双语对齐的论文和实验数据后,随着句子规模的扩大,一个源句子对应的目标句子数增多,对齐的准确率都会有所下降,但权值优先匹配算法和KM算法的泛化能力较强,KM算法对所有句子的配对可以反复调整和优化,匹配的准确率较高些。因此,本发明选用最大权匹配算法(KM),但是并不一定适用于所有情况,还要具体问题具体分析。需要说明的是,本发明涉及到的预定阈值,可以根据实际情况进行设置,本发明不进行限定。将老挝语和汉语句子作为二部图的顶点,句子相似度作为连边的权值,使用二部图的最佳匹配算法求得最佳匹配得到句珠,即挖掘出平行句对进行句对齐。句子相似度本身是进行句对齐的基础因素,而全局的优化调整能提高句子对齐的准确率。本发明能够有效地从双语语料库中挖掘出平行句对,老-汉双语句子相似度的计算和二部图的最佳匹配算法充分结合,能够有效提高句子对齐的准确率,因此本发明具有一定的研究意义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:包括如下步骤:
Step1、针对老-汉双语平行语料中的对齐片段,分别提取老挝语和汉语的特征词生成特征词列表,进而生成老挝语和汉语特征词的候选相似;
Step1.1、首先计算每一个对齐片段中老挝语和汉语的词频TF与反文档IDF比值的频率值,即TF/IDF,以此来确定老挝语和汉语中的一个词是否为特征词,其中,某一个词w的计算方法分别表示为公式(1)和(2)所示:
Figure FDA0002997122230000011
Figure FDA0002997122230000012
其中WNw表示词w在片段P中的词频,WNp表示一个片段p包含的总的词汇数,DNt表示语料中所有对齐片段的总数量,DNw表示在所有片段中包含词w的片段的数量,TFw为词w的词频,IDFw为词w的反文档,则词w的TF/IDF值的计算方法如公式(3)所示:
Figure FDA0002997122230000013
设定一个阈值,将老挝语和汉语中TF/IDF大于此阈值的词作为各自的特征词,并形成老挝语和汉语的特征词列表;
Step1.2、分别按照TF/IDF值的大小对老挝语和汉语的特征词列表中的特征词进行排序,在各自的列表中处于相似位置的词是互为译文的;
Step1.3、根据排序后的特征词列表,选择在列表中分布相近的词汇作为候选相似对,依次针对老挝语特征词列表中的每一个特征词,以对应的汉语特征词为中心选取特定数目的汉语特征词,作为老挝语特征词的候选相似;同理根据汉语特征词列表中的每一个特征词也选取特定数目的老挝语特征词,作为其特征词的候选相似;
Step2、根据老挝语和汉语的特征词列表和候选相似生成候选相似对列表,此列表中的每一个相似对都是可能互为翻译的老挝语特征词和汉语特征词,此时需要计算每一个相似对的相似概率,计算方法如公式(4)和(5)所示:
在一个相似对中,定义老挝语特征词LWi、汉语特征词CWj,则这两个特征词之间的相似概率计算如下:
Figure FDA0002997122230000014
其中p(LWi|CWj)的计算如公式(5)所示:
Figure FDA0002997122230000021
同理可以算出p(CWj|LWi)的计算结果,
公式(5)中,Num(LWi)为LWi在CWj的候选相似集合中的出现次数,frequency(CWj)是CWj的词频,LWi为老挝语第i个特征词,CWj为汉语第j个特征词;
Step3、根据候选相似对列表中的每一个相似对生成最初老-汉双语词典,词典中的每一个条目包括了老挝语和汉语特征词对以及相似概率;
Step4、确定好最初老-汉双语词典之后,通过词典中的特征词在双语语料中的上下文来扩展双语词典,形成最终的老-汉双语词典;
Step5、基于最终的老-汉双语词典,可以得到老挝语句子中每一个特征词对应的候选相似集合,得到老挝语句子的相似结果;
Step6、基于Step3得到的相似概率和每一个相似对的相似概率,计算出老挝语句子与汉语句子之间的相似度值:
利用老挝语特征词在老挝语句子中的出现次数、汉语特征词在汉语句子中的出现次数以及老挝语和汉语特征词的相似概率计算老-汉双语句子的相似度值,
句子相似度值计算如公式(6)所示:
Figure FDA0002997122230000022
其中
Figure FDA0002997122230000025
是老挝语特征词LWi在老挝语句子L中的出现次数,
Figure FDA0002997122230000024
是汉语特征词CWj在汉语句子C中的出现次数,Sim(LWi,CWj)表示老挝语特征词LWi和汉语特征词CWj的相似概率,计算结果如公式(4)所示;
Step7、根据双语句子长度信息,计算出老挝语和汉语句子长度比例值:
Step7.1、定义句子长度比例值,计算公式如公式(7)所示:
Figure FDA0002997122230000023
上述公式中LChiText与LLaoText分别汉语词汇集与老挝语词汇集中的词汇个数;
Step7.2、根据老挝语和汉语句子长度比信息,预先设定阈值,如果计算出的句子长度比例值大于阈值,则其值加入到最终句子相似度计算中去,反之舍去;
Step8、综合Step6和Step7的计算结果,计算出最终老挝语和汉语句子的句子相似度值:
老挝语句子Li和汉语句子Cj的相似度计算公式如公式(8)所示:
Sim(Li,Cj)=Simw(L,C)+Sl(L,C) (8);
Step9、在Step8得到老挝语和汉语的句子相似度值之后,将双语句子作为二部图的顶点,句子相似度作为连边的权值,使用二部图最大权匹配KM算法求得最佳匹配,完成老挝语和汉语的句子对齐。
2.根据权利要求1所述的一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:所述的Step3的具体步骤如下;
Step3.1、预先设定阈值,选取相似概率大于阈值的相似对,加入到最初老-汉双语词典;
Step3.2、将Step2计算出的每一个相似对的相似概率加入到最初老-汉双语词典中,成为词典中每个条目的内容。
3.根据权利要求1所述的一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:所述的Step4的具体步骤如下:
Step4.1、将最初老-汉双语词典中的每一个条目中的老挝语和汉语特征词对作为种子相似对,在此基础上,结合其上下文来扩展,不断迭代进行扩展,一直到不能产生新的词典条目为止;
Step4.2、扩充结束后便得到了最终的老-汉双语词典。
4.根据权利要求1所述的一种结合相似度和图匹配的老-汉双语句子对齐方法,其特征在于:所述的对齐片段为段落对齐片段或者是篇章对齐片段。
CN201810225609.7A 2018-03-19 2018-03-19 一种结合相似度和图匹配的老-汉双语句子对齐方法 Active CN108549629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810225609.7A CN108549629B (zh) 2018-03-19 2018-03-19 一种结合相似度和图匹配的老-汉双语句子对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810225609.7A CN108549629B (zh) 2018-03-19 2018-03-19 一种结合相似度和图匹配的老-汉双语句子对齐方法

Publications (2)

Publication Number Publication Date
CN108549629A CN108549629A (zh) 2018-09-18
CN108549629B true CN108549629B (zh) 2021-06-18

Family

ID=63516582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810225609.7A Active CN108549629B (zh) 2018-03-19 2018-03-19 一种结合相似度和图匹配的老-汉双语句子对齐方法

Country Status (1)

Country Link
CN (1) CN108549629B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783809B (zh) * 2018-12-22 2022-04-12 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109684648B (zh) * 2019-01-14 2020-09-01 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110210041B (zh) * 2019-05-23 2023-04-18 北京百度网讯科技有限公司 互译句对齐方法、装置及设备
CN110717341B (zh) * 2019-09-11 2022-06-14 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Word Alignment Algorithm of Laos-Chinese Based on Language Feature;SiZhuo Li等;《ICVR 2018》;20180228;第102-105页 *
基于互译特征词对匹配的老⁃汉双语句子;李思卓等;《现代电子技术》;20191215;第42卷(第24期);第79-87页 *
基于图匹配的老-汉双语平行句对抽取方法研究;李思卓;《中国优秀硕士学位论文全文数据库信息科技辑》;20200415(第4期);第I138-580页 *

Also Published As

Publication number Publication date
CN108549629A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN108549629B (zh) 一种结合相似度和图匹配的老-汉双语句子对齐方法
US10515090B2 (en) Data extraction and transformation method and system
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN112256860B (zh) 客服对话内容的语义检索方法、系统、设备及存储介质
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN101639830B (zh) 一种输入过程中的中文术语自动纠错方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN110046348B (zh) 一种基于规则和词典的地铁设计规范中主体识别方法
US20220198182A1 (en) Methods and systems of field detection in a document
CN106991127B (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN104011712A (zh) 对跨语言查询建议的查询翻译进行评价
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN106909655A (zh) 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN102024139A (zh) 字符串识别装置和方法
CN103034627B (zh) 计算句子相似度的方法和装置以及机器翻译的方法和装置
US9720976B2 (en) Extracting method, computer product, extracting system, information generating method, and information contents
CN111814493B (zh) 机器翻译方法、装置、电子设备和存储介质
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
Saluja et al. Error detection and corrections in Indic OCR using LSTMs
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
US12118816B2 (en) Continuous learning for document processing and analysis
Fernando et al. Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages
JP5386855B2 (ja) 翻訳メモリ翻訳装置および翻訳プログラム
CN103294780A (zh) 一种目录映射关系挖掘方法和装置
CN105426490A (zh) 一种基于树形结构的索引方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant