CN103810993B - 一种文本注音方法及装置 - Google Patents
一种文本注音方法及装置 Download PDFInfo
- Publication number
- CN103810993B CN103810993B CN201210457266.XA CN201210457266A CN103810993B CN 103810993 B CN103810993 B CN 103810993B CN 201210457266 A CN201210457266 A CN 201210457266A CN 103810993 B CN103810993 B CN 103810993B
- Authority
- CN
- China
- Prior art keywords
- language
- model
- transliteration
- target language
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种文本注音方法及装置。一种文本注音方法包括:获得待注音的源语言文本序列根据预设的对应关系;获得与具有音译关系的目标语言文本序列候选;根据目标语言的语言模型,选取具有较高模型评分的候选作为源语言文本序列的注音结果。上述方案利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本注音方法及装置。
背景技术
随着国际化交流的日益广泛,日常生活中涉及到的外语的场合也越来越多,外语学习的重要性也不言而喻。在语言学习过程中,“说”是一个很重要的环节,为了掌握正确的外语发音,一般需要先整体了解该门语言的发音体系,然后按照字、词、句的顺序逐渐学习发音。
以上属于比较正统的学习方式,然而这种学习方式的成本较高,对于一些希望在短时间内掌握某些内容发音的用户来说,是不现实的。在这种需求下背景下,可以很自然地想到一种“捷径”的学习方式:使用母语的发音来标注外语的发音。
例如,对于高龄老人而言,已经很难有精力系统去学习外语的发音,但是有些老人却可以利用“使用母语的发音来标注外语的发音”的方式,学习一些基本的英语表达。典型的例如“玩奈特(one night)”,“好嘛吃(howmuch)”等等,尽管发音并不算特别标准,但是结合特定的场景,已经能够达到与其他国家的人基本交流的目的了。另一个典型的例子是歌剧演唱。很多中国的歌剧演唱者并不懂意大利语,但在演唱意大利歌剧时,这些演唱者也唱得有模有样。很多人选择的方式就是使用中文对意大利语的歌词进行注音,他们在演唱时,唱的实际上是中文的注音结果。
可见,使用母语发音来标注外语发音的学习方式,尽管并不正统,却能够在某些情况下取得简单快捷的学习效果,因此还是可以在一定范围内推广,例如针对老年人等等。目前,推广这种方式的主要问题在于:“注音”的工作需要由人工完成,即至少需要一个懂得外语的人,知道相应的外文该如何发音,并在此基础上标注本国语言的发音。如果没有懂得外语的人,那么标注工作也难以完成。
发明内容
为解决上述技术问题,本发明实施例提供一种文本注音方法及装置,以实现利用本地语言对外语文本进行发音标注,技术方案如下:
本发明实施例提供一种文本注音方法,该方法包括:
其中
其中
其中
本发明实施例还提供一种文本注音装置,其特征在于,该装置包括:
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
其中
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
其中
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
根据本发明的一种具体实施方式,所述音译处理单元,具体用于:
其中
根据本发明的一种具体实施方式,所述结果选取单元,具体用于:
本发明实施例所提供的技术方案,利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例文本注音方法的一种流程图;
图2为本发明实施例文本注音装置的一种结构示意图。
具体实施方式
一般认为,任意两种语言之间,总是会存在一些读法相同或者相似的文本片段,基于这一前提,就可以对外语文本进行“本地注音”,从而达到便于学习的目的。为了实现对外语文本的自动注音,一种直接的做法是,预先建立两种语言的读音互译关系,接收到用户输入的内容后,通过查询预置的关系,找到与输入的外语文本读音相同的本地语言文本,作为自动注音的结果。
但是上述方案存在的一个问题是:由于同一种读音会对应多种实际文本,因此在音译过程中,可能出现多种注音结果。尽管每种注音结果的读法都是相同或者相似的,但是在实际使用时,并不是每种注音都便于记忆。例如“mydear”可以标注成“卖蒂儿”,也可以标注成“买地儿”,从中文的使用习惯来看,后者显然比前者更容易记忆。
基于上述需求,本发明提供一种文本注音方法,参见图1所示,该方法可以包括以下基本步骤:
结合实际的使用需求,上述方法中,“源语言”一般对应某种用户无法熟练掌握的外语,而“目标语言”则对应某种用户能够相对熟练掌握本地的语言。本发明实施例所提供的技术方案,利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
当然,可以理解的是,上面所说“外语”以及“本地语言”都是相对的概念,应用本发明方案,理论上可以实现任意的源语言F到任意的目标语言E的注音,并且尽可能保证注音结果便于记忆。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图1所示,为本发明实施例一种文本标注方式
基于上述需求,本发明提供一种文本注音方法,参见图1所示,该方法可以包括以下基本步骤:
一种最直接的方法是,根据源语言文本的发音,直接找到相应的目标文本发音,并且记录二者的对应关系,当然,这部分工作需要由熟悉这两种语言的人员协助完成。建立源语言文本与目标语言文本的对应关系并存储之后,就形成了一个基本的音译系统。根据用户输入的外语内容,通过查询预设对应关系的方式,就可以自动给出相应的本地语言注音结果。
在人工标注的过程中随意性比较大,并且不会考虑到文本的组合问题,例如对于英文单词“my”,可以标注成“买”、“卖”等等,“dear”可以标注成“地儿”、“蒂儿”等等。相应地,对于“my dear”这个词组,系统就有可能给出“卖蒂儿”、“买地儿”等标注结果,中文的使用习惯来看,显然“买地儿”是相对容易记忆的。为了使得最终的标注结果更容易记忆,本发明实施例进一步利用语言模型对可能存在的多种标注结果进行选择。
语言模型(Language Model,LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布,概率越高,说明该词序列越常见,反之,概率越低则说明该词序列越生僻。例如对于“卖蒂儿”和“买地儿”而言,后者在模型中的评分(对应出现概率)应该是高于前者的。基于该原理,本发明实施例利用语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
下面结合实际的例子,对本发明的方案进行进一步的详细描述:
在上式中,表示从音译到的条件概率,整个公式的含义是:对于给定的源语言的文本序列需要找到一个使得的值最大。当然,在实际应用中,使得达到最大值的可能存在多个,在某些情况下,也可能存在“找到多个相对合理的注音结果,供用户自行选择”的需求,因此,本发明实施中的“max”可以理解为“取值排名较高的一个或多个”,而不应该仅限于“一个最大值”的情况。
根据式(1.1)的结果,需要建立两个模型:
其中,可以选用任意现有的语言模型,本发明实施例对此并不需要进行限定。剩下的工作,就是建立模型,该模型实际表现为:源语言文本集与目标语言文本集的音译对应关系。对应关系可以是“一对一”的对应关系,也可以是“一对多”或“多对一”的对应关系,并且对于每一组对应音译关系,可以人工标注上不同的得分。
表1
可以理解的是,实际的建模单元并不一定是“单词”,为了减小模型的大小,在实际建模时,可以采用更小粒度的单元,例如音素、或者常用的音节、前缀、后缀等等,例如将“er”记录为“儿”或“耳”,在对整个序列进行注音时,首先对序列进行拆分,然后分别找到每个片段的对应音译结果,通过排列组合,可能得到多种对应的音译结果然后结合语言模型从中进行选择即可。
通过表1可以看出,在模型中,对应同一个记录了多种音译可能性,例如“my”的读音可以是“买”或者“卖”,甚至还记录了读音近似的“慢”,这样做的目的是:根据式(1.1),最终需要找到的是令达到最大的对于“慢”而言,尽管其值相对较低,但是在构成本地语言文本序列后,相应的值如果较高,也可能最终仍然能获得较高的乘积值。因此,为了在构成最终的时,有更多的候选可用,在建模时,一般建议多记录几种可能的音译结果。
根据式(1.1)以及上面的分析可知,“本地注音序列与原文发音近似”以及“本地注音序列容易记忆”实际是两个独立的概念。在某些情况下,很难保证二者都达到最优,也就是说:在一些情况下,标注序列发音较准确,但不易记忆;另一些情况下,标注序列较易记忆,但发音可能有较大的出入。为解决该问题:可以对式(1.1)调整为如下形式:
其中,α为预设的语言模型权重系数,该值越大,表明语言模型所占的权重越大,生成的句子越容易记忆;该值越小,表明音译模型所占的权重越大,发音越准确;这样,可以通过对α进行设置,以满足实际的应用需求。当α=1时,式(1.2)与式(1.1)等价。
对于实际的系统而言,可以考虑用如下的方法设置这个值:首先要有一个训练集,一个初始权值x(比如1)。之后将该值分别设置为x、1/y、x*y(y>1),给定训练集中的输入语料,计算输出结果,判断3个输出结果哪个比较好。在此基础上,将比较好的结果作为新的权值,反复迭代,最终找到一个相对合适的α值。
在本发明的另一种实施方式中,通过对式(1.1)进行变形,可以得到以下结果:
对于式(2.1)具体推导过程如下:
d)利用与b)、c)类似的分析方式,再次进行拆分,可以得到第5步的结果;
e)此时公式中还包含求和符号。但根据实际的情况,可以知道:只有这个发音序列与相匹配时,这个值才会比较大,而大部分的与是不匹配的,非常小,可以忽略。因此这里取最匹配的即最大的那个值来替换对于的求和,类似地,取最大的来替换对于的求和:从而得到了第6步。由于这一步存在近似处理,因此在推导过程中使用“≈”。
根据式(2.1)的结果,需要建立4个模型:
其中,可以选用任意现有的语言模型,另外三个模型x、y、z都是音译模型,相当于对式(1.1)中的音译模型拆分为三个模型。而这其中的和都分别可以利用语言内部的注音信息来构建,例如汉字与拼音的关系、英语单词/单词片段与音标的关系。最后是P由于和都是音素序列,因此在建模过程,对应关系也更为直接。另外,在不同的语言中,音素的种类都远远小于实际文本的数量,例如英文中有48个音素,汉语则有32个音素,因此基于音素进行建模,也有利于缩小模型的体积。
对于三种音译模型,具体形式可以类似于表1所示的模型,类似地,每个模型一般都需要保留n个可能性。比如在这个模型中,对于“hello”,不能仅保留hello这个词的发音(记录为),也应当考虑保留与hello近似的发音(记录为 ),原因是:虽然最大,但可能不如大。因此这个模型要记录的信息可以是:
利用类似的方法,可以建立模型y和模型z,这里不再重复描述,完成所有模型的构建后,就可以对源语言文本进行标注。例如,对于英文单词“hello”,使用中文进行标注,根据式(2.1),基本处理流程如下:
当然,在实际计算过程中,也可以考虑对语言模型和音译模型的权重进行调整,将式(2.1)调整为如下形式:
其中,α为预设的语言模型权重系数,该值越大,表明语言模型所占的权重越大,生成的句子越容易记忆;该值越小,表明音译模型所占的权重越大,发音越准确;这样,可以通过对α进行设置,以满足实际的应用需求。当α=1时,式(2.2)与式(2.1)等价。
由上述过程可以看出,尽管相对于式(1.1)/(1.2)而言,式(2.1)/(2.2)的建模过程相对直接,但是在实际处理过程中,由于需要依次处理4个模型,计算仍然比较复杂,因此可以考虑对某些模型进行组合以简化计算复杂度。
在本发明的一种实施方式中,根据式(2.1)的推导过程,在计算到第5步时,不直接进行近似处理,而是采用其他的变形方式:
式(3.1)的推导思想与式(2.1)的推导思想类似,这里不再重复描述,根据式(3.1)的结果,需要建立3个模型:
与式(2.1)相比,式(3.1)将模型数量减少至3个,可以简化计算时的复杂度,例如,对于英文单词“hello”,使用中文进行标注,根据式(3.1),基本处理流程如下:
将上述所有的3项得分相乘,得到多种可能以及其相应的结果得分。将这些得分进行比较,就可以得到得分最高一个或多个可以作为最终的标注结果。可见,在计算过程中,需要涉及的模型减少了一个,因此计算量也可以得到相应的减轻。
如果希望的体积相对较小,那么就要从K*H种可能的发音中进行选择,比如选择前N种发音(N≤K*H)。也就是说,如果要减少模型的体积,那么要减少模型的信息量,这样模型相当于做了近似处理,音译效果可能会打折扣,但计算量也会变小。
根据以上两个方面,在实际应用过程中,可以灵活选择N值,以取得性能和效果的平衡。
另外,在实际计算过程中,同样可以考虑对语言模型和音译模型的权重进行调整,将式(3.1)调整为如下形式:
其中,α为预设的语言模型权重系数,该系数含义和前面实施例相同,这里不再重复描述。
在上一实施例中,对式(2.1)中的模型y和z进行合并,以达到降低计算量的效果,在本发明的另一种实施方式中,还可以对式(2.1)中的模型x和y进行合并:
根据式(2.1)的推导过程,在计算到第5步时,不直接进行近似处理,而是采用其他的变形方式:
式(4.1)的推导思想与式(2.1)的推导思想类似,这里不再重复描述,根据式(3.1)的结果,需要建立3个模型:
与式(3.1)类似,式(4.1)也是将模型数量减少至3个,只是具体的形式不同。在实际计算过程中,同样可以达到减轻计算量的效果。根据式(4.1),具体的建模方式和注音处理方法思想与式(3.1)类似,这里不再做重复描述。
类似地,在实际计算过程中,也可以考虑对语言模型和音译模型的权重进行调整,将式(4.1)调整为如下形式:
其中,α为预设的语言模型权重系数,该系数含义和前面实施例相同,这里不再重复描述。
以上介绍了本发明的几种具体实施方式,下面结合一个具体的实例,对本发明的注音方法进行说明。
这里以英语单词“Hello”为例,目的是将其用中文进行标注。假设采用如果采用式(2.1),即4个模型的方式,那么具体步骤如下:
这里有两种方案,一个简单的方案是使用词典保存每个词对应的音标。转换的过程本质上就是查找词的音标的过程。比如:Hello对应了两种音标:与进一步,我们可以给每一种音标一个概率,即给出:与的评分值。此时,可以将这两个值均设置为1。
例如,已知P(h|*),P(e|*),P(llo|*)…的值,其中*表示了不同的发音序列,那么可以假设:
P(hello|f1,f2,f3)=P(h|f1)P(e|f2)P(llo|f3)
通过我们可以穷举所有的P(h|*),P(e|*),P(llo|*),找到相应的发音序列*以及得分,将这些得分相乘,并通过选择,得到得分比较高的发音序列。比如,经过这一步,可以得到两个得分较高发音序列与
可以预先在模型中保存p(f1|*),p(f2|*),…用同样的方法,我们可以遍历每一种可能性,得到所有的[e1,e2,e3,e4]的可能性以及相应的得分。在计算的过程中根据得分排名进行相应的选择,得到了剪枝后的e1,e2,e3,e4序列
例如,如果[e1,e2,e3,e4]序列为h,e,l,ou,那么可以首先计算P(X|he)的X取值,比如X取到了“哈”,相应找到P(哈)P(he|哈)的分值;之后,可以动态地在这个基础上扩展,计算:P(lou|喽)P(喽|哈)的值,从而得到:
P(哈)P(he|哈)P(lou|喽)P(喽|哈)=P(哈喽)P(he|哈)P(lou|喽)的值。
最后将这个值与之前计算结果值相乘:
对于不同的Xi,比较P(Xi)P(hello|Xi),找一个最大值,则相应的Xi即为“hello”的中文注音结果。
相应于上面的方法实施例,本发明还提供一种文本注音装置,参见图2所示,该装置包括:
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
所述结果选取单元130,具体可以用于:
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
其中
所述结果选取单元130,具体可以用于:
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
其中
所述结果选取单元130,具体可以用于:
在本发明的一个具体实施例中,所述音译处理单元120,具体可以用于:
其中
所述结果选取单元130,具体可以用于:
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210457266.XA CN103810993B (zh) | 2012-11-14 | 2012-11-14 | 一种文本注音方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210457266.XA CN103810993B (zh) | 2012-11-14 | 2012-11-14 | 一种文本注音方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810993A CN103810993A (zh) | 2014-05-21 |
CN103810993B true CN103810993B (zh) | 2020-07-10 |
Family
ID=50707673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210457266.XA Active CN103810993B (zh) | 2012-11-14 | 2012-11-14 | 一种文本注音方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810993B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI718997B (zh) * | 2014-09-30 | 2021-02-21 | 日商咕嘟媽咪股份有限公司 | 菜單生成系統 |
CN105786802B (zh) * | 2014-12-26 | 2019-04-12 | 广州爱九游信息技术有限公司 | 一种外语的音译方法及装置 |
CN105244027B (zh) * | 2015-08-31 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 生成谐音文本的方法和系统 |
CN106649291B (zh) * | 2016-12-23 | 2020-10-09 | 广州酷狗计算机科技有限公司 | 韩文音译方法及装置 |
CN108763441B (zh) * | 2018-05-25 | 2022-05-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 生成歌词、显示歌词的方法、装置、电子设备及存储介质 |
CN110619866A (zh) * | 2018-06-19 | 2019-12-27 | 普天信息技术有限公司 | 语音合成方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945562A (zh) * | 2005-10-09 | 2007-04-11 | 株式会社东芝 | 训练音译模型、切分统计模型以及自动音译的方法和装置 |
WO2009029865A1 (en) * | 2007-08-31 | 2009-03-05 | Google Inc. | Automatic correction of user input |
CN101630333A (zh) * | 2008-07-18 | 2010-01-20 | 谷歌公司 | 用于查询扩展的音译 |
CN102640107A (zh) * | 2009-11-30 | 2012-08-15 | 株式会社东芝 | 信息处理装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593173B (zh) * | 2008-05-28 | 2011-08-10 | 中国科学院自动化研究所 | 一种汉英反向音译方法及装置 |
-
2012
- 2012-11-14 CN CN201210457266.XA patent/CN103810993B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1945562A (zh) * | 2005-10-09 | 2007-04-11 | 株式会社东芝 | 训练音译模型、切分统计模型以及自动音译的方法和装置 |
WO2009029865A1 (en) * | 2007-08-31 | 2009-03-05 | Google Inc. | Automatic correction of user input |
CN101630333A (zh) * | 2008-07-18 | 2010-01-20 | 谷歌公司 | 用于查询扩展的音译 |
CN102640107A (zh) * | 2009-11-30 | 2012-08-15 | 株式会社东芝 | 信息处理装置 |
Non-Patent Citations (1)
Title |
---|
Transliteration of Proper Names in Cross-Lingual Information Retrieval;Paola Virga, Sanjeev Khudanpur;<Proceedings of 41st ACL Workshop on Multilingual and Mixed-language Named Entity Recognition>;20031231;57-64 * |
Also Published As
Publication number | Publication date |
---|---|
CN103810993A (zh) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810993B (zh) | 一种文本注音方法及装置 | |
US20110184723A1 (en) | Phonetic suggestion engine | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
Wheatley et al. | An evaluation of cross-language adaptation for rapid HMM development in a new language | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
Pennell et al. | Normalization of informal text | |
Seljan et al. | Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian | |
Neubig et al. | A summary of the first workshop on language technology for language documentation and revitalization | |
CN110555091A (zh) | 一种基于词向量的联想词生成方法及装置 | |
Tan et al. | A Malay dialect translation and synthesis system: Proposal and preliminary system | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
Schlippe et al. | Statistical machine translation based text normalization with crowdsourcing | |
Wilkinson et al. | Deriving Phonetic Transcriptions and Discovering Word Segmentations for Speech-to-Speech Translation in Low-Resource Settings. | |
Meng et al. | CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects. | |
Seneff et al. | Second language acquisition through human computer dialogue | |
Sridhar et al. | Enriching machine-mediated speech-to-speech translation using contextual information | |
Lee et al. | A customizable editor for text simplification | |
CN117035064B (zh) | 一种检索增强语言模型的联合训练方法及存储介质 | |
Pandey et al. | Development and suitability of indian languages speech database for building watson based asr system | |
JP6879521B1 (ja) | 多言語音声認識およびテーマ−意義素解析方法および装置 | |
Nikulásdóttir et al. | LANGUAGE TECHNOLOGY FOR ICELANDIC 2018-2022 | |
Liin et al. | The Estonian Language in the Digital Age | |
Leturia et al. | The BerbaTek project for Basque: Promoting a less-resourced language via language technology for translation, content management and learning | |
Cao et al. | Cross-lingual speaker adaptation via Gaussian component mapping. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |