CN104657343B - 识别音译名的方法及装置 - Google Patents

识别音译名的方法及装置 Download PDF

Info

Publication number
CN104657343B
CN104657343B CN201310575092.1A CN201310575092A CN104657343B CN 104657343 B CN104657343 B CN 104657343B CN 201310575092 A CN201310575092 A CN 201310575092A CN 104657343 B CN104657343 B CN 104657343B
Authority
CN
China
Prior art keywords
probability
pronunciation unit
original language
character string
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310575092.1A
Other languages
English (en)
Other versions
CN104657343A (zh
Inventor
宋双永
郑仲光
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201310575092.1A priority Critical patent/CN104657343B/zh
Publication of CN104657343A publication Critical patent/CN104657343A/zh
Application granted granted Critical
Publication of CN104657343B publication Critical patent/CN104657343B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种识别音译名的方法和装置。该方法包括:对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;确定所述至少一种发音单元序列为所述源语言中的名称的概率;根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。本发明中,对于当前语言的字符串,根据其对应的源语言的发音单元序列为源语言中的名称的概率判断当前语言的字符串是否为源语言音译名,能够准确识别出当前语言的字符串是否为源语言音译名。

Description

识别音译名的方法及装置
技术领域
本发明涉及识别音译名的方法及装置。
背景技术
随着各国交流变得日益广泛,在中文文本中会包含大量的外国机构名、人名和地名等命名实体。然而,这些命名实体本身并不一定存在于传统的词典之中,属于未登录词(Out Of Vocabulary,OOV),这就给很多以中文分词为基础的自然语言的处理带来了困难。而音译名在上述命名实体中占有很大比例,欧美等国家的人名或地名等经常会以音译名的形式出现在中文文本中,例如“奥巴马”、“贝克汉姆”等。因此,如何识别这些音译名具有重要的意义。
发明内容
本发明的实施方式提供了一种识别音译名的方法及装置,能够识别当前语言中出现的源语言音译名。
本发明实施方式提供一种识别音译名的方法,包括:对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;确定所述至少一种发音单元序列为所述源语言中的名称的概率;根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。
本发明的另一实施方式中提供一种识别音译名的装置,包括:源语言发音单元获取模块,被配置用于对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;源语言名称概率确定模块,被配置用于确定所述至少一种发音单元序列为所述源语言中的名称的概率;译名判断模块,被配置用于根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。
本发明中,对于当前语言的字符串,根据其对应的源语言的发音单元 序列为源语言中的名称的概率判断当前语言的字符串是否为源语言音译名,能够准确识别出当前语言的字符串是否为源语言音译名。
附图说明
参照下面结合附图对本发明实施方式的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图以示例而非限制性的方式来说明本发明。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出本发明一实施方式提供的识别音译名的方法的流程图;
图2示出汉字和英文发音单元的对应关系的示例;
图3示出对数据库进行处理的过程的图形;
图4示出本发明实施方式提供的识别音译名的装置的结构框图;
图5示出本发明实施方式提供的另一识别音译名的装置的结构框图;
图6示出本发明实施方式提供的另一识别音译名的装置的结构框图;
图7示出用以实施本发明的装置和方法的计算设备的结构图形。
具体实施方式
现在参考附图来更加详细地描述本发明的实施方式。示例实施方式的提供是为了使本发明更加详尽,并且向本领域技术人员充分地传达保护范围。阐述了众多的特定细节如特定部件、装置的例子,以提供对本发明的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,示例实施方式可以用许多不同的形式来实施而不一定使用这些特定的细节,因此它们都不应当被解释为限制本发明的范围。另外,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。在某些示例实施方式中,为了清楚的目的,没有在附图和说明中详细地描述众所周知的过程、结构和技术。
下面参考附图结合具体实施方式介绍本发明提供的识别音译名的方法。
为了便于说明,下面以两种具体语言为例,例如以当前语言为中文、源语言为英文为例介绍本发明提供的识别当前语言中的源语言音译名的 方法,其中,源语言音译名指的是根据源语言名称的发音翻译得到的当前语言的名称,例如将英文Obama译为中文奥巴马,奥巴马即为英文音译名。需要说明,本发明提供的识别音译名的方法还可以应用于其他语言的类似处理中,本文对此不做限制。
图1示出本发明实施方式提供的方法的流程图。
在步骤S101中,将待检测的中文字符串切分为中文发音单元,根据数据库中存储的中文发音单元与英文发音单元之间的对应关系得到与各个中文发音单元所分别对应的英文发音单元。
图2示出本实施方式提供的方法中中文发音单元和英文发音单元对应关系的示例,需要说明,该示例只是给出了部分数据,未示出汉字和发音单元之间的音译概率。
如图2所示,中文发音单元以汉字为例,英文发音单元则为与汉字对应的字母组合,例如“克”与“ck”。
在步骤S102中,将得到的英文发音单元进行组合得到与中文字符串对应的英文字符串,计算得到的各个英文字符串为英文名称的概率。
本发明实施方式包括但不限于参考下式计算每一个英文字符串为英文名称的概率:
公式1
公式1中,S为给定英文字符串,其长度为n个发音单元。P(S)表示英文字符串S作为英文名称的概率。Po(S)表示当n=1时S作为英文名称的概率,其值能够直接从数据库中的“单个发音单元名称概率表”中查找得出。“单个发音单元名称概率表”,单个英文发音单元有可能构成一个英文名称,例如中文“丹”对应的单个英文发音单元“Dan”构成一个英文名称,“单个发音单元名称概率表”存储各个英文发音单元单独构成一个英文名称的概率。
当n≥2时,P(S)的值由三部分组成,其中Pf(S[1])表示英文字符串的第一个发音单元(即S[1])作为英文名称首部的概率,其值能够在数据库中 的“首部发音单元概率表”中查找得出;表示英文字符串中所有前一个发音单元和后一个发音单元的连接概率的平均数,每一项Pc(S[i],S[i+1])能够在数据库中“发音单元连接概率表”中查找得出,其中S[i]表示英文字符串中的第i个发音单元;Pl(S[n])表示英文字符串最后一个发音单元S[n]作为英文名称尾部发音单元的概率,其值能够在数据库中“尾部发音单元概率表”中查找得出。
其中,“首部发音单元概率表”存储各个英文发音单元作为英文名称首部的概率,“发音单元连接概率表”存储每两个英文发音单元前后连接的概率,“尾部发音单元概率表”存储各个英文发音单元作为英文名称尾部的概率。
容易理解,还可以根据公式1中的Po(S)、Pf(S[1])、Pl(S[n])中的一个或几个来计算各个英文字符串为英文名称的概率,本发明对此不做限制。
在步骤S103中,根据上一步骤中得到的各个英文字符串为英文名称的概率计算当前语言的字符串为英文音译名的置信度。
可以通过下式计算置信度的值:
----公式2
在公式2中,C表示当前语言的字符串,P(C)表示C作为音译名的置信度,Sa(1≤a≤m)表示英文字符串,m为英文字符串的个数,P(Sa|C)表示C转化成Sa的概率,所有的P(Sa|C)之和为1,P(Sa)表示Sa作为英文名称的概率。
其中,P(S|C)可以通过下式计算得到:
----公式3
其中,n表示C中包含的汉字数与S中包含的英文发音单元数,两 者相等;P(S[i]|C[i])表示C中第i个汉字与S中第i个发音单元之间的对应概率。可以预先进行统计得到各个汉字与各个发音单元之间的对应概率,例如如果数据库中的汉字“贝”出现10次,其中9次对应英文发音单元“be”,1次对应“ba”,则“贝”与“be”之间的对应概率为0.9,“贝”与“ba”之间的对应概率为0.1。
还可以根据其它方式计算置信度,例如可以直接对各P(Sa)求平均,根据平均值的大小得到置信度的取值,但是本发明不限于此。
在步骤S104中,判断当前语言的字符串为英文音译名的置信度是否大于阈值,如果满足,则执行步骤S105,否则,判定当前语言的字符串不是英文音译名。
在步骤S105中,获取当前语言的字符串的前一个中文词作为英文音译名的前一个词的概率,并且当该概率小于阈值时判定当前语言的字符串不是英文音译名,否则,执行步骤S106。
可以在数据库中预先存储各个中文词作为音译名的前一个词的概率的列表,相应地,本步骤中可以通过直接查表得到字符串的前一个中文词作为英文音译名的前一个词的概率。
中文词作为英文音译名的前一个词的概率还可以通过下式计算:
P(中文词A是音译名的前一个词的概率)=中文词A出现在音译名前一个词的位置的次数/中文词A在语料数据库中出现的次数----公式4
其中,中文词A出现在音译名前一个词的位置的次数以及中文词A在语料数据库中出现的次数均可以通过对语料数据库中的中文词句进行统计得到,且该统计结果可以预先存储在数据库中。
在步骤S106中,获取当前语言的字符串的后一个中文词作为英文音译名的后一个词的概率,并且当该概率小于阈值时判定当前语言的字符串不是英文音译名,否则,判定当前语言的字符串是英文音译名。
与上一步骤类似,可以在数据库中预先存储各个中文词作为音译名的后一个词的概率的列表,相应地,本步骤中可以通过直接查表得到字符串的前一个中文词作为英文音译名的前一个词的概率。
中文词作为英文音译名的后一个词的概率还可以通过下式计算:
P(中文词A是音译名的后一个词的概率)=中文词A出现在音译 名后一个词的位置的次数/中文词A在语料数据库中出现的次数----公式5
其中,中文词A出现在音译名后一个词的位置的次数以及中文词A在语料数据库中出现的次数均可以通过对语料数据库中的中文词句进行统计得到,且该统计结果可以预先存储在数据库中。
根据本实施方式提供的方法,得到置信度满足条件的音译名,而且能够保证音译名上下文语境的合理。例如,满足置信度条件的音译名可能为“玛丽”,但是“玛丽”源于“玛丽莲”,而“玛丽莲”才应该作为音译名,由于本实施方式中的步骤S110和S111可以避免这种情况的出现。
但是,需要说明,本发明实施方式中,在步骤S104中当前语言的字符串为英文音译名的置信度大于阈值时,可以直接判定当前语言的字符串为英文音译名,而不必须执行后续步骤。并且,步骤S105和S106之间并无必然的前后顺序,上述过程仅是示例,而不限制其先后顺序。
本发明另一实施方式提供一种识别音译名的方法,该实施方式与图1所示流程的区别在于,步骤S105和S106在步骤S101之前执行,即先根据当前语言的字符串的上下文判断当前字符串是否可能是音译名,判定结果为是时进一步根据步骤S101-S104判定当前字符串是否为音译名,此时在步骤S104中当前语言的字符串为英文音译名的置信度大于阈值时,判定当前语言的字符串为英文音译名,否则判定当前语言的字符串不是英文音译名。
本发明实施方式提供的上述方法中,需要数据库中预先存储中文发音单元与英文发音单元之间的对应关系、单个发音单元名称概率表、首部发音单元概率表、发音单元连接概率表以及尾部发音单元概率表中的一个或多个。为了使本发明更加清楚,下面介绍对数据库的预先处理。需要说明,下述处理只是得到上述中文发音单元与英文发音单元之间的对应关系以及各种概率表的方式的示例性介绍,而不用于限制其具体实现。
图3示出对与图1对应的数据库的预先处理的流程图。
在步骤S201中,对语料数据库中存储的中文音译名和对应的英文名称分别进行切分处理,建立中文发音单元与英文发音单元之间的对应关系。
语料数据库为根据实际需要选择的例如某一行业、某一领域等的数据库,该数据库中可以存储大量的中文词句及对应的英文,尤其是该数据库中可以存储中英名称对照表,例如表1所示。
表1
需要说明,表1中虽然示出的是一对一的中文名称和英文名称,但是中文名称和英文名称的对应关系不限于此,一个英文名称可能对应两个或以上中文名称。例如,表1中的“Obama”还可能对应中文名称“欧巴马”。
对于语料数据库中得到的具有对应关系的中文名称和英文名称,执行切分处理,将中文名称切分为各个发音单元即汉字,按照汉字对英文名称的发音单元进行切分,得到汉字与英文发音单元之间的对应关系。例如,参考上述表1,“贝克汉姆”与“Beckham”这一对人名中,“贝克汉姆”切分得到的是“贝”、“克”、“汉”和“姆”,分别按照“贝”、“克”、“汉”和“姆”对“Beckham”进行切分。“贝”的发音为bei,其中b与Beckham中的首字母b对应,而“克”的拼音为ke,其中的k与Beckham中的c或者k对应,汉的拼音为han,其中的h与Beckham中的h对应,姆的拼音为mu,其中m与Beckham中的m对应,因此,“贝-Be”“汉-ha”“姆-m”三个对应关系能够首先被确定,而“克-ck”的对应关系也因为前后英文发音单元的切分完毕而相应得到确定,最终得到“贝-Be;克-ck;汉-ha;姆-m”这样的“汉字-英文发音单元”的对应关系。
参考上述切分方式对语料数据库中的中英语料进行切分,依据切分完成后的结果,统计得到汉字和英文发音单元之间的对应关系。
由于不同的情况下,同一个英文发音单元可能对应不同汉字,同一个汉字也可能对应不同的英文发音单元,例如“贝叶斯”中的“贝”对应“Bayes”中的“Ba”,不同于上述“贝克汉姆-Beckham”中的“贝-Be”对应关系。因此,在建立汉字和英文发音单元之间的对应关系时,还可以包括计算汉字和英文发音单元之间的音译概率,该概率可以通过统计的方 式计算得到,例如对于特定汉字和特定英文发音单元之间的音译概率可以根据下述公式6得到:
P(汉字C是由发音单元F音译得到的概率)=汉字C是由发音单元F音译得到的次数/语料数据库中汉字C出现的次数----公式6
公式6中,C表示汉字,F表示发音单元,P表示汉字C是由发音单元F音译得到的概率。但是,本发明不限于公式6的计算汉字和英文发音单元之间的音译概率的方式,例如可以用“语料数据库中汉字C由所有发音单元音译得到的次数的和”代替公式6中的“语料数据库中汉字C出现的次数”。
在步骤S202中,统计出各个英文发音单元作为英文名称首部的概率。
切分得到的英文发音单元中,不同发音单元在原英文名称中所处的位置不同,本步骤中,统计出各个英文发音单元作为英文名称首部的概率。作为英文名称首部的概率可以通过例如下述公式7计算:
P(发音单元r作为英文名称首部的概率)=发音单元r作为英文名称首部的次数/语料库中的英文名称的数量----公式7
公式7中,r表示英文发音单元,P表示发音单元r作为英文名称首部的概率。
而且,根据各个英文发音单元作为英文名称首部的概率可以建立首部发音单元概率表。
在步骤S203中,统计出每两个英文发音单元前后连接的概率。
可以通过例如下述公式8计算两个英文发音单元前后连接的概率:
P(发音单元r后面连接发音单元q的概率)=发音单元r后面连接发音单元q的次数/发音单元r不作为最后一个发音单元在英文名称中出现的次数----公式8
公式8中,r、q表示英文发音单元,p表示发音单元r后面连接发音单元q的概率。
而且,根据每两个英文发音单元前后连接的概率可以建立发音单元连接概率表。
在步骤S204中,统计出各个英文发音单元作为英文名称尾部的概 率。
本步骤中英文发音单元作为英文名称尾部的概率可以通过例如公式9的方式计算:
P(发音单元r作为英文名称尾部的概率)=发音单元r作为英文名称尾部的次数/语料库中的英文名称的数量----公式9
公式9中,r表示英文发音单元,P表示发音单元r作为英文名称尾部的概率。
而且,根据各个英文发音单元作为英文名称尾部的概率可以建立尾部发音单元概率表。
在步骤S205中,统计出单个英文发音单元作为英文名称的概率。
单个英文发音单元有可能构成一个英文名称,计算该类单个发音单元作为英文名称的概率,得到“单个发音单元名称概率表”。计算方式包括如下公式:
P(发音单元r作为英文名称的概率)=发音单元r作为英文名称的次数/语料库中具有单个发音单元的英文名称的数量----公式10
公式10中,r表示英文发音单元,P表示发音单元r作为英文名称的概率。
需要说明,上述步骤S202-S205之间并无必须的先后顺序,上述顺序只是一种方便说明的方式,而不用于限制上述处理之间的先后关系。
本发明中,对于当前语言的字符串,根据其对应的源语言的发音单元序列为源语言中的名称的概率判断当前语言的字符串是否为源语言音译名,能够准确识别出当前语言的字符串是否为源语言音译名。而且,上述实施方式提供的方法中还可以将当前语言的字符串的上下文考虑在内,提高了判断当前语言的字符串是否为源语言音译名的准确度。
基于与上述方法实施方式相同的技术构思,本发明另一实施方式中提供一种识别音译名的装置,图4示出该装置的结构框图。
如图4所示,该装置包括源语言发音单元获取模块31、源语言名称概率确定模块32和译名判断模块33。其中,源语言发音单元获取模块31,被配置用于对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;源语言名称概率确定模块32,被配置用于确定所述至少一种发音单元序列为所述源语言中的名称的概率;译名判断模块 33,被配置用于根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。
进一步的,源语言发音单元获取模块31被配置用于拆分所述字符串得到当前语言的发音单元,根据语料数据库中存储的当前语言的发音单元与源语言的发音单元之间的对应关系,查找得到所述拆分得到的各个发音单元所分别对应的源语言的发音单元;对所述获取到的源语言的发音单元进行组合得到所述字符串对应的所述源语言的至少一种发音单元序列。
源语言名称概率确定模块32可以被配置用于查找数据库中存储的首部发音单元概率表得到所述发音单元序列中的首发音单元为名称首部的第一概率;和/或查找数据库中存储的尾部发音单元概率表得到所述发音单元序列中的尾发音单元为名称尾部的第二概率;和/或查找数据库中存储的发音单元连接概率表得到所述发音单元序列中相邻发音单元顺次连接的第三概率;根据所述第一概率、第二概率和/或第三概率得到所述发音单元序列作为所述源语言中的名称的概率。另外,源语言名称概率确定模块32可以被配置用于当所述字符串为单个词时,查找数据库中存储的单发音单元概率表得到所述发音单元序列为名称的概率。
对于数据库的处理可以参考上述图2所示过程,在此不再赘述。
译名判断模块33还可以被配置用于:根据各发音单元序列作为源语言中的名称的概率以及所述字符串翻译为各发音单元序列的概率,得到所述字符串为所述源语言中的名称的全概率;当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名。其中,译名判断模块33还可以被配置用于根据所述字符串的各发音单元与所述源语言的发音单元序列中的相应发音单元的对应概率,得到所述字符串被翻译为对应发音单元序列的概率。而且,得到所述字符串被翻译为对应发音单元序列的概率的处理过程可以参考上述方法实施方式中的公式3,此处不再赘述。
图5示出本发明另一实施方式中提供一种识别音译名的装置,与图4所示装置相比,该装置还可以包括上下文处理模块34,被配置用于:判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,通知所述译名判断模块执行判定所述字符串为所述源语言音译名的操作。其中,可以通过例如统计的方式得到数据库中的各词作为音译名前一个词的概率和各词作为音译名后一个词的概率。
图6示出本发明另一实施方式中提供一种识别音译名的装置,与图5所示装置相比,该装置还可以包括相关词处理模块35,被配置用于:判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,通知所述源语言发音单元获取模块执行对当前语言的字符串的处理。
其中,各词作为音译名前一个词的概率以及后一个词的概率可以通过对语料数据库中的语料进行统计得到,该处理可以参考图1中的步骤S105和S106,此处不再赘述。
用以实施本发明的装置和方法的计算设备
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图7中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM1103中,也根据需要存储当CPU1101执行各种处理等等时所需的数据。CPU1101、ROM1102和RAM1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质 1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明任一实施方式的方法或方法中的部分处理。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本文中所使用的术语仅用于描述具体的实施方式的目的,而非意在限制本发明。本文中所使用的单数形式的“一个”和“该(the)”意在还包括复数形式,除非上下文清楚地指出不同含义。还应当理解,术语“包括”在本说明书中使用时指所说明的特征、整体、操作、步骤、元件和/或部件的存在,但是不排除一个或更多个其他特征、整体、操作、步骤、元件、部件和/或其组合的存在或添加。
权利要求中的相应结构、材料、动作和以“装置或者步骤加功能”定义的要素的所有等同形式意在包括用于结合其他要求保护的要素来执行功能的任意结构、材料或动作。对本发明的描述是用于说明和描述的目的,而非意在以所公开的形式来穷举或限制本发明。本领域技术人员可以在不偏离本发明的范围和精神的情况下想到对本发明的很多修改和变化。所选择和描述的实施方式是为了最佳地解释本发明的原理和实际应用,并使得本领域的其他技术人员能够针对具有适于所想到的具体用途的各种修改的各种实施方式来理解本发明。
通过上述的描述,本发明的实施方式提供了以下的技术方案。
附记1.一种识别音译名的方法,包括:
对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;
确定所述至少一种发音单元序列为所述源语言中的名称的概率;
根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。
附记2.根据附记1所述的方法,其中,获取源语言的与所述字符串对应的至少一种发音单元序列包括:
拆分所述字符串得到当前语言的发音单元,根据语料数据库中存储的当前语言的发音单元与源语言的发音单元之间的对应关系,查找得到所述拆分得到的各个发音单元所分别对应的源语言的发音单元;
对所述获取到的源语言的发音单元进行组合得到所述字符串对应的所述源语言的至少一种发音单元序列。
附记3.根据附记2所述的方法,其中,通过下述方式获得所述当前语言的发音单元与源语言的发音单元之间的对应关系:
对语料数据库中的源语言音译名进行拆分得到当前语言的发音单元;
对所述源语言音译名对应的源语言的名称进行拆分得到所述源语言的发音单元;
建立所述当前语言的发音单元与所述源语言的发音单元之间的对应关系。
附记4.根据附记3所述的方法,其中,对所述当前语言的字符串进行处理之前,还包括:
根据计算得到的所述源语言的发音单元作为源语言的名称的首部的概率统计得到首部发音单元概率表,和/或
根据计算得到的所述源语言的发音单元作为源语言的名称的尾部的概率统计得到尾部发音单元概率表;和/或
根据计算得到的所述源语言的每两个发音单元在源语言的名称中前后连接的概率统计得到发音单元连接概率表;和/或
根据计算得到的所述源语言的单个发音单元作为源语言的名称的概率统计得到单发音单元概率表。
附记5.根据附记4所述的方法,其中,确定所述至少一种发音单元序列为所述源语言中的名称的概率包括:
查找所述首部发音单元概率表得到所述发音单元序列中的首发音单元为名称首部的第一概率;和/或
查找所述尾部发音单元概率表得到所述发音单元序列中的尾发音单元为名称尾部的第二概率;和/或
查找所述发音单元连接概率表得到所述发音单元序列中相邻发音单元顺次连接的第三概率;
根据所述第一概率、第二概率和/或第三概率得到所述发音单元序列作为所述源语言中的名称的概率。
附记6.根据附记4或5所述的方法,其中,确定所述至少一种发音单元序列为所述源语言中的名称的概率包括:
当所述字符串为单个词时,查找所述单发音单元概率表得到所述发音单元序列为名称的概率。
附记7.根据附记1所述的方法,其中,根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名包括:
根据各发音单元序列作为源语言中的名称的概率以及所述字符串翻译为各发音单元序列的概率,得到所述字符串为所述源语言中的名称的全概率;
当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名。
附记8.根据附记7所述的方法,其中,当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名之前还包括:
判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或
判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;
如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,执行判定所述字符串为所述源语言音译名的操作。
附记9.根据附记7所述的方法,其中,通过下述方式得到所述字符串翻译为发音单元序列的概率:
根据所述字符串的各发音单元与所述源语言的发音单元序列中的相应发音单元的对应概率,得到所述字符串被翻译为对应发音单元序列的概率。
附记10.根据附记1所述的方法,其中,对于当前语言的字符串进行处理之前还包括:
判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或
判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;
如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否 则,执行对当前语言的字符串的处理。
附记11.一种执行附记1-10任一项所述的识别音译名的方法的装置,包括:
源语言发音单元获取模块,被配置用于对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;
源语言名称概率确定模块,被配置用于确定所述至少一种发音单元序列为所述源语言中的名称的概率;
译名判断模块,被配置用于根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名。
附记12.根据附记11所述的装置,其中,所述源语言发音单元获取模块还被配置用于:
拆分所述字符串得到当前语言的发音单元,根据语料数据库中存储的当前语言的发音单元与源语言的发音单元之间的对应关系,查找得到所述拆分得到的各个发音单元所分别对应的源语言的发音单元;
对所述获取到的源语言的发音单元进行组合得到所述字符串对应的所述源语言的至少一种发音单元序列。
附记13.根据附记12所述的装置,其中,还包括:
数据库处理模块,被配置用于对语料数据库中的源语言音译名进行拆分得到当前语言的发音单元;对所述源语言音译名对应的源语言的名称进行拆分得到所述源语言的发音单元;并建立所述当前语言的发音单元与所述源语言的发音单元之间的对应关系。
附记14.根据附记13所述的装置,其中,所述数据库处理模块还被配置用于:
根据计算得到的所述源语言的发音单元作为源语言的名称的首部的概率统计得到首部发音单元概率表,和/或
根据计算得到的所述源语言的发音单元作为源语言的名称的尾部的概率统计得到尾部发音单元概率表;和/或
根据计算得到的所述源语言的每两个发音单元在源语言的名称中前后连接的概率统计得到发音单元连接概率表;和/或
根据计算得到的所述源语言的单个发音单元作为源语言的名称的概率统计得到单发音单元概率表。
附记15.根据附记14所述的装置,其中,所述源语言名称概率确定模块被配置用于:
查找所述首部发音单元概率表得到所述发音单元序列中的首发音单 元为名称首部的第一概率;和/或
查找所述尾部发音单元概率表得到所述发音单元序列中的尾发音单元为名称尾部的第二概率;和/或
查找所述发音单元连接概率表得到所述发音单元序列中相邻发音单元顺次连接的第三概率;
根据所述第一概率、第二概率和/或第三概率得到所述发音单元序列作为所述源语言中的名称的概率。
16.根据附记14或15所述的装置,其中,所述源语言名称概率确定模块被配置用于:
当所述字符串为单个词时,查找所述单发音单元概率表得到所述发音单元序列为名称的概率。
17.根据附记1所述的装置,其中,所述译名判断模块被配置用于:
根据各发音单元序列作为源语言中的名称的概率以及所述字符串翻译为各发音单元序列的概率,得到所述字符串为所述源语言中的名称的全概率;
当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名。
18.根据附记17所述的装置,其中,还包括上下文处理模块,被配置用于:
判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或
判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;
如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,通知所述译名判断模块执行判定所述字符串为所述源语言音译名的操作。
19.根据附记17所述的装置,其中,所述译名判断模块还被配置用于:根据所述字符串的各发音单元与所述源语言的发音单元序列中的相应发音单元的对应概率,得到所述字符串被翻译为对应发音单元序列的概率。
20.根据附记11所述的装置,其中,还包括相关词处理模块,被配置用于:
判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或
判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;
如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,通知所述源语言发音单元获取模块执行对当前语言的字符串的处理。

Claims (8)

1.一种识别音译名的方法,包括:
对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;
确定所述至少一种发音单元序列为所述源语言中的名称的概率;
根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名;
其中,根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名包括:
根据各发音单元序列作为源语言中的名称的概率以及所述字符串翻译为各发音单元序列的概率,得到所述字符串为所述源语言中的名称的全概率;
当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名;
其中,当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名之前还包括:
判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或
判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;
如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,执行判定所述字符串为所述源语言音译名的操作。
2.根据权利要求1所述的方法,其中,获取源语言的与所述字符串对应的至少一种发音单元序列包括:
拆分所述字符串得到当前语言的发音单元,根据语料数据库中存储的当前语言的发音单元与源语言的发音单元之间的对应关系,查找得到所述拆分得到的各个发音单元所分别对应的源语言的发音单元;
对所述获取到的源语言的发音单元进行组合得到所述字符串对应的所述源语言的至少一种发音单元序列。
3.根据权利要求2所述的方法,其中,通过下述方式获得所述当前语言的发音单元与源语言的发音单元之间的对应关系:
对语料数据库中的源语言音译名进行拆分得到当前语言的发音单元;
对所述源语言音译名对应的源语言的名称进行拆分得到所述源语言的发音单元;
建立所述当前语言的发音单元与所述源语言的发音单元之间的对应关系。
4.根据权利要求3所述的方法,其中,对所述当前语言的字符串进行处理之前,还包括:
根据计算得到的所述源语言的发音单元作为源语言的名称的首部的概率统计得到首部发音单元概率表,和/或
根据计算得到的所述源语言的发音单元作为源语言的名称的尾部的概率统计得到尾部发音单元概率表;和/或
根据计算得到的所述源语言的每两个发音单元在源语言的名称中前后连接的概率统计得到发音单元连接概率表;和/或
根据计算得到的所述源语言的单个发音单元作为源语言的名称的概率统计得到单发音单元概率表。
5.根据权利要求4所述的方法,其中,确定所述至少一种发音单元序列为所述源语言中的名称的概率包括:
查找所述首部发音单元概率表得到所述发音单元序列中的首发音单元为名称首部的第一概率;和/或
查找所述尾部发音单元概率表得到所述发音单元序列中的尾发音单元为名称尾部的第二概率;和/或
查找所述发音单元连接概率表得到所述发音单元序列中相邻发音单元顺次连接的第三概率;
根据所述第一概率、第二概率和/或第三概率得到所述发音单元序列作为所述源语言中的名称的概率。
6.根据权利要求4或5所述的方法,其中,确定所述至少一种发音单元序列为所述源语言中的名称的概率包括:
当所述字符串为单个词时,查找所述单发音单元概率表得到所述发音单元序列为名称的概率。
7.一种识别音译名的装置,执行权利要求1-6任一项所述的识别音译名的方法,所述装置包括:
源语言发音单元获取模块,被配置用于对于当前语言的字符串,获取源语言的与所述字符串对应的至少一种发音单元序列;
源语言名称概率确定模块,被配置用于确定所述至少一种发音单元序列为所述源语言中的名称的概率;
译名判断模块,被配置用于根据所述至少一种发音单元序列为所述源语言中的名称的概率判断所述当前语言的字符串是否为音译名;
其中,所述译名判断模块被配置用于:
根据各发音单元序列作为源语言中的名称的概率以及所述字符串翻译为各发音单元序列的概率,得到所述字符串为所述源语言中的名称的全概率;
当所述全概率的值大于第一阈值时,判定所述字符串为所述源语言音译名;
其中,所述装置还包括上下文处理模块,被配置用于:
判断所述字符串前一个词作为音译名前一个词的概率是否大于第二阈值;和/或
判断所述字符串后一个词作为音译名后一个词的概率是否大于第三阈值;
如果出现判断结果为否,判定所述字符串不是所述源语言音译名;否则,通知所述译名判断模块执行判定所述字符串为所述源语言音译名的操作。
8.根据权利要求7所述的装置,其中,所述源语言发音单元获取模块还被配置用于:
拆分所述字符串得到当前语言的发音单元,根据语料数据库中存储的当前语言的发音单元与源语言的发音单元之间的对应关系,查找得到所述拆分得到的各个发音单元所分别对应的源语言的发音单元;
对所述获取到的源语言的发音单元进行组合得到所述字符串对应的所述源语言的至少一种发音单元序列。
CN201310575092.1A 2013-11-15 2013-11-15 识别音译名的方法及装置 Expired - Fee Related CN104657343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310575092.1A CN104657343B (zh) 2013-11-15 2013-11-15 识别音译名的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310575092.1A CN104657343B (zh) 2013-11-15 2013-11-15 识别音译名的方法及装置

Publications (2)

Publication Number Publication Date
CN104657343A CN104657343A (zh) 2015-05-27
CN104657343B true CN104657343B (zh) 2017-10-10

Family

ID=53248493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310575092.1A Expired - Fee Related CN104657343B (zh) 2013-11-15 2013-11-15 识别音译名的方法及装置

Country Status (1)

Country Link
CN (1) CN104657343B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446521B (zh) * 2018-10-18 2023-08-25 京东方科技集团股份有限公司 命名实体识别方法、装置、电子设备、机器可读存储介质
CN112883162A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 一种音译名识别方法、装置、识别设备及可读存储介质
CN112883161A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 音译名识别规则的生成方法、装置、生成设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263432A (ja) * 2002-03-07 2003-09-19 Nippon Hoso Kyokai <Nhk> 翻字装置及びそのプログラム
CN1945562A (zh) * 2005-10-09 2007-04-11 株式会社东芝 训练音译模型、切分统计模型以及自动音译的方法和装置
CN101145166A (zh) * 2007-11-13 2008-03-19 北京中搜在线软件有限公司 基于音节驱动的音译实体名的计算机自动识别方法
WO2008109769A1 (en) * 2007-03-06 2008-09-12 Google Inc. Machine learning for transliteration
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
CN102193643A (zh) * 2010-03-15 2011-09-21 北京搜狗科技发展有限公司 一种文字输入方法和具有翻译功能的输入法系统
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US8818791B2 (en) * 2012-04-30 2014-08-26 Google Inc. Techniques for assisting a user in the textual input of names of entities to a user device in multiple different languages

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263432A (ja) * 2002-03-07 2003-09-19 Nippon Hoso Kyokai <Nhk> 翻字装置及びそのプログラム
CN1945562A (zh) * 2005-10-09 2007-04-11 株式会社东芝 训练音译模型、切分统计模型以及自动音译的方法和装置
WO2008109769A1 (en) * 2007-03-06 2008-09-12 Google Inc. Machine learning for transliteration
CN101145166A (zh) * 2007-11-13 2008-03-19 北京中搜在线软件有限公司 基于音节驱动的音译实体名的计算机自动识别方法
CN101593173A (zh) * 2008-05-28 2009-12-02 中国科学院自动化研究所 一种汉英反向音译方法及装置
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
CN102193643A (zh) * 2010-03-15 2011-09-21 北京搜狗科技发展有限公司 一种文字输入方法和具有翻译功能的输入法系统

Also Published As

Publication number Publication date
CN104657343A (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
CN102033879B (zh) 一种中文人名识别的方法和装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
KR101744861B1 (ko) 합성어 분할
CN104573099B (zh) 题目的搜索方法及装置
CN105224640B (zh) 一种提取观点的方法和设备
US20160132492A1 (en) Text segmentation with multiple granularity levels
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
US20130173258A1 (en) Broad-Coverage Normalization System For Social Media Language
EP1580667B1 (en) Representation of a deleted interpolation N-gram language model in ARPA standard format
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
WO2012166417A1 (en) Method and system for text message normalization based on character transformation and unsupervised of web data
JP2006190006A5 (zh)
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN112347767B (zh) 一种文本处理方法、装置及设备
CN104657343B (zh) 识别音译名的方法及装置
JP2013033473A5 (zh)
CN107273360A (zh) 基于语义理解的中文实词提取算法
JP7055764B2 (ja) 対話制御システム、対話制御方法及びプログラム
CN111339778A (zh) 文本处理方法、装置、存储介质和处理器
JP5286125B2 (ja) 単語境界決定装置および形態素解析装置
CN107844526B (zh) 一种基于知识库的词汇关系链分析方法、系统及装置
CN103678355B (zh) 文本挖掘方法和文本挖掘装置
CN109471920A (zh) 一种文本标识的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171010

Termination date: 20181115

CF01 Termination of patent right due to non-payment of annual fee