CN107967259A - 泰语音节切分的方法及装置 - Google Patents
泰语音节切分的方法及装置 Download PDFInfo
- Publication number
- CN107967259A CN107967259A CN201711204590.XA CN201711204590A CN107967259A CN 107967259 A CN107967259 A CN 107967259A CN 201711204590 A CN201711204590 A CN 201711204590A CN 107967259 A CN107967259 A CN 107967259A
- Authority
- CN
- China
- Prior art keywords
- thai
- syllable
- slit
- characters
- pending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了泰语音节切分的方法及装置,属于信息检索技术领域。该方法包括:对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
Description
技术领域
本发明涉及信息检索技术领域,特别涉及泰语音节切分的方法及装置。
背景技术
泰语也称傣语(Dai language),是傣泰民族的语言,属于东亚语系/汉藏语系的一种语言。全球有约6800万人口使用泰语。泰语的文本中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,一般,以空两个字母的间隔或句子当中的小停顿表示一个句子。然而,作为一个在语法中被明确定义的基本单元,文本中的泰语音节和音节之间却没有明显的空格存在。因此,泰语文本的处理操作首先得要对泰语文本进行音节的切分。这项切分处理工作为泰文的词法,句法,以及更复杂的自然语言处理算法任务提供了重要的基础。
目前,可根据泰国学者对音节构成的语法模式进行归纳得出的200多条的规则对泰文进行音节切分。但是,由于语法规则复杂且难以理解,大量的规则之间还可能存在冲突,使得泰文的音节切分速度比较慢,而且准确性也不是很高。
发明内容
本发明实施例提供了一种泰语音节切分的方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种泰语音节切分的方法,包括:
对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;
对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;
提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;
根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;
根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
本发明一实施例中,所述对待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息包括:
对所述待处理泰语文本中的非泰语字符串进行识别;
根据保存的泰语字符与位置音节类型信息之间的对应关系,确定所述待处理泰语文本中每个泰语字符的位置音节类型信息,其中,所述位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
本发明一实施例中,所述对所述待处理泰语文本中每个字符之间的边界进行打标签包括:
将两个非泰语音节字符之间的边界标注为第一切分标识;
将两个泰语音节字符之间的边界标注为所述待切分标识;
将一个泰语音节字符与一个非泰语字符串之间的边界标注为所述待切分标识。
本发明一实施例中,所述根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链模型,确定每个待切分音节的切分概率包括:
若所述泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与所述待切分标识的待切分音节对应的切分概率为零;
若所述泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的所述待切分标识与所述泰语字符的待切分音节对应的切分概率为零。
本发明一实施例中,所述根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节包括:
根据每个待切分音节及其对应的切分概率,确定所述设定待处理泰语句子中每个预处理音节的预处理切分概率;
根据所述预处理切分概率的大小,对所述设定待处理泰语句子中的音节进行切分。
根据本发明实施例的第二方面,提供一种泰语音节切分的装置,包括:
预处理单元,用于对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;
标识单元,用于对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;
提取单元,用于提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;
概率确定单元,用于根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;
切分单元,用于根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
本发明一实施例中,所述预处理单元,还用于对所述待处理泰语文本中的非泰语字符串进行识别;以及,根据保存的泰语字符与位置音节类型信息之间的对应关系,确定所述待处理泰语文本中每个泰语字符的位置音节类型信息,其中,所述位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
本发明一实施例中,所述标识单元,还用于将两个非泰语音节字符之间的边界标注为第一切分标识;以及,将两个泰语音节字符之间的边界标注为所述待切分标识,将一个泰语音节字符与一个非泰语字符串之间的边界标注为所述待切分标识。
本发明一实施例中,所述概率确定单元,还用于若所述泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与所述待切分标识的待切分音节对应的切分概率为零;若所述泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的所述待切分标识与所述泰语字符的待切分音节对应的切分概率为零。
本发明一实施例中,所述切分单元,还用于根据每个待切分音节及其对应的切分概率,确定所述设定待处理泰语句子中每个预处理音节的预处理切分概率;根据所述预处理切分概率的大小,对所述设定待处理泰语句子中的音节进行切分。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,可通过泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个音节的切分概率,并根据切分概率对泰语句子中的音节进行切分,提供了另一种泰语音节切分的方式。并且该切分方式基于泰语基本语法规则,采用马尔科夫链概率语音模型的n元文法进行概率统计,提高了泰语音节切分的准确性和切分速度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种泰语音节切分方法的流程图;
图2是根据一示例性实施例示出的一种泰语音节切分方法的流程图;
图3是根据一示例性实施例示出的一种泰语音节切分装置的框图;
图4是根据一示例性实施例示出的一种泰语音节切分装置的框图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
泰语文档中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,较难从泰文文档中识别出泰语音节。本发明实施例中,可通过泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个音节的切分概率,并根据切分概率对泰语句子中的音节进行切分,提供了另一种泰语音节切分的方式。并且该切分方式基于泰语基本语法规则,采用马尔科夫链概率语音模型的n元文法进行概率统计,提高了泰语音节切分的准确性和切分速度。
图1是根据一示例性实施例示出的一种泰语音节切分方法的流程图。如图1所示,泰语音节切分的过程包括:
步骤101:对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息。
本发明实施例中,泰语语料库中包括多种类型的泰语文本,分别可包括新闻、百科、小说和短文等等。从泰语语料库中获取语料文本,这里,即从泰语语料库中获取待处理泰语文本。
待处理泰语文本中不仅仅只包括泰语字符,还可能包括非泰语字符。其中,非泰语字符可包括:外文字符(例如英文字符)、阿拉伯数字、标点符合以及空白四个类型。因此,可首先对待处理泰语文本中的非泰语字符串进行识别,这样,可区分出待处理泰语文本中的泰语字符和非泰语字符。
泰语的一个音节主要由元音字符,辅音字符以及音调组成。其中,对于15个泰语元音字符,它们之间可以通过互相结合成为双元音或者三元音等至少28种元音组合形态(vowel forms),并出现在音节中。而对于44个泰语辅音,可以作为音节的头(开首辅音)和尾(韵尾)。音节所包含的声调有5种。基于上述泰语的基本语法规则可生成一个泰语字符与位置音节类型信息之间的对应关系并进行保存,其中,位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
例如:泰语字符与位置音节类型信息之间的对应关系可如表1所示。
表1
从而,可根据保存的泰语字符与位置音节类型信息之间的对应关系,确定待处理泰语文本中每个泰语字符的位置音节类型信息。例如:待处理泰语文本中包括泰文字符则可根据表1,确定该泰文字符的位置音节类型信息为不在音节末尾的辅音。
步骤102:对待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识。
本发明实施例可人工标识的方法对每个字符之间的边界进行打标签,即人工泰语音节切分后,在字符之间的边界进行打标签。当然,也可自动对边界进行打标签,智能匹配识别泰语音节切分后,在字符之间的边界进行打标签。无论何种方式,都可采用标注集{S,B}来对泰语字符间的边界进行打标签。
其中,将两个非泰语音节字符之间的边界标注为第一切分标识;以及,将两个泰语音节字符的边界标注为待切分标识,将一个泰语音节字符与一个非泰语字符串之间的边界标注为待切分标识。
这里,待处理泰语文本中字符与字符之间的边界可用Ii标示,其中,可将两个非泰语音节字符之间的边界标注为第一切分标识,即Ii=S,即S为第一切分标识。而可将两个泰语音节字符之间的边界标注为待切分标识;以及,一个泰语音节字符与一个非泰语字符串之间的边界标注为待切分标识,此时,Ii=B,即B为待切分标识。通过上述的标识过程,待处理泰语文本可用C1I1C2I2…CiIi…CnIn来标示,其中,Ci为待处理泰语文本中的字符,Ii为字符之间的边界。其中,Ii=S,或Ii=B,n为正整数。
这里,对待处理泰语文本中每个字符之间的边界进行打标签是预处理过程,上述的泰语音节字符可是根据人工标识或智能识别的方式确定的,但是具体的音节划分,还需进行后续步骤。
步骤103:提取待处理泰语文本中的每个待切分音节,其中,待切分音节由连续出现n次的泰语字符与待切分标识组成。
由于泰文字符之间边界不容易划分,因此,从待处理泰语文本中提取由泰语字符和待切分标识组成的音节,提取的音节是待切分音节,该待切分音节包括连续出现n次的泰语字符以及一个待切分标识。这里,n为正整数。
若待切分音节由出现1次的泰语字符以及一个待切分标识组成,则可用CB,或BC表示,若待切分音节由出现2次的泰语字符以及一个待切分标识组成,则可用CCB,CBC,或BCC表示,若待切分音节由出现3次的泰语字符以及一个待切分标识组成,则可用CCCB,CCBC,CBCC,或BCCC表示。若待切分音节由出现4次的泰语字符以及一个待切分标识组成,则可用CCCCB,CCCBC,CCBCC,CBCCC或BCCC表示。依次类推。其中,C表示泰文字符,而B表示待切分标识。
提取的待切分音节可都为连续出现1次泰文字符的待切分音节,或者,连续出现2次泰文字符的待切分音节,或者,连续出现3次泰文字符的待切分音节,或者,包括连续出现1次泰文字符的待切分音节,连续出现2次泰文字符的待切分音节,以及连续出现3次泰文字符的待切分音节。当然还有其他的选择,根据具有应用场景决定,就不再例举了。
步骤104:根据待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率。
马尔可夫链,是指数学中具有马尔可夫性质的离散事件随机过程。马尔可夫链是满足马尔可夫性质的随机过程。马尔可夫链(Markov Chain),描述了一种状态序列,X1,X2,X3…,其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的一个数列。这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。如果Xn+1对于过去状态的条件概率分布仅是Xn的一个函数,则
P(Xn+1=x|X1=x1,X2=x2,…,Xn=xn)=P(Xn+1=x|Xn=xn)
这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。
待切分音节中的泰语字符的位置音节类型信息已经确定了,因此,对于设定的位置音节类型信息,其对应的切分概率是固定,包括:若泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与待切分标识的待切分音节对应的切分概率为零;若泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的待切分标识与泰语字符的待切分音节对应的切分概率为零。
以包括连续出现1次泰文字符的待切分音节,连续出现2次泰文字符的待切分音节,以及连续出现3次泰文字符的待切分音节为例,若泰语字符C为不在音节末尾的辅音字符时,PCB、PCCB、PCBC、PCCCB、PCCBC、以及PCBCC的值都为0。即第一顺序中,C在B的前面。若泰语字符C为不在音节起始位置的元音字符时,则PBC、PBCC、PCBC、PCCBC、PBCCC以及PCBCC的值都为0。即第二顺序中,B在C前。
对于包含其他位置音节类型信息的泰语字符的待切分音节,分别统计每个泰语字符在待处理泰语文本中第一切分标识前出现的次数,以及每个泰语字符在待处理泰语文本中出现的总次数,采用上述的马尔科夫链概率语音模型,即可确定每个待切分音节的切分概率。
从而,对泰语语料库中泰语文档中待切分音节以及切分概率的统计,可确定音节以及对应的切分概率的切分模型。
步骤105:根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
已经确定了音节以及对应的切分概率的切分模型,因此,输入了设定待处理泰语句子后,可根据每个待切分音节及其对应的切分概率,确定设定待处理泰语句子中每个预处理音节的预处理切分概率,然后,根据预处理切分概率的大小,对设定待处理泰语句子中的音节进行切分。
具体,可在已经确定了音节以及对应的切分概率的切分模型中匹配,确定设定待处理泰语句子中每种可能存在的预处理音节及其对应的预处理切分概率,然后,比较预处理切分概率的大小,可根据最大一组切分概率,对设定待处理泰语句子中的音节进行切分。或者,根据大于设定值的预处理切分概率,对设定待处理泰语句子中的音节进行切分。
可见,本发明实施例中,可通过泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个音节的切分概率,并根据切分概率对泰语句子中的音节进行切分,提供了另一种泰语音节切分的方式。并且该切分方式基于泰语基本语法规则,采用马尔科夫链概率语音模型的n元文法进行概率统计,提高了泰语音节切分的准确性和切分速度。
下面将操作流程集合到具体实施例中,举例说明本公开实施例提供的方法。
本实施例中,待切分音节中可出现连续1次的泰语字符,连续2次的泰语字符,以及连续3次的泰语字符,分别对应采用马尔科夫链概率语音模型的一元文法、二元文法,以及三元文法。
图2是根据一示例性实施例示出的一种泰语音节切分方法的流程图。如图2所示,泰语音节切分过程包括:
步骤201:对从泰语语料库中获取的待处理泰语文本中的非泰语字符串进行识别,确定非泰语字符串。
步骤202:根据保存的泰语字符与位置音节类型信息之间的对应关系,确定待处理泰语文本中每个泰语字符的位置音节类型信息。
这里,位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。保存的泰语字符与位置音节类型信息之间的对应关系可如表1所示。
步骤203:将待处理泰语文本中两个非泰语音节字符之间的边界标注为第一切分标识,将两个泰语音节字符之间的边界,以及一个泰语音节字符与一个非泰语字符串之间的边界都标注为待切分标识。
这样,待处理泰语文本可用C1I1C2I2…CiIi…CnIn来标示,其中,Ci为待处理泰语文本中的字符,Ii为字符之间的边界。其中,Ii=S,或Ii=B。
步骤204:提取待处理泰语文本中的每个待切分音节。
这里,提取出来的待切分音节包括:连续出现1次泰文字符的待切分音节,连续出现2次泰文字符的待切分音节,以及连续出现3次泰文字符的待切分音节。分别对应为CB,BC,CCB,CBC,BCC,CCCB,CCBC,CBCC,BCCC这九种表示类型,其中,C表示泰文字符,而B表示待切分标识。
步骤205:根据待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率。
表2
对于设定的位置音节类型信息,其对应的切分概率是固定,其中,若泰语字符C为不在音节末尾的辅音字符时,PCB、PCCB、PCBC、PCCCB、PCCBC、以及PCBCC的值都为0。若泰语字符C为不在音节起始位置的元音字符时,则PBC、PBCC、PCBC、PCCBC、PBCCC以及PCBCC的值都为0。
对于包含其他位置音节类型信息的泰语字符的待切分音节,分别统计每个泰语字符在待处理泰语文本中第一切分标识前出现的次数,以及每个泰语字符在待处理泰语文本中出现的总次数,采用上述的马尔科夫链概率语音模型,计算表格2中9种类型对应的每个待切分音节的切分概率。
根据表2,对泰语语料库中泰语文档中待切分音节以及切分概率进行统计,可确定音节以及对应的切分概率的切分模型。
步骤206:根据每个待切分音节及其对应的切分概率,确定设定待处理泰语句子中每个预处理音节的预处理切分概率。
步骤207:根据预处理切分概率的大小,对设定待处理泰语句子中的音节进行切分。
例如:CCBC的预处理切分概率最大,则可确定Ii=B=1,即此处为音节边界。
可见,本实施例中,可通过一元文法,二元文法以及三元文法,采用马尔科夫链概率语音模型,确定每个音节的切分概率,并根据切分概率对泰语句子中的音节进行切分,提高了泰语音节切分的准确性和切分速度。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据上述泰语音节切分的过程,可构建一种泰语音节切分的装置。
图3是根据一示例性实施例示出的一种泰语音节切分装置的框图。如图3所示,该装置包括:预处理单元100、标识单元200、提取单元200、概率确定单元400和切分单元500,其中,
预处理单元100,用于对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息。
标识单元200,用于对待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识。
提取单元300,用于提取待处理泰语文本中的每个待切分音节,其中,待切分音节由连续出现n次的泰语字符,以及一个待切分标识组成,n为正整数。
概率确定单元400,用于根据待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率。
切分单元500,用于根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
本发明一实施例中,预处理单元100,还用于对待处理泰语文本中的非泰语字符串进行识别;以及,根据保存的泰语字符与位置音节类型信息之间的对应关系,确定待处理泰语文本中每个泰语字符的位置音节类型信息,其中,位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
本发明一实施例中,标识单元200,还用于将两个非泰语音节字符之间的边界标注为第一切分标识;以及,将两个泰语音节字符之间的边界标注为待切分标识,将一个泰语音节字符与一个非泰语字符串之间的边界标注为待切分标识。
本发明一实施例中,概率确定单元400,还用于若泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与待切分标识的待切分音节对应的切分概率为零;若泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的待切分标识与泰语字符的待切分音节对应的切分概率为零。
本发明一实施例中,切分单元500,还用于根据每个待切分音节及其对应的切分概率,确定设定待处理泰语句子中每个预处理音节的预处理切分概率;根据预处理切分概率的大小,对设定待处理泰语句子中的音节进行切分。
下面举例说明本公开实施例提供的装置。
图4是根据一示例性实施例示出的一种泰语音节切分装置的框图。如图4所示,该装置包括:预处理单元100、标识单元200、提取单元200、概率确定单元400和切分单元500。还可包括一个存储单元600。
其中,存储单元600中存储了如表1所示的泰语字符与位置音节类型信息之间的对应关系。这样,预处理单元100可对待处理泰语文本中的非泰语字符串进行识别,确定非泰语字符串,并可根据存储单元600保存的泰语字符与位置音节类型信息之间的对应关系,确定待处理泰语文本中每个泰语字符的位置音节类型信息。
而标识单元200可将待处理泰语文本中两个非泰语音节字符之间的边界标注为第一切分标识,将两个泰语音节字符之间的边界,以及一个泰语音节字符与一个非泰语字符串之间的边界都标注为待切分标识,从而,待处理泰语文本可用C1I1C2I2…CiIi…CnIn来标示,其中,Ci为待处理泰语文本中的字符,Ii为字符之间的边界。其中,Ii=S,或Ii=B。S为第一切分标识,B为待切分标识。
然后,提取单元300提取待处理泰语文本中的每个待切分音节。从而,提取出来的待切分音节包括:连续出现1次泰文字符的待切分音节,连续出现2次泰文字符的待切分音节,以及连续出现3次泰文字符的待切分音节。分别对应为CB,BC,CCB,CBC,BCC,CCCB,CCBC,CBCC,BCCC这九种表示类型,其中,C表示泰文字符,而B表示待切分标识。
若泰语字符C为不在音节末尾的辅音字符时,概率确定单元400确定CB、PCCB、PCBC、PCCCB、PCCBC、以及PCBCC的值都为0。若泰语字符C为不在音节起始位置的元音字符时,概率确定单元400确定PBC、PBCC、PCBC、PCCBC、PBCCC以及PCBCC的值都为0。对于包含其他位置音节类型信息的泰语字符的待切分音节,概率确定单元400可进行马尔科夫链概率语音模型的概率统计,确定上述表2中九种类型的每个待切分音节的切分概率。
从而,切分模块500可根据每个待切分音节及其对应的切分概率,确定设定待处理泰语句子中每个预处理音节的预处理切分概率,然后,根据预处理切分概率的大小,对设定待处理泰语句子中的音节进行切分。
可见,本实施例中,可通过泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个音节的切分概率,并根据切分概率对泰语句子中的音节进行切分,提供了另一种泰语音节切分的方式。并且该切分方式基于泰语基本语法规则,采用马尔科夫链概率语音模型的n元文法进行概率统计,提高了泰语音节切分的准确性和切分速度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种泰语音节切分的方法,其特征在于,包括:
对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;
对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;
提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;
根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;
根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
2.如权利要求1所述的方法,其特征在于,所述对待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息包括:
对所述待处理泰语文本中的非泰语字符串进行识别;
根据保存的泰语字符与位置音节类型信息之间的对应关系,确定所述待处理泰语文本中每个泰语字符的位置音节类型信息,其中,所述位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
3.如权利要求1所述的方法,其特征在于,所述对所述待处理泰语文本中每个字符之间的边界进行打标签包括:
将两个非泰语音节字符之间的边界标注为第一切分标识;
将两个泰语音节字符之间的边界标注为所述待切分标识;
将一个泰语音节字符与一个非泰语字符串之间的边界标注为所述待切分标识。
4.如权利要求1或2所述的方法,其特征在于,所述根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链模型,确定每个待切分音节的切分概率包括:
若所述泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与所述待切分标识的待切分音节对应的切分概率为零;
若所述泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的所述待切分标识与所述泰语字符的待切分音节对应的切分概率为零。
5.如权利要求1所述的方法,其特征在于,所述根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节包括:
根据每个待切分音节及其对应的切分概率,确定所述设定待处理泰语句子中每个预处理音节的预处理切分概率;
根据所述预处理切分概率的大小,对所述设定待处理泰语句子中的音节进行切分。
6.一种泰语音节切分的装置,其特征在于,包括:
预处理单元,用于对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;
标识单元,用于对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;
提取单元,用于提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;
概率确定单元,用于根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;
切分单元,用于根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
7.如权利要求6所述的装置,其特征在于,
所述预处理单元,还用于对所述待处理泰语文本中的非泰语字符串进行识别;以及,根据保存的泰语字符与位置音节类型信息之间的对应关系,确定所述待处理泰语文本中每个泰语字符的位置音节类型信息,其中,所述位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
8.如权利要求6所述的装置,其特征在于,
所述标识单元,还用于将两个非泰语音节字符之间的边界标注为第一切分标识;以及,将两个泰语音节字符之间的边界标注为所述待切分标识,将一个泰语音节字符与一个非泰语字符串之间的边界标注为所述待切分标识。
9.如权利要求6或7所述的装置,其特征在于,
所述概率确定单元,还用于若所述泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与所述待切分标识的待切分音节对应的切分概率为零;若所述泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的所述待切分标识与所述泰语字符的待切分音节对应的切分概率为零。
10.如权利要求6所述的装置,其特征在于,
所述切分单元,还用于根据每个待切分音节及其对应的切分概率,确定所述设定待处理泰语句子中每个预处理音节的预处理切分概率;根据所述预处理切分概率的大小,对所述设定待处理泰语句子中的音节进行切分。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711204590.XA CN107967259A (zh) | 2017-11-27 | 2017-11-27 | 泰语音节切分的方法及装置 |
PCT/CN2017/116082 WO2019100458A1 (zh) | 2017-11-27 | 2017-12-14 | 泰语音节切分的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711204590.XA CN107967259A (zh) | 2017-11-27 | 2017-11-27 | 泰语音节切分的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107967259A true CN107967259A (zh) | 2018-04-27 |
Family
ID=61998959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711204590.XA Pending CN107967259A (zh) | 2017-11-27 | 2017-11-27 | 泰语音节切分的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107967259A (zh) |
WO (1) | WO2019100458A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871537A (zh) * | 2019-01-31 | 2019-06-11 | 沈阳雅译网络技术有限公司 | 一种高精度的泰语分句方法 |
CN111627421A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112883726A (zh) * | 2021-01-21 | 2021-06-01 | 昆明理工大学 | 基于音节切分和词切分联合学习的多任务泰语分词方法 |
CN112905024A (zh) * | 2021-01-21 | 2021-06-04 | 李博林 | 单词的音节记录方法及装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460766B (zh) * | 2020-03-31 | 2023-05-26 | 云知声智能科技股份有限公司 | 一种矛盾语块边界识别的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US8165869B2 (en) * | 2007-12-10 | 2012-04-24 | International Business Machines Corporation | Learning word segmentation from non-white space languages corpora |
CN103324621A (zh) * | 2012-03-21 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本拼写纠正方法及装置 |
CN103324607A (zh) * | 2012-03-20 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本切词方法及装置 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1141697C (zh) * | 2000-09-27 | 2004-03-10 | 中国科学院自动化研究所 | 一种带调三音子模型及训练方法 |
CN103914569B (zh) * | 2014-04-24 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 输入提示方法、装置及字典树模型的创建方法、装置 |
-
2017
- 2017-11-27 CN CN201711204590.XA patent/CN107967259A/zh active Pending
- 2017-12-14 WO PCT/CN2017/116082 patent/WO2019100458A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806021A (en) * | 1995-10-30 | 1998-09-08 | International Business Machines Corporation | Automatic segmentation of continuous text using statistical approaches |
US8165869B2 (en) * | 2007-12-10 | 2012-04-24 | International Business Machines Corporation | Learning word segmentation from non-white space languages corpora |
CN103324607A (zh) * | 2012-03-20 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本切词方法及装置 |
CN103324621A (zh) * | 2012-03-21 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种泰语文本拼写纠正方法及装置 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
Non-Patent Citations (4)
Title |
---|
AROUNYADETH SRITHIRATH ET AL.: "A Hybrid Approach to Lao Word Segmentation using Longest Syllable Level Matching with Named Entities Recognition", 《2013 10TH INTERNATIONAL CONFERENCE ON ELECTRICAL ENGINEERING/ELECTRONICS, COMPUTER, TELECOMMUNICATIONS AND INFORMATION TECHNOLOGY》 * |
LONG-LONG MA ET AL.: "Online handwritten Tibetan syllable recognition based on component segmentation method", 《2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》 * |
瓦依提·阿不力孜 等: "现代维吾尔文音节自动切分方法及其实现", 《中国科技论文》 * |
赵世瑜 等: "基于条件随机场的泰语音节切分方法", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871537A (zh) * | 2019-01-31 | 2019-06-11 | 沈阳雅译网络技术有限公司 | 一种高精度的泰语分句方法 |
CN109871537B (zh) * | 2019-01-31 | 2022-12-27 | 沈阳雅译网络技术有限公司 | 一种高精度的泰语分句方法 |
CN111627421A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN111627421B (zh) * | 2020-05-13 | 2023-08-11 | 广州国音智能科技有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112883726A (zh) * | 2021-01-21 | 2021-06-01 | 昆明理工大学 | 基于音节切分和词切分联合学习的多任务泰语分词方法 |
CN112905024A (zh) * | 2021-01-21 | 2021-06-04 | 李博林 | 单词的音节记录方法及装置 |
CN112883726B (zh) * | 2021-01-21 | 2021-12-28 | 昆明理工大学 | 基于音节切分和词切分联合学习的多任务泰语分词方法 |
CN112905024B (zh) * | 2021-01-21 | 2023-10-27 | 李博林 | 单词的音节记录方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019100458A1 (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967259A (zh) | 泰语音节切分的方法及装置 | |
CN109977361A (zh) | 一种基于相似词的汉语拼音标注方法、装置及存储介质 | |
CN103955450A (zh) | 一种新词自动提取方法 | |
CN109255117A (zh) | 中文分词方法及装置 | |
US8335681B2 (en) | Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
CN107943783A (zh) | 一种基于lstm‑cnn的分词方法 | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
Iwakura | A named entity recognition method using rules acquired from unlabeled data | |
CN110413972A (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
Mohamed et al. | Arabic-SOS: segmentation, stemming, and orthography standardization for classical and pre-modern standard Arabic | |
CN107967252A (zh) | 一种基于Bi-LSTM-CNN的分词方法 | |
Pailai et al. | A comparative study on different techniques for thai part-of-speech tagging | |
CN116484842A (zh) | 语句纠错的方法及装置、电子设备、存储介质 | |
Mukund et al. | NE tagging for Urdu based on bootstrap POS learning | |
CN109325225B (zh) | 一种通用的基于关联的词性标注方法 | |
Eyecioglu et al. | ASOBEK at semeval-2016 task 1: Sentence representation with character n-gram embeddings for semantic textual similarity | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Tongtep et al. | Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction | |
dos Santos et al. | Training state-of-the-art Portuguese POS taggers without handcrafted features | |
CN110688840A (zh) | 一种文本转换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180427 |