CN106297764B - 一种多语种混语文本处理方法及系统 - Google Patents

一种多语种混语文本处理方法及系统 Download PDF

Info

Publication number
CN106297764B
CN106297764B CN201510278726.6A CN201510278726A CN106297764B CN 106297764 B CN106297764 B CN 106297764B CN 201510278726 A CN201510278726 A CN 201510278726A CN 106297764 B CN106297764 B CN 106297764B
Authority
CN
China
Prior art keywords
syntactic units
pronunciation
chinese language
mixed
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510278726.6A
Other languages
English (en)
Other versions
CN106297764A (zh
Inventor
祖漪清
闫润强
王影
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510278726.6A priority Critical patent/CN106297764B/zh
Publication of CN106297764A publication Critical patent/CN106297764A/zh
Application granted granted Critical
Publication of CN106297764B publication Critical patent/CN106297764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种多语种混语文本处理方法及系统,包括:根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;收集包含主语种和次语种的混语文本;从所述混语文本中提取语法单元;根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;根据所述通用词典对所述混语文本进行字音转换,得到对应所述混语文本的语音符号序列。利用本发明提供的方法,可以解决当多语种混语文本对应主语种与次语种语音结构差别较大时,容易造成主语种缺失的次语种音素发音缺失的问题,从而提升多语种混语语音系统文本处理的应用效果。

Description

一种多语种混语文本处理方法及系统
技术领域
本发明涉及多语种文本信息处理领域,具体涉及一种多语种混语文本处理方法及系统。
背景技术
随着计算机和互联网的普及,及国际化的需要,越来越多的文本采用多种语言的形式表达,经常会出现一个文本中同时包含多个语种的字符,即混语文本。由于不同语种字符的发音及韵律各不相同,从而给使用统一方法处理所述混语文本带来困难,比如语音合成、语音识别等都需要对不同语种的字符统一处理。
现有的多语种混语文本处理方法一般是主语种使用主语种对应的音素集合表示主语种文本的发音情况,次语种通过使用次语种对应的音素集合表示次语种文本的发音情况,然后分别对主语种和次语种进行字音转换,得到主语种语音符号序列和次语种语音符号序列;并且对于主语种包含的次语种音素,直接使用主语种音素表示,对于主语种不包含的次语种音素,映射成相近的主语种音素,得到统一的语音符号序列。
上述方法是将主语种和次语种的语音结构作为不同语音体系进行独立处理的,当不同语种的语音结构差别较大时,容易造成主语种缺失的次语种音素发音上的缺失。
发明内容
本发明实施例提供一种多语种混语文本处理方法及系统,以解决现有技术中当多语种混语文本对应语音结构差别较大时,容易造成主语种缺失的次语种音素发音上的缺失的问题。
为此,本发明实施例提供如下技术方案:
一种多语种混语文本处理方法,包括:
根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;
收集包含主语种和次语种的混语文本;
从所述混语文本中提取语法单元;
根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;
根据所述通用词典对待处理混语文本进行字音转换,得到对应所述混语文本的语音符号序列。
优选的,所述超音素集合根据以下任意一个或多个原则确定:
将具有明显发音差异的音素加入超音素集合中;
不同语种间发音特征相似的音素使用相同的符号表示;
超音素集合中的音素能够覆盖设定数量语种的发音情况。
优选的,所述确定元音音素集合包括:
根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合。
优选的,所述确定辅音音素集合包括:
根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。
优选的,所述根据所述语法单元及所述超音素集合构建混语文本的通用词典包括:
根据所述语法单元的字符组合划分与语法单元发音具有相关性的语法单元片段;
根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典的语法单元;
采用所述超音素集合描述所述语法单元的发音,得到混语文本的通用词典。
优选的,所述根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典的语法单元包括:
根据所述语法单元片段的发音覆盖情况,采用机器学习的方法选择需要加入混语文本的通用词典的语法单元。
一种多语种混语文本处理系统,包括:
超音素集合确定模块,用于根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;
混语文本收集模块,用于收集包含主语种和次语种的混语文本;
语法单元提取模块,用于从所述混语文本中提取语法单元;
通用词典构建模块,用于根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;
字音转换模块,用于根据所述通用词典对待处理混语文本进行字音转换,得到对应所述混语文本的语音符号序列。
优选的,所述超音素集合确定模块根据以下任意一个或多个原则确定超音素集合:
将具有明显发音差异的音素加入超音素集合中;
不同语种间发音特征相似的音素使用相同的符号表示;
超音素集合中的音素能够覆盖设定数量语种的发音情况。
优选的,所述超音素集合确定模块包括:元音音素集合确定单元及辅音因素集合确定单元;
所述元音音素集合确定单元用于根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合;
所述辅音音素集合确定单元用于根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。
优选的,所述通用词典构建模块包括:
划分单元,用于根据所述语法单元的字符组合划分与语法单元发音具有相关性的语法单元片段;
选择单元,用于根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典的语法单元;
构建单元,用于采用所述超音素集合描述所述语法单元的发音,得到混语文本的通用词典。
优选的,所述选择单元,具体用于根据所述语法单元片段的发音覆盖情况,采用机器学习的方法选择需要加入混语文本的通用词典的语法单元。
本发明实施例提供的多语种混语文本处理方法及系统,首先根据发音原理确定用于描述混语文本发音情况的超音素集合,该超音素集合包括元音音素集合和辅音音素集合,然后根据收集的大量混语文本提取其中的语法单元,并根据所述超音素集合及所述语法单元构建包含主语种和次语种信息的混语文本通用词典,这样,在对待处理混语文本进行字音转换时,即可直接根据该通用词典对其进行字音转换,得到对应所述混语文本的语音符号序列。本发明实施例提供的方法及系统可以有效减少混语文本中主语种与次语种语音结构差别较大时,主语种缺失的次语种音素发音缺失的问题,从而提升多语种混语语音系统文本处理的应用效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例多语种混语文本处理方法的一种流程图;
图2是本发明实施例的主要元音音素集合的一种二维坐标系示意图;
图3是本发明实施例的主要辅音音素集合的一种二维坐标系示意图;
图4是本发明实施例多语种混语文本处理系统的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
字音转换是指将文字序列转换成相应的发音内容后,使用语音符号序列表示所述发音内容的过程。对于单一语种文本,可以根据该语种的发音特点,实现相应的字音转换。而对于多语种混语文本,传统方法分别采用主语种及次语种的发音符号描述混语文本中对应的主语种及次语种的发音情况,然后将混语文本中次语种的语音符号映射到相应主语种语音符号序列的相应位置,得到混语文本语音序号序列,当混语文本中不同语种的语音结构差别较大时,容易造成主语种缺失的次语种音素发音上的缺失。
本发明实施例的多语种混语文本处理方法及系统,根据包含主语种及次语种音素的超音素集合,以及从大量混语文本中提取的语法单元,构建混语文本的通用词典,即将混语文本中主语种文本和次语种文本的发音情况直接使用超音素集合中音素描述,然后根据所述通用词典对待处理混语文本进行字音转换,得到混语文本语音符号序列。由于根据超音素集合构建的通用词典包含能描述主语种及次语种的常用语法单元的发音情况,即使混语文本中不同语种的语音结构差别较大时,只要能通过查通用词典找到混语文本中的语法单元,也能对主语种及次语种进行字音转换,获得混语文本语音符号序列。
如图1所示,是本发明实施例多语种混语文本处理方法的一种流程图,包括以下步骤:
步骤101,根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合。
在本实施例中,所述超音素集合是根据发音原理来确定的,具体可以根据以下任意一种或多种原则来确定:
(1)将具有明显发音差异的音素加入超音素集合中;
(2)不同语种间发音特征相似的音素使用相同的符号表示;
(3)超音素集合中的音素能够覆盖设定数量语种的发音情况。
其中,发音差异可以根据人类发音部位、发音方法等特征来判断;同时,所述超音素集合中的音素能够覆盖设定数量语种的发音情况,具体可以根据使用人口、经济发达区域等因素来确定,覆盖语种的数量可以根据应用需求而进行设定,例如针对具有固定营销区域的公司的应用系统,可以根据其具体涉及的语种来确定超音素集合包含的语种音素。
所述超音素集合包括:元音音素集合和辅音音素集合。具体地,可以根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合,根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。下面分别对确定元音音素集合和辅音音素集合的过程进行详细说明。
元音是在发音过程中由气流通过口腔而不受阻碍发出的音,主要是通过舌头在口腔中的动作改变口腔共鸣的效果来形成不同的音色,舌位高度及舌尖位置反映了声道共鸣的状况,因此可以根据舌位高度及舌尖位置对不同语种的音素进行描述。在实际应用中,可以将舌位高度设为高、半高、半低、低4档;可以将舌尖位置设为前、中、后3档。以舌位高度及舌尖位置作为坐标轴的二维坐标系标识主语种及次语种的元音音素,将具有明显发音差异的元音音素加入元音音素集合中。其中,X轴表示舌位的高度,Y轴表示舌尖的位置,如图2所示。此外,对于不能直接使用上述二维坐标系标识的元音音素,可以按照就近原则将其映射到相近的元音音素上。
辅音是由发音部位在声道中造成阻碍,使气流通过声道时发生摩擦而产生的音色,具有噪音性。控制气流使其产生摩擦的发音部位及方法不同,会在频谱的不同区域形成能量集中区而发出不同的音色。因此,可以通过发音部位及发音方式对不同语种的音素进行描述。其中,发音部位指声道中发生阻碍的位置,例如从喉部到口部可分为7个发音部位,分别是唇齿、齿/舌尖、舌面前、舌面中、舌面后、咽、喉;如塞音‘b’的阻碍位置是唇,‘d’的阻碍位置是齿/舌尖,‘g’的阻碍位置是舌根;发音方式指发音器官控制气流的方式和状态,包括发音时构成阻碍和克服阻碍的方式、气流强弱的情况、声带是否振动等,例如发音方式包括塞音、塞送气、塞擦音、塞擦送气、擦音、边音、鼻音、响音、半元音等。以发音部位及发音方式作为坐标轴的二维坐标系标识主语种及次语种的辅音音素,将具有明显发音差异的辅音音素加入辅音音素集合中。其中,X轴表示发音部位,Y轴表示发音方式,对于不能直接使用上述二维坐标系标识的辅音音素,可以按照就近原则将其映射到相近的辅音音素上。
步骤102,收集包含主语种和次语种的混语文本。
所述混语文本中包括一种主语种文本,一种或多种非主语种文本,为了描述方便,将其它非主语种文本统称为次语种文本。所述主语种和次语种可以是预先确定的。所述主语种和次语种在文本形式上可以分为有词边界和无词边界两种情况。
步骤103,从所述混语文本中提取语法单元。
所述语法单元可以为语法词等,例如,当语法单元为语法词时,对于有词边界的文本可以直接提取;对于无词边界的文本,需要先利用分词算法进行自动分词后再提取。如果收集的混语文本中同时包含有词边界文本和无词边界文本,则有词边界文本和无词边界文本的分界处一定是语法单元边界。
步骤104,根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息。
采用所述超音素集合描述所有提取的语法单元的发音,从而得到混语文本的通用词典。
例如,通用词典中包括英文语法单元“speech”和中文语法单元“上海”,使用超音素集合描述词单元的发音,形式如下:
speech:s p iy ch
上海:sh a ng h a j其中,语法单元后的音素为超音素集合中音素。
进一步的,可以对上述提取的语法单元进行筛选,获得能覆盖混语文本的主语种及次语种信息的语法单元。具体地,可以通过人工预先标出所有语法单元的发音方式进行,但是由于语法单元数目过多,人工预先标出所有语法单元的发音工作量太大。因此,在实际应用中,还可以通过语法单元发音相关的语法单元片段的发音覆盖情况选择合适的语法单元加入到通用词典中。而语法单元片段的发音标注可以采用规则的方式或者规则及人工辅助的标注方式,在保证选择的语法单元发音覆盖率的同时,可以大大减少人工工作量。
由于元音字符和元音发音有明确的发音关联,辅音字符和辅音发音有明确的发音关联,根据元音字符和辅音字符划分后获得的语法单元片段的字符组合与语法单元片段的发音有很高的关联性,因此,在未获得语法单元发音的情况下,根据语法单元的字符进行语法单元片段的划分,得到与语法单元发音相关的语法单元片段,可以间接地得到语法单元的发音覆盖情况。然后,再根据语法单元片段的发音覆盖情况提取合适的语法单元。
在一个具体实施例中,可以通过以下步骤判断提取的语法单元的覆盖情况:
首先,分析语法单元中出现的所有字符,将所述字符划分元音字符V和辅音字符C;
然后,根据所述元音字符和辅音字符划分语法单元,得到与语法单元发音相关的语法单元片段。
进一步的,进行语法单元划分时,共分为两种情况:
1.对于元音附标语言的语法单元,由于经常不存在元音字符,因此,只考虑单个辅音字符进行语法单元划分。例如,根据每个辅音字符所在的上下文环境进行语法单元的划分,如将当前字符的前一个字符,当前字符及当前字符的后一个字符划分为一个语法单元片段;如语法单元C1C2C3V1C4C5,划分得到的语法单元片段为C1C2,C1C2C3,C2C3C4,C3C4C5,C4C5。
2.对于非元音附标语言的语法单元,每个语法单元都是辅音字符和元音字符交替组成的,因此需要考虑元音字符和辅音字符进行语法单元划分,具体划分时,辅音字符前面作为划分边界。例如,语法单元的组成字符为C1C2C3V1C4C5,划分后得到的语法单元片段为C1|C2|C3V1|C4|C5,其中“|”为语法单元片段分界符。
最后,根据上述获取的语法单元片段的发音覆盖情况选择加入到通用词典的语法单元。
特别的,当同一个语法单元片段在多个语法单元中发音相同时,只需要选取其中一个语法单元加入到通用词典中,具体语法单元选择方法本案不作限制。
以下以机器学习方法中的贪婪算法选择语法单元为例,描述语法单元的选择过程,可以如下所述:
假设从文本中抽选出N个语法单元,对所述N个语法单元进行片段划分,得到每个语法单元包含的语法单元片段。从中提取M个主语种及次语种的常用语法单元加入到通用词典中,以下为一个可行的实施例:
首先,从N个语法单元中,随机选择M个语法单元加入到语法单元侯选集中;
接着,每次从剩下N-M个语法单元中选择一个语法单元作为当前语法单元,依次替换语法单元侯选集中的每个语法单元,根据判决准则确定当前语法单元是否最终代替语法单元侯选集中的语法单元,更新语法单元候选集,得到新的语法单元侯选集。
例如将信息增益作为判决准则时,计算当前语法单元代替语法单元侯选集中语法单元前后语法单元侯选集的信息增益,如果替换后,语法单元侯选集的信息增益增加,则成功替换,否则,从剩下语法单元中重新选择一个语法单元作为当前语法单元,进行相同操作。计算信息增益时,以语法单元包含的语法单元片段为单位,计算整个语法单元侯选集的信息增益。,信息增益增加,说明当前语法单元为语法单元侯选集带来的信息量增加,即语法单元片段的发音覆盖有所增加。
然后,直到剩下N-M个语法单元都计算结束,提取语法单元侯选集中所有语法单元,并将其全部作为所述通用词典的语法单元。
步骤105,根据所述通用词典对所述混语文本进行字音转换,得到对应所述混语文本的语音符号序列。
在本实施例中,混语文本的主语种文本及次语种文本的发音,使用通用词典描述,得到对应所述混语文本的语音符号序列,具体转换方法本案不作限定。
例如,以英文中混有少量中文的混语文本为例,具体的字音转换过程如下:对于中文文本首先对文本进行分词,然后通过查通用词典方式得到每个词单元的语音符号序列。对于英文文本,具体的字音转换过程如下:首先按照空格对文本进行分词;然后依次对每个词查通用词典,如果是词典词,则得到该词语音符号序列。如果是非词典词,则按照规则或者预先训练得到的字母-发音映射模型预测该词发音序列;最后连接混语文本中各个词的语音符号序列得到混语文本语音符号序列。再如,对于英文和德文等同属音素语言的西方语言混合文本,字音转换无需考虑语言界限,直接采用和单一英文文本相同的手段进行字音转换。
本发明实施例提供的多语种混语文本处理方法,首先确定用于描述混语文本发音情况的超音素集合,并用该超音素集合描述从大量混语文本中提取出的语法单元,构建包含混语文本的主语种及次语种的混语文本通用词典,这样,在对待处理混语文本进行字音转换时,即可直接根据该通用词典对其进行字音转换,得到对应所述混语文本的语音符号序列。通过本发明实施例提供的方法,可以有效减少当混语文本中主语种与次语种的语音结构相差较大时,主语种缺失的次语种音素发音缺失的问题,提升多语种混语语音系统文本处理的应用效果。
相应地,本发明实施例还提供一种多语种混语文本处理系统,如图4所示,是该系统的一种结构示意图。
在本实施例中,所述系统包括:
超音素集合确定模块401,用于根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合;
混语文本收集模块402,用于收集包含主语种和次语种的混语文本;
语法单元提取模块403,用于从所述混语文本中提取语法单元;
通用词典构建模块404,用于根据所述语法单元及所述超音素集合构建混语文本的通用词典504,所述通用词典504中包含主语种和次语种中的语法单元及所述语法单元的发音信息;
字音转换模块405,用于根据所述通用词典504对待处理混语文本进行字音转换,得到对应所述混语文本的语音符号序列。
上述超音素集合确定模块401是根据发音原理来确定的。通常,音素可以分为元音音素及辅音因素两类,相应地,所述超音素集合确定模块401可以包括:元音音素集合确定单元及辅音音素集合确定单元。其中:
所述元音音素集合确定单元用于根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合;
所述辅音音素集合确定单元用于根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。
在实际应用中,可以采用人工标出所有语法单元发音的方式构建词典,但是由于语法单元数目过多,人工预先标出所有语法单元的发音工作量太大。为了提高构建词典的效率,本发明实施例中,通用词典构建模块404还可以通过语法单元发音相关的语法单元片段的发音覆盖情况选择合适的语法单元加入到通用词典504中。而语法单元片段的发音标注可以采用规则的方式或者规则及人工辅助的标注方式,在保证选择的语法单元发音覆盖率的同时,可以大大减少人工工作量。
相应地,通用词典构建模块404的一种具体结构可以包括以下各单元:
划分单元,用于根据所述语法单元的字符组合划分与语法单元发音具有相关性的语法单元片段;
选择单元,用于根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典504的语法单元;
构建单元,用于采用所述超音素集合描述所述语法单元的发音,得到混语文本的通用词典504。
进一步的,所述选择单元具体可以根据所述语法单元片段的发音覆盖情况,采用机器学习方法,如贪婪算法,选择需要加入混语文本的通用词典504的语法单元。该系统通过所述通用词典504可以进行字音转换,因此,该系统还包括字音转换模块405,以获得待处理混语文本的语音符号序列。
当然,在实际应用中,该系统还可进一步包括:存储模块(未图示),用于保存通用词典504信息,比如:语法单元、超音素集合等。这样,在处理包含相同主语种及次语种的混语文本时,该系统就不用每次使用时都重新构建通用词典504。
另外,所述系统还可进一步包括:通用词典选取模块,用于针对包含语种不同的混语文本选取预先构建好的相应通用词典504,这样可以提高该系统的字音转换效率。
本发明实施例提供的多语种混语文本处理系统,通过超音素集合确定模块401确定能描述混语文本发音情况的超音素集合,并通过该超音素集合,描述语法单元提取模块403获取的能覆盖混语文本发音情况的语法单元,构建混语文本通用词典504,由于该通用词典504描述了混语文本中主语种及次语种常用语法单元的发音情况,即使待处理混语文本中不同语种的语音结构差别较大时,只要能通过查通用词典504找到混语文本中的语法单元,该系统也能对主语种及次语种进行字音转换,获得混语文本语音符号序列。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种多语种混语文本处理方法,其特征在于,包括:
根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合,且所述超音素集合基于以下任意一个或多个条件确定:发音差异、发音特征以及语种数量;
收集包含主语种和次语种的混语文本;
从所述混语文本中提取语法单元;
根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;
根据所述通用词典对待处理混语文本进行字音转换,得到对应所述混语文本的语音符号序列。
2.根据权利要求1所述的方法,其特征在于,所述超音素集合根据以下任意一个或多个原则确定:
将具有明显发音差异的音素加入超音素集合中;
不同语种间发音特征相似的音素使用相同的符号表示;
超音素集合中的音素能够覆盖设定数量语种的发音情况。
3.根据权利要求1所述的方法,其特征在于,所述确定元音音素集合包括:
根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合。
4.根据权利要求1所述的方法,其特征在于,所述确定辅音音素集合包括:
根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述语法单元及所述超音素集合构建混语文本的通用词典包括:
根据所述语法单元的字符组合划分与语法单元发音具有相关性的语法单元片段;
根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典的语法单元;
采用所述超音素集合描述所述语法单元的发音,得到混语文本的通用词典。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典的语法单元包括:
根据所述语法单元片段的发音覆盖情况,采用机器学习的方法选择需要加入混语文本的通用词典的语法单元。
7.一种多语种混语文本处理系统,其特征在于,包括:
超音素集合确定模块,用于根据发音原理确定用于描述混语文本发音情况的超音素集合,所述超音素集合包括:元音音素集合和辅音音素集合,且所述超音素集合基于以下任意一个或多个条件确定:发音差异、发音特征以及语种数量;
混语文本收集模块,用于收集包含主语种和次语种的混语文本;
语法单元提取模块,用于从所述混语文本中提取语法单元;
通用词典构建模块,用于根据所述语法单元及所述超音素集合构建混语文本的通用词典,所述通用词典中包含主语种和次语种中的语法单元及所述语法单元的发音信息;
字音转换模块,用于根据所述通用词典对待处理混语文本进行字音转换,得到对应所述混语文本的语音符号序列。
8.根据权利要求7所述的系统,其特征在于,所述超音素集合确定模块根据以下任意一个或多个原则确定超音素集合:
将具有明显发音差异的音素加入超音素集合中;
不同语种间发音特征相似的音素使用相同的符号表示;
超音素集合中的音素能够覆盖设定数量语种的发音情况。
9.根据权利要求7所述的系统,其特征在于,所述超音素集合确定模块包括:元音音素集合确定单元及辅音因素集合确定单元;
所述元音音素集合确定单元用于根据各语种元音音素发音时的舌位高度及舌尖位置确定元音音素集合;
所述辅音音素集合确定单元用于根据各语种辅音音素发音时的发音部位及发音方法确定辅音音素集合。
10.根据权利要求7至9任一项所述的系统,其特征在于,所述通用词典构建模块包括:
划分单元,用于根据所述语法单元的字符组合划分与语法单元发音具有相关性的语法单元片段;
选择单元,用于根据所述语法单元片段的发音覆盖情况选择需要加入混语文本的通用词典的语法单元;
构建单元,用于采用所述超音素集合描述所述语法单元的发音,得到混语文本的通用词典。
11.根据权利要求10所述的系统,其特征在于,
所述选择单元,具体用于根据所述语法单元片段的发音覆盖情况,采用机器学习的方法选择需要加入混语文本的通用词典的语法单元。
CN201510278726.6A 2015-05-27 2015-05-27 一种多语种混语文本处理方法及系统 Active CN106297764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510278726.6A CN106297764B (zh) 2015-05-27 2015-05-27 一种多语种混语文本处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510278726.6A CN106297764B (zh) 2015-05-27 2015-05-27 一种多语种混语文本处理方法及系统

Publications (2)

Publication Number Publication Date
CN106297764A CN106297764A (zh) 2017-01-04
CN106297764B true CN106297764B (zh) 2019-07-30

Family

ID=57635166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510278726.6A Active CN106297764B (zh) 2015-05-27 2015-05-27 一种多语种混语文本处理方法及系统

Country Status (1)

Country Link
CN (1) CN106297764B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878805A (zh) * 2017-02-06 2017-06-20 广东小天才科技有限公司 一种混合语种字幕文件生成方法及装置
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN110517668B (zh) * 2019-07-23 2022-09-27 普强时代(珠海横琴)信息技术有限公司 一种中英文混合语音识别系统及方法
CN110633456B (zh) * 2019-09-19 2023-04-07 腾讯科技(深圳)有限公司 语种识别方法、装置、服务器及存储介质
CN111160044A (zh) * 2019-12-31 2020-05-15 出门问问信息科技有限公司 文语转换方法及装置、终端和计算机可读存储介质
CN111179904B (zh) * 2019-12-31 2022-12-09 出门问问创新科技有限公司 混合文语转换方法及装置、终端和计算机可读存储介质
CN111260761B (zh) * 2020-01-15 2023-05-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置
CN111369974B (zh) * 2020-03-11 2024-01-19 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置
CN112786020B (zh) * 2021-01-21 2024-02-23 腾讯音乐娱乐科技(深圳)有限公司 一种歌词时间戳生成方法及存储介质
CN112906369A (zh) * 2021-02-19 2021-06-04 脸萌有限公司 一种歌词文件生成方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502731B2 (en) * 2003-08-11 2009-03-10 Sony Corporation System and method for performing speech recognition by utilizing a multi-language dictionary
CN1731510B (zh) * 2004-08-05 2010-12-08 纽安斯通信有限公司 混合语言文语转换
EP2736042A1 (en) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置

Also Published As

Publication number Publication date
CN106297764A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106297764B (zh) 一种多语种混语文本处理方法及系统
CN108447486B (zh) 一种语音翻译方法及装置
Grice The intonation of interrogation in Palermo Italian: implications for intonation theory
Abramson et al. Voice Onset Time (VOT) at 50: Theoretical and practical issues in measuring voicing distinctions
CN105244022B (zh) 音视频字幕生成方法及装置
US9767788B2 (en) Method and apparatus for speech synthesis based on large corpus
Brierley et al. A verified Arabic-IPA mapping for Arabic transcription technology, informed by Quranic recitation, traditional Arabic Linguistics, and modern phonetics
CN103680498A (zh) 一种语音识别方法和设备
Wee Phonological tone
CN104239579B (zh) 构建多语言音标数据库的方法、多语言注音的方法及装置
Morey Studying tones in North East India: Tai, Singpho and Tangsa
Haacke The Tonology of Khoekhoe (Nama/Damara)
JP6217304B2 (ja) 歌唱評価装置およびプログラム
Terbeh et al. Automatic speech correction: A step to speech recognition for people with disabilities
Choe et al. Language-specific effects on automatic speech recognition errors for world englishes
Andersson et al. Cwyzhy Abkhaz
CN109859746A (zh) 一种基于tts的语音识别语料库生成方法及系统
CN103268314B (zh) 一种获取泰文断句规则的方法及装置
CN113470612A (zh) 一种音乐数据的生成方法、装置、设备以及存储介质
Hanke et al. EASIER Notation–a proposal for a gloss-based scripting language for sign language generation based on lexical data
JP3438869B2 (ja) 音声認識システム、方法及び記録媒体
CN110147556A (zh) 一种多向神经网络翻译系统的构建方法
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
Devi et al. Automatic Syllabification Rules for Manipuri Language
Whalen et al. Phonetics of endangered languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant