CN103700367B - 实现黏着语文本韵律短语划分的方法及系统 - Google Patents

实现黏着语文本韵律短语划分的方法及系统 Download PDF

Info

Publication number
CN103700367B
CN103700367B CN201310630210.4A CN201310630210A CN103700367B CN 103700367 B CN103700367 B CN 103700367B CN 201310630210 A CN201310630210 A CN 201310630210A CN 103700367 B CN103700367 B CN 103700367B
Authority
CN
China
Prior art keywords
word
affixe
string
stem
building unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310630210.4A
Other languages
English (en)
Other versions
CN103700367A (zh
Inventor
祖漪清
吴朗
黄昉
何婷婷
胡国平
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310630210.4A priority Critical patent/CN103700367B/zh
Publication of CN103700367A publication Critical patent/CN103700367A/zh
Application granted granted Critical
Publication of CN103700367B publication Critical patent/CN103700367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种实现黏着语文本韵律短语划分的方法及系统,该方法包括:预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;在接收到待合成文本的单词串后,根据所述基本构词单元对所述单词串中每个单词进行切分,得到构词单元序列;确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;确定所述构词单元序列中各构词单元的词性;根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。利用本发明,可以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。

Description

实现黏着语文本韵律短语划分的方法及系统
技术领域
本发明涉及文本处理技术领域,具体涉及一种实现黏着语文本韵律短语划分的方法及系统。
背景技术
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。作为语音技术中十分实用的一项重要技术,语音合成技术将文字信息转化为自然的语音信号,实现任意文本的实时转换,改变了传统通过录音回放实现机器开口说话的繁琐操作,并节省了系统存储空间,在信息交互日益增多的当今特别是在信息内容需要经常变动的动态查询应用方法发挥了越来越重要的作用。
近年来,随着信息社会的需求发展,用户对人机交互提出了更高的要求,高自然度的语音合成效果已经成为高性能语音合成系统的重要标志。
语音合成又称文语转换(Text to Speech)技术,文语转换过程是先将文字序列转换成语音单元序列,再由系统根据音韵序列生成语音波形。传统语音合成系统中主要在合成前端实现文本规整、字词切分、韵律短语划分等,随后在合成后端根据前端处理结果选择合适的语音拼接单元或合成参数实现带有停顿节奏的连续语音信号。反映连续语音节奏感的韵律问题,特别是韵律短语的合理切分直接影响到合成效果自然度乃至可懂度,受到越来越多研究人员的关注。
传统的韵律分析主要面向孤立语(如中文等)等常用语种应用。由于孤立语不通过词形变化来表达语法的作用,而仅通过独立的词和固定的词序来表达语法意义,因此词性意义明确,各词词性也是明确的,采用基于词序的韵律分析手段可以取得较好的结果。而近年来,随着国际交流的进一步深化,黏着语语音合成,特别是高自然度的黏着语语音合成对研究人员提出了新的要求。由于黏着语在语法构成及构词上不同于孤立语,传统的韵律分析方法直接应用于黏着语时效果不理想,因而有效提高黏着语的韵律分析效果成为新的研究方向。
发明内容
本发明实施例提供一种实现黏着语文本韵律短语划分的方法及系统,以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
为此,本发明实施例提供如下技术方案:
一种实现黏着语文本韵律短语划分的方法,包括:
预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
在接收到待合成的单词文本后,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
确定所述构词单元序列中各构词单元的词性;
根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
优选地,所述基于数据统计方式确定黏着语的基本构词单元包括:
收集黏着语中的独立词、词干和词缀;
基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;
根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
优选地,所述根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列包括:
从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
依次对每个索引,利用前向算法切分构词单元,得到对应所述单词文本的多条切分路径;
利用n-gram模型和viterbi算法确定唯一路径;
根据所述唯一路径上的基本构词单元得到构词单元序列。
优选地,所述确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别包括:
根据词缀的词性确定所述词缀对词干的影响级别;
如果词缀串中包含的所有词缀对词干的影响级别都为0,则确定所述词缀串对词干的影响级别为0;
如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
优选地,所述确定所述构词单元序列中各构词单元的词性包括:
对于所述构词单元序列中的词干串:如果词干串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为所述词干串的词性;如果词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;
对于所述构词单元序列中的词缀串:如果词缀串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为词缀串的词性;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
优选地,所述根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性包括:
确定所述构词单元序列中构词单元的组合形式;
根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
一种实现黏着语文本韵律短语划分的系统,包括:
词典构建模块,用于预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
接收模块,用于接收待合成的单词文本;
切分模块,用于对所述接收模块接收到的单词文本,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
影响级别确定模块,用于确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
构词单元词性确定模块,用于确定所述构词单元序列中各构词单元的词性;
单词词性确定模块,用于根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
韵律短语划分模块,用于根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
优选地,所述词典构建模块包括:
收集单元,用于收集黏着语中的独立词、词干和词缀;
候选构词单元串生成单元,用于基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
参数计算单元,用于计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;
选择单元,用于根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
词典生成单元,用于由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
优选地,所述切分模块包括:
第一切分单元,用于从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
第二切分单元,用于依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;
路径确定单元,用于利用n-gram模型和viterbi算法确定唯一路径;
构词单元序列获取单元,用于根据所述唯一路径上的基本构词单元得到构词单元序列。
优选地,所述影响级别确定模块包括:
第一确定模块,用于根据词缀的词性确定所述词缀对词干的影响级别;
第二确定模块,用于根据词缀串中包含的词缀对词干的影响级别确定所述词缀串对词干的影响级别,并且在词缀串中包含的所有词缀对词干的影响级别都为0时,确定所述词缀串对词干的影响级别为0;在词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
优选地,所述构词单元词性确定模块,具体用于通过查询包含所述基本构词单元的词典获取所述构词单元序列中的独立词、词干、以及词缀的词性,并且,对于所述构词单元序列中的词干串:在所述词干串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为所述词干串的词性;在所述词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;对于所述构词单元序列中的词缀串:在所述词缀串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为词缀串的词性;在所述词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
优选地,所述单词词性确定模块包括:
组合形式确定单元,用于确定所述构词单元序列中构词单元的组合形式;
词性确定单元,用于根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
本发明实施例提供的实现黏着语文本韵律短语划分的方法及系统,在基本构词单元中,引入可变长度词干(即词干串)及可变长度词缀(即词缀串),而且预先基于数据统计方式确定黏着语基本构词单元中的词干串和词缀串,进而在对单词文本进行切分时,可以充分提高切分精度,减少由歧义带来的词缀切分复杂度。另外,在确定单词词性时,不仅考虑到单词中各构词单元的词性,而且着重考虑到词缀和词缀串的功能特性,即词缀和词缀串对词干的影响级别,简化了单词词性确定的复杂性。本发明实施例的方法及系统可靠性高、易实现、准确性高,可以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例实现黏着语文本韵律短语划分的方法的流程图;
图2是本发明实施例中确定黏着语的基本构词单元的流程图;
图3是本发明实施例实现黏着语文本韵律短语划分的系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
由于不同于孤立语的构词特点,黏着语(如维语、土耳其语、日语等语言)的单词通常由词干和词缀构成,即词干后可以附加多个句法功能不同的词缀。黏着语灵活多变的构词特性需要很大的词典才能达到和孤立语相当的结果,这对于语音合成系统文本处理而言是一个负担。其次黏着语词性定义含糊,自然词词形变化复杂,一个词干后可以加很多词缀,变化后的词在句法上相当于孤立语中的短语,单词词性意义不明确。再次黏着后的词序列接续情况也和孤立语言不同:即使对单个单词给出了词性,词与词之间接续的多变性对统计模型预测词性序列带来困难。显然传统的基于词性定义、标注和预测的孤立语处理方法不完全适用于黏着语文本分析,也不能获得令人满意的前端分析效果。
黏着性结构的语言中,大多数单词是由一个词干黏贴了一个到多个词缀而形成的,因此黏着语词性分析方面有如下特点:(1)词干词性比较明确;(2)每单个词缀有明确的词性功能;(3)词缀黏贴在词干上会不同程度地影响或改变词干词性;(4)多词缀化,即一个词干后可以被黏贴多个词缀;(5)词汇变化极其灵活,即有限的词干词缀可以衍生出无限的单词量。
由于黏着性结构语言的上述构词特点,使得传统的基于词干词缀等固有基本构词单元的切分及词性预测方法存在一定的问题,主要体现在以下两点:
1.词干词缀切分存在准确性问题:
在黏着语中,词干、词缀的组合存在歧义,如A、B、C是黏着语构词的最小单元,即词干、词缀,ABC结合形成单词。A可能是合法词干,AB也是合法词干,B是合法词缀,BC也是合法词缀,因此单词ABC有如下多种切分情况:A-B-C,AB-C,A-BC。歧义给词干词缀的切分带来了复杂性。
2.在获得正确的词干词缀切分后,如何标注该词的词性是一个值得探讨的问题:
例如前面提到的维吾尔语单词(拉丁表示)有三个组成部份分别表示“家-你的-去”,表示“到你的家去”,其中(是词干)是名词,如果将整词定义成名词,显然不合适,如果将整词词性描写成“名词+形容词+向格”,也会对处理带来一定困难。
考虑到传统黏着语分析中词干词缀切分及单词词性确定的复杂性和困难性,本发明实施例提出了一种实现黏着语文本韵律短语划分的方法及系统,以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
如图1所示,是本发明实施例实现黏着语文本韵律短语划分的方法的流程图,包括以下步骤:
步骤101,预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串。
在本发明实施例中,在确定黏着语的基本构词单元时,不同于传统黏着语分析中选择固有的独立词、词干、词缀为基本构词单元,而是基于数据统计的方式,不仅将其固有的独立词、词干、词缀作为基本构词单元,而且在基本构词单元中还加入了词干串和词缀串。基本构词单元中的词干串和词缀串的确定将在后面详细描述。
步骤102,在接收到待合成的单词文本后,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列。
在确定了黏着语的基本构词单元后,就可以根据该基本构词单元中的独立词、词干、词干串、词缀、词缀串对该单词文本进行切分,具体切分过程如下:
(1)从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
(2)依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;
(3)利用n-gram模型和viterbi算法确定唯一路径;
(4)根据所述唯一路径上的基体构词单元得到构词单元序列。
前面所述的前向算法、以及n-gram模型和viterbi算法为现有技术,在此不再详细描述。
步骤103,确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别。
所述词缀对词干的影响级别是指增加词缀后词串词性变化内容和幅度。词缀的影响级别可以由词缀的词性类别来确定,以维吾尔语为例,具体如下表1所示。
表1:
表1中,影响级别0表示不改变词干词性,影响级别4表示对词干的影响最大。
而词缀串对词干的影响级别可以按以下方式来确定,即:
如果词缀串中包含的所有词缀对词干的影响级别都为0,则确定所述词缀串对词干的影响级别为0;
如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
步骤104,确定所述构词单元序列中各构词单元的词性。
所述构词单元序列中的构词单元可以包括:独立词、词干、词干串、词缀、词缀串,其中,独立词、词干和词缀都有明确的词性,可以查询词典得到。而词干串和词缀串的词性可以按以下方式来确定,即:
对于词干串:如果词干串中包含的所有词缀对词干的影响级别都为0,则由词干确定词干串词性;如果词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;
对于词缀串:如果词缀串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为词缀串的词性;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
步骤105,根据所述构词单元序列中各构词单元的词性及所述词缀串对词干的影响级别确定所述单词文本的词性。
由于不同的单词文本可以具有不同的组合形式,因此,在本发明实施例中,可以根据单词文本的组合形式来确定其词性。以维吾尔语为例,可以有以下表2所示的几种方式。
表2:
步骤106,根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
具体地,可以预先采用现有的决策树算法根据训练文本中包含的单词个数、各单词词性、以及韵律短语边界标注,完成韵律短语边界模型训练。
在该步骤中,可以利用训练好的模型,得到停顿位置的预测,实现韵律短语划分。
如图2所示,是本发明实施例中确定黏着语的基本构词单元的流程图,包括以下步骤:
步骤201,收集黏着语中的独立词、词干和词缀。
黏着语中的构词单元包括了独立词、词干和词缀,这些可以作为黏着语中的固有构词单元。以维吾尔语为例,4-5万个词干基本覆盖了绝大部分词干(覆盖可以满足95%以上的文本);300-400个词缀几乎可以穷尽所有词缀。
步骤202,基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串。
具体地,可以首先对大规模语料库中的语料进行处理,去掉不必要的信息,得到有效单词。然后,对每个单词,将其所包含的固有构词单元总数小于等于N的子词串作为候选构词单元串。其中N为词串中包含的词干或词缀的最大个数。
步骤203,计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度。
步骤204,根据所述选择参数从所述候选构词单元串中选择词干串和词缀串。
步骤205,由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
需要说明的是,在本发明实施例中,在从所述候选构词单元串中选择可以作为基本构词单元的词干串和词缀串时,可以依据各候选构词单元串的词频、内部凝固度、或外部链接度来选择,也可以依据其中任意两个或三个候选参数进行选择。
另外,需要说明的是,本发明实施例中,所述候选构词单元串是由系统预设的基本构词单元的组合,可以是独立词,词干,词缀,词干串,词缀串等构词单元。
下面分别介绍每种候选参数及依据该参数选择作为基本构词单元的词串的具体过程。
通常一个词串在整个文本中出现的频次足够多,超过了一定的阈值,则该词串就很可能是一个构词单元。为此,在本发明实施例中,可以通过词频来确定一个词串是否可以作为一个基本构词单元。所述词频是指词串在文本中的出现次数,具体地,可以依次对每个候选构词单元串计算其词频,将词频大于设定的词频阈值N1的候选构词单元串作为基本构词单元的词串。
一个经常出现的词串,可能由多个词干、词缀构成,多个不相关的词干词缀组合也可能在文本中出现的频率也较大,为了去除这类词串,可以利用词串内部凝固度。
所述内部凝固度是指候选构词单元串是基本构词单元的可能性,具体地,可以依次对每个候选构词单元串计算其内部凝固度,并选择所有大于设定内部凝固度阈值N2(N2>1)的候选构词单元串作为基本构词单元的词串。
词串内部凝固度的计算如下:
S ( A B ) = P ( A B ) P ( A ) · P ( B ) - - - ( 1 )
其中,AB为一个词串,A,B为词串中的词干或词缀。P(AB)表示AB在文本中的出现频率;P(A)·P(B)表示如果A,B不相关,那么理论上AB应该出现的概率。
如果S(AB)近似等于1,表明A、B事实上不相关,则能够判断AB不是一个词串。内部凝固度很好地反映了词串的内部特性。
进一步地,还可以确定候选构词单元串能否和左右词缀组成新的词串,即词串的外部链接度。所述外部链接度是指候选构词单元串与其他词串结合成构词单元的可能性,具体地,可以依次对每个候选构词单元串计算其外部链接度,并选择所有小于设定链接度阈值N3的候选构词单元串作为基本构词单元的词串。
具体地,可以采用信息熵计算,反映一个词串出现的左右元素的丰富程度。具体公式如下:
信息熵越小,表明AB越可能单独成词串。
以维吾尔语为例,本发明实施例中确定的黏着语的基本构词单元如下表3所示。
表3:
本发明实施例提供的实现黏着语文本韵律短语划分的方法,在基本构词单元中,引入可变长度词干(即词干串)及可变长度词缀(即词缀串),而且预先基于数据统计方式确定黏着语基本构词单元中的词干串和词缀串,进而在对单词文本进行切分时,可以充分提高切分精度,减少由歧义带来的词缀切分复杂度。另外,在确定单词词性时,不仅考虑到单词中各构词单元的词性,而且着重考虑到词缀和词缀串的功能特性,即词缀和词缀串对词干的影响级别,简化了单词词性确定的复杂性。本发明实施例的方法可靠性高、易实现、准确性高,可以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
相应地,本发明实施例还提供一种实现黏着语文本韵律短语划分的系统,如图3所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
词典构建模块301,用于预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
接收模块302,用于接收待合成的单词文本;
切分模块303,用于对所述接收模块302接收到的单词文本,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
影响级别确定模块304,用于确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
构词单元词性确定模块305,用于确定所述构词单元序列中各构词单元的词性;
单词词性确定模块306,用于根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
韵律短语划分模块307,用于根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。具体可以利用预先训练好的模型,得到停顿位置的预测,实现韵律短语划分。
在本发明实施例中,黏着语的基本构词单元不仅包括独立词、词干和词缀,而且引入了词干串和词缀串。词典构建模块301采用数据统计方式确定黏着语的基本构词单元,词典构建模块301的一种具体实现方式包括以下各单元:
收集单元,用于收集黏着语中的独立词、词干和词缀;
候选构词单元串生成单元,用于基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
参数计算单元,用于计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度;
选择单元,用于根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
词典生成单元,用于由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
需要说明的是,在实际应用中,也可以采用其它方式确定所述基本构词单元,对此本发明实施例不做限定。另外,在实际应用中,可以将上述确定的黏着语的所有基本构词单元放到一个文件或数据库中,相当于黏着语的一个词典,该词典中各词条的相关内容(比如,包括词条即构词单元、词性、类别等)及组织形式可以采用现有技术中的一些方式,不同的是,在该词典中,还引入了现有词典中所不具有的词干串和词缀串,所述词干串和词缀串的相关内容及组织形式可能参照词干和词缀的方式,当然也可以采用其它方式存储和展现,对此本发明实施例不做限定。
上述切分模块303需要依据上述预先确定的基本构词单元对单词文本进行切分,比如,切分模块303的一种具体实现方式包括以下各单元:
第一切分单元,用于从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
第二切分单元,用于依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;
路径确定单元,用于利用n-gram模型和viterbi算法确定唯一路径;
构词单元序列获取单元,用于根据所述唯一路径上的基体构词单元得到构词单元序列。
前面所述的前向算法、以及n-gram模型和viterbi算法为现有技术,在此不再详细描述。
另外,需要说明的是,在本发明实施例中,影响级别确定模块304和构词单元词性确定模块305在确定构词单元序列中词缀和词缀串对词干的影响级别以及各构词单元的词性时,都需要用到前面由词典构建模块301确定的基本构词单元及其相关信息。
具体地,影响级别确定模块304在定构词单元序列中词缀和词缀串对词干的影响级别时,可以首先由其中的第一确定模块根据词缀的词性确定所述词缀对词干的影响级别;然后再由第二确定模块根据词缀串中包含的词缀对词干的影响级别确定所述词缀串对词干的影响级别,并且在词缀串中包含的所有词缀对词干的影响级别都为0时,确定所述词缀串对词干的影响级别为0;在词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。构词单元词性确定模块305可以通过查询包含所述基本构词单元的词典获取所述构词单元序列中的独立词、词干、以及词缀的词性,并且,对于所述构词单元序列中的词干串:在所述词干串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为所述词干串的词性;在所述词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;对于所述构词单元序列中的词缀串:在所述词缀串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为词缀串的词性;在所述词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
由于不同的单词文本可以具有不同的组合形式,因此,在本发明实施例中,可以根据单词文本的组合形式来确定其词性。为此单词词性确定模块306的一种具体实现方式可以包括:组合形式确定单元和词性确定单元,其中:
组合形式确定单元,用于确定所述构词单元序列中构词单元的组合形式;
词性确定单元,用于根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
上述词性确定单元确定单词文本的词性的具体过程可参照前面本发明实施例的方法中的描述,在此不再赘述。
本发明实施例提供的实现黏着语文本韵律短语划分的系统,在基本构词单元中,引入可变长度词干(即词干串)及可变长度词缀(即词缀串),而且预先基于数据统计方式确定黏着语基本构词单元中的词干串和词缀串,进而在对单词文本进行切分时,可以充分提高切分精度,减少由歧义带来的词缀切分复杂度。另外,在确定单词词性时,不仅考虑到单词中各构词单元的词性,而且着重考虑到词缀和词缀串的功能特性,即词缀和词缀串对词干的影响级别,简化了单词词性确定的复杂性。本发明实施例的系统可靠性高、易实现、准确性高,可以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种实现黏着语文本韵律短语划分的方法,其特征在于,包括:
预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
在接收到待合成的单词文本后,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
确定所述构词单元序列中各构词单元的词性;
根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
2.根据权利要求1所述的方法,其特征在于,所述基于数据统计方式确定黏着语的基本构词单元包括:
收集黏着语中的独立词、词干和词缀;
基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;
根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
3.根据权利要求1所述的方法,其特征在于,所述根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列包括:
从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
依次对每个索引,利用前向算法切分构词单元,得到对应所述单词文本的多条切分路径;
利用n-gram模型和viterbi算法确定唯一路径;
根据所述唯一路径上的基本构词单元得到构词单元序列。
4.根据权利要求1所述的方法,其特征在于,所述确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别包括:
根据词缀的词性确定所述词缀对词干的影响级别;
如果词缀串中包含的所有词缀对词干的影响级别都为0,则确定所述词缀串对词干的影响级别为0;
如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
5.根据权利要求4所述的方法,其特征在于,所述确定所述构词单元序列中各构词单元的词性包括:
对于所述构词单元序列中的词干串:如果词干串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为所述词干串的词性;如果词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;
对于所述构词单元序列中的词缀串:如果词缀串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为词缀串的词性;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性包括:
确定所述构词单元序列中构词单元的组合形式;
根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
7.一种实现黏着语文本韵律短语划分的系统,其特征在于,包括:
词典构建模块,用于预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
接收模块,用于接收待合成的单词文本;
切分模块,用于对所述接收模块接收到的单词文本,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
影响级别确定模块,用于确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
构词单元词性确定模块,用于确定所述构词单元序列中各构词单元的词性;
单词词性确定模块,用于根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
韵律短语划分模块,用于根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
8.根据权利要求7所述的系统,其特征在于,所述词典构建模块包括:
收集单元,用于收集黏着语中的独立词、词干和词缀;
候选构词单元串生成单元,用于基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
参数计算单元,用于计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;
选择单元,用于根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
词典生成单元,用于由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
9.根据权利要求7所述的系统,其特征在于,所述切分模块包括:
第一切分单元,用于从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
第二切分单元,用于依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;
路径确定单元,用于利用n-gram模型和viterbi算法确定唯一路径;
构词单元序列获取单元,用于根据所述唯一路径上的基本构词单元得到构词单元序列。
10.根据权利要求7所述的系统,其特征在于,所述影响级别确定模块包括:
第一确定模块,用于根据词缀的词性确定所述词缀对词干的影响级别;
第二确定模块,用于根据词缀串中包含的词缀对词干的影响级别确定所述词缀串对词干的影响级别,并且在词缀串中包含的所有词缀对词干的影响级别都为0时,确定所述词缀串对词干的影响级别为0;在词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
11.根据权利要求10所述的系统,其特征在于,
所述构词单元词性确定模块,具体用于通过查询包含所述基本构词单元的词典获取所述构词单元序列中的独立词、词干、以及词缀的词性,并且,对于所述构词单元序列中的词干串:在所述词干串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为所述词干串的词性;在所述词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;对于所述构词单元序列中的词缀串:在所述词缀串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为词缀串的词性;在所述词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
12.根据权利要求7至11任一项所述的系统,其特征在于,所述单词词性确定模块包括:
组合形式确定单元,用于确定所述构词单元序列中构词单元的组合形式;
词性确定单元,用于根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
CN201310630210.4A 2013-11-29 2013-11-29 实现黏着语文本韵律短语划分的方法及系统 Active CN103700367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310630210.4A CN103700367B (zh) 2013-11-29 2013-11-29 实现黏着语文本韵律短语划分的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310630210.4A CN103700367B (zh) 2013-11-29 2013-11-29 实现黏着语文本韵律短语划分的方法及系统

Publications (2)

Publication Number Publication Date
CN103700367A CN103700367A (zh) 2014-04-02
CN103700367B true CN103700367B (zh) 2016-08-31

Family

ID=50361873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310630210.4A Active CN103700367B (zh) 2013-11-29 2013-11-29 实现黏着语文本韵律短语划分的方法及系统

Country Status (1)

Country Link
CN (1) CN103700367B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506345A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 语言模型的构建方法和装置
CN107977364B (zh) * 2017-12-30 2022-02-25 科大讯飞股份有限公司 维语子词切分方法及装置
CN113035170B (zh) * 2019-12-25 2022-07-12 中国科学院声学研究所 一种基于元音和谐的土耳其语的语音识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
CN1471027A (zh) * 2002-07-25 2004-01-28 摩托罗拉公司 用于压缩语音库的方法和装置
CN1929655A (zh) * 2006-09-28 2007-03-14 中山大学 一种可实现文本与语音转换的手机
CN101192404A (zh) * 2006-11-28 2008-06-04 国际商业机器公司 用于识别被输入的语音的重音的系统和方法
CN102272827A (zh) * 2005-06-01 2011-12-07 泰吉克通讯股份有限公司 利用语音输入解决模糊的手工输入文本输入的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
CN1471027A (zh) * 2002-07-25 2004-01-28 摩托罗拉公司 用于压缩语音库的方法和装置
CN102272827A (zh) * 2005-06-01 2011-12-07 泰吉克通讯股份有限公司 利用语音输入解决模糊的手工输入文本输入的方法和装置
CN1929655A (zh) * 2006-09-28 2007-03-14 中山大学 一种可实现文本与语音转换的手机
CN101192404A (zh) * 2006-11-28 2008-06-04 国际商业机器公司 用于识别被输入的语音的重音的系统和方法

Also Published As

Publication number Publication date
CN103700367A (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN101510222B (zh) 一种多层索引语音文档检索方法
US9223850B2 (en) Data retrieval and indexing method and apparatus
CN100416570C (zh) 一种基于问答库的中文自然语言问答方法
CN102298635B (zh) 事件信息融合方法和系统
CN106571139B (zh) 基于人工智能的语音搜索结果处理方法及装置
Sethy et al. Building topic specific language models from webdata using competitive models.
CN103870000B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN101604520A (zh) 基于统计模型和语法规则的口语语音识别方法
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN102081602B (zh) 确定未登录词的类别的方法和设备
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
Briscoe et al. Evaluating the accuracy of an unlexicalized statistical parser on the PARC DepBank
JP2009512923A5 (zh)
CN104103268B (zh) 一种语料库处理方法、装置及语音合成系统
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
CN104484374A (zh) 一种创建网络百科词条的方法及装置
CN103700367B (zh) 实现黏着语文本韵律短语划分的方法及系统
CN104991943A (zh) 音乐搜索方法及装置
CN102314876B (zh) 语音检索的方法和系统
CN106502979A (zh) 一种自然语言信息的数据处理方法和装置
CN106202294A (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN109871543A (zh) 一种意图获取方法及系统
CN102063493A (zh) 基于正则表达式组和控制逻辑的内容抽取方法
CN103871402A (zh) 语言模型训练系统、语音识别系统及相应方法
CN104572631A (zh) 一种语言模型的训练方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant