CN107610693B - 文本语料库的构建方法和装置 - Google Patents

文本语料库的构建方法和装置 Download PDF

Info

Publication number
CN107610693B
CN107610693B CN201610542952.5A CN201610542952A CN107610693B CN 107610693 B CN107610693 B CN 107610693B CN 201610542952 A CN201610542952 A CN 201610542952A CN 107610693 B CN107610693 B CN 107610693B
Authority
CN
China
Prior art keywords
corpus
chapter
discourse
text
chapters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610542952.5A
Other languages
English (en)
Other versions
CN107610693A (zh
Inventor
周明
江源
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610542952.5A priority Critical patent/CN107610693B/zh
Publication of CN107610693A publication Critical patent/CN107610693A/zh
Application granted granted Critical
Publication of CN107610693B publication Critical patent/CN107610693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种文本语料库的构建方法和装置,该文本语料库的构建方法包括:收集文本语料作为收集语料;从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中。该方法能够构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。

Description

文本语料库的构建方法和装置
技术领域
本申请涉及自然语言技术领域,尤其涉及一种文本语料库的构建方法和装置。
背景技术
构建文本语料库一般为语音合成或语音识别等应用系统的必要步骤,如语音合成系统需要根据构建好的文本语料库进行录音,利用文本与语音的平行数据训练声学模型,识别系统中可以直接利用构建好的文本语料库训练语言模型。因此,文本语料库的构建直接关系到整个应用系统的使用效果。
相关技术中,文本语料库的构建方法一般以句为单位,收集大量句子级的文本语料,提取句子级挑选特征,构建相应文本语料库,所述挑选特征一般仅包含一些常见的韵律特征,如重读、韵律边界等。利用所述挑选特征及现有的语料挑选算法从收集语料中挑选句子加入到文本语料库中,挑选结束后,得到最终的文本语料库。
但是,由于以句为单位构建文本语料库,每句文本语料之间相互独立,很难用于对大段文本的处理,处理后的大段文本表现力较差,如对大段文本的语音合成,无法表现出句与句之间的连续性,降低了合成语音的自然度和可懂度。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种文本语料库的构建方法,该方法可以构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
本申请的另一个目的在于提出一种文本语料库的构建装置。
为达到上述目的,本申请第一方面实施例提出的文本语料库的构建方法,包括:收集文本语料作为收集语料;从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中。
本申请第一方面实施例提出的文本语料库的构建方法,通过将满足预设条件的以篇章为单位的语料加入到文本语料库中,可以构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
为达到上述目的,本申请第二方面实施例提出的文本语料库的构建装置,包括:收集模块,用于收集文本语料作为收集语料;提取模块,用于从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;构建模块,用于根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中。
本申请第二方面实施例提出的文本语料库的构建装置,通过将满足预设条件的以篇章为单位的语料加入到文本语料库中,可以构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的文本语料库的构建方法的流程示意图;
图2是本申请另一个实施例提出的文本语料库的构建方法的流程示意图;
图3是本申请另一个实施例提出的文本语料库的构建方法的流程示意图;
图4是本申请一个实施例提出的文本语料库的构建装置的结构示意图;
图5是本申请另一个实施例提出的文本语料库的构建装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的文本语料库的构建方法的流程示意图。
参见图1,本实施例的流程包括:
S11:收集文本语料作为收集语料。
其中,可以收集大量的文本语料,以作为收集语料。
进一步的,在收集文本语料时,主要以篇章为单位收集大段文本数据,如小说语料。
S12:从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征。
从篇章角度进行分析是指对收集语料中多句文本同时进行分析,这样相对于对每个句子语料进行独立分析,可以考虑的范围更广,上下文信息更丰富。
篇章搜索特征是指搜索篇章时用到的特征,具体包括如下项中的至少一项:
音段特征出现次数、韵律特征出现次数、对话出现次数、对话在篇章中每句位置出现的次数、篇章文本中角色数、篇章文本类型出现次数、篇章文本情境出现次数。
提取收集语料的篇章搜索特征的具体内容可以参见后续描述。
S13:根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入到文本语料库中。
构建文本语料库时,需要考虑的原则包括:文本语料库中的语料的篇章搜索特征的方向尽量与收集语料的篇章搜索特征的方向一致,具体构建文本语料库的方法如下所述。
本实施例中,通过将满足预设条件的以篇章为单位的语料加入到文本语料库中,可以构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
图2是本申请另一个实施例提出的文本语料库的构建方法的流程示意图。
参见图2,本实施例的流程包括:
S21:收集文本语料作为收集语料。
S21的具体内容可以参见S11,在此不再详细说明。
S22:提取所述收集语料中每个篇章的篇章搜索特征。
每个篇章的篇章搜索特征的提取流程可以参见下述描述。
S23:根据每个篇章的篇章搜索特征,得到所述收集语料的篇章搜索特征。
一些实施例中,可以对所有篇章的篇章搜索特征进行求和运算,将求和结果作为收集语料的篇章搜索特征。
其中,当篇章搜索特征为多个时,可以由多个篇章搜索特征组成是一个行向量。假设每个篇章的篇章搜索特征可以用向量vti表示,收集语料的篇章搜索特征用向量VT表示,则VT可以表示为:
Figure BDA0001045801780000051
其中,VT为收集语料的篇章搜索特征,vti表示收集语料中第i个篇章的篇章搜索特征,VT和vti均为行向量形式,行向量的每个元素是一个篇章搜索特征,n为收集语料包含的篇章数。
一些实施例中,在所述篇章搜索特征为多个时,对所有篇章的不同篇章搜索特征分别进行求和运算,得到每个篇章搜索特征的取值,在所有篇章搜索特征中删除取值小于预设值的篇章搜索特征,将求和运算后剩余的篇章搜索特征作为收集语料的篇章搜索特征。
具体的,在获取到每个篇章的篇章搜索特征组成的向量vti后,可以采用上述的公式(1)计算得到向量VT,该向量VT的每个元素表示一个篇章搜索特征,元素值就是相应的篇章搜索特征的取值,之后可以删除取值小于预设值的篇章搜索特征,将剩余的篇章搜索特征作为收集语料的篇章搜索特征。例如,初始的VT=[第一篇章搜索特征,第二篇章搜索特征,第三篇章搜索特征],假设第一篇章搜索特征的取值小于预设值,则最终采用的收集语料的篇章搜索特征=[第二篇章搜索特征,第三篇章搜索特征]。
需要说明的是,上述的预设值可以对应不同的篇章搜索特征设置不同的值,例如,第一篇章搜索特征对应的预设值可以与第二篇章搜索特征对应的预设值不同。当然,可以理解的是,也并不排除不同的篇章搜索特征设置相同的预设值的情况。
各篇章搜索特征的提取流程可以包括:
(1)音段特征出现次数
所述音段特征主要指文本数据的发音单元,如音素或音节,音段特征出现次数指每种音段特征在篇章中出现的次数;具体提取时,统计篇章包含的每句文本中每种音段特征出现的次数,然后将篇章中所有语句统计的每种音段特征出现次数相加后,得到篇章中每种音段特征出现的次数。
如文本语料“这个没什么好说的了”,转成音节序列后,得到带声调音节序列为:
“zhe4ge9mei2shen2me6hao3shuo1de0le0”,
其中,数字表示声调,进行音素序列分析后,得到音素序列:
“zh-e4-g-e9-m-ei2-sh-en2-m-e6-h-ao3-sh-uo1-d-e0-l-e0”,每种音素作为一种音段特征,如“zh”、“e4”等
所述音段特征可以预先根据应用需求设定,预先设定60种音段特征,为了考虑到上下文信息,音段特征也可以扩展为多个发音单元的组合,如将音段特征扩展为三种发音单元的组合,如“zh-e4+g”;
(2)韵律特征出现次数
所述韵律特征主要指在读文本语料时,需要停顿的类型,如词级的停顿、短语级的停顿、句子级的停顿等,具体可以使用预先训练的模型预测得到,具体过程与现有技术相同,在此不再详述。
所述韵律特征出现的次数主要指篇章中每种类型的韵律特征出现的次数,如篇章中共出现50次词级的停顿、20次短语级的停顿等,具体提取时,统计篇章中每句文本语料中每种韵律特征出现的次数,然后将相同类型的韵律特征出现的次数求和后,得到当前篇章的韵律特征出现的次数;
如文本语料“这个没什么好说的了”,进行韵律分析后,得到韵律特征“这个#没*什么*好说的了”,其中“#”表示短语停顿,出现1次,“*”表示词停顿,出现2次,当然也可以采用其它的符号表示,本案不限定;
(3)对话出现次数
所述对话出现次数指当前篇章中出现的对话数,对话次数统计时,可以检测文本语料中的引号对,将引号内的文本作为对话内容,统计引号对出现的次数作为对话出现的次数;
(4)对话在篇章中每句位置出现的次数
对话在篇章中每句位置出现的次数即对话出现在篇章中的每句的次数,如当前篇章共包含5句文本数据,对话在第1句出现1次,在第3句出现1次;
(5)篇章文本中角色数
所述篇章文本角色数指篇章文本中包含的角色总数,具体提取时,角色一般与对话有关,首先找到对话位置,分析其前接或后接文本;再通过人名识别找到文本中对应人名;然后通过语义角色确定找到文本中的语义角色,统计篇章文本中的角色数;
所述人名识别指根据预先训练的人名识别模型,识别篇章文本中的人名,所述模型如基于隐马尔可夫模型进行人名识别,具体过程与现有技术相同,在此不再详述。如对篇章中文本“孔素珍吸了一会鼻子说”,人名识别后,得到“孔素珍”为人名。
所述语义角色确定主要对人名识别得到的多个人名进行语义角色的确定,具体确定时根据动词前后的施事者和受事者确定,一般确定这施事者为语义角色,例如“张三对李四说”,通过人名识别得到两个人名“张三”和“李四”,而语义角色确定时,动作“说”的施事者是“张三”,受事者是“李四”,因此确定语义角色是“张三”而非“李四”。
需要说明的是,同一篇章中相同的人名作为同一个角色。
(6)篇章文本类型出现次数
所述篇章文本类型出现次数指当前篇章文本的类型出现预设文本类型的次数,如当前篇章文本类型为“悬疑类型”,则预设文本类型“悬疑类型”出现一次;具体类型可以根据应用需求预先设定,如“悬疑类型”、“青春类型”、“玄幻类型”等,判断篇章文本类型时,可以预先收集大量数据,训练篇章文本类型预测模型,对当前篇章本类型进行预测得到,所述篇章文本类型预测模型一般为模式识别中常用模型如支持向量机模型、深度神经网络模型等,当然,如收集文本语料时,已有相应文本类型,则不需要进行模型预测,可以直接得到文本类型;
(7)篇章文本情境出现次数
所述篇章文本情境出现次数主要指当前篇章文本描述的情境出现预设文本情境的次数,如当前篇章文本描述的情境为“枪战”、“打斗”,则预设文本情境“枪战”、“打斗”各出现一次,具体设定哪些篇章文本情境预先根据应用需求设定,在判断当前篇章出现的文本情境时,根据篇章文本中的相应关键词判定当前篇章的情境,也可以通过训练篇章文本情境预测模型进行预测,具体做法与现有技术相同,在此不再详述。
因此,通过上述流程可以计算出收集语料的篇章搜索特征。
之后可以基于该篇章搜索特征选择收集语料中的全部或部分篇章加入到文本语料库中。
相应的,如图2所示,该方法还包括:
S24:根据所述收集语料中的篇章构建多种候选文本语料库。
例如,可以设置文本语料库需要的篇章的个数(假设用M表示),之后,在收集语料中,可以每次随机选择M个篇章组成一个候选文本语料库,且不同的候选文本语料库包含的篇章不同。假设收集语料中包含N个篇章,根据组合原则,可以得到
Figure BDA0001045801780000091
个候选文本语料库。
可以理解的是,可以采用已有或将来出现的组合方式的确定方案,得到上述的
Figure BDA0001045801780000092
个候选文本语料库。
进一步的,为了提高效率,并不限于得到全部的
Figure BDA0001045801780000094
个候选文本语料库,还可以得到
Figure BDA0001045801780000093
个候选文本语料库中的部分候选文本语料库,以在这部分候选文本语料库中选择最优的作为最终采用的文本语料库。
一种具体实现流程可以参见后续描述。
S25:计算每种候选文本语料库的篇章搜索特征和篇章控制特征。
候选文本语料库的篇章搜索特征的计算可以包括:提取候选文本语料库中包含篇章的篇章搜索特征,再根据提取的篇章搜索特征计算候选文本语料库的篇章搜索特征。具体内容可以参照收集语料的篇章搜索特征的计算方式。
候选文本语料库的篇章控制特征的计算可以包括:对应每种候选文本语料库,计算所述候选文本语料库中每个篇章的长句与短句的比值;将每个篇章对应的比值作为向量的一个元素,由所有所述比值组成一个向量,将所述向量作为所述候选文本语料库的篇章控制特征。
所述文本语料库的篇章控制特征向量用于根据应用需求控制语料库中长句与短句的比值,该特征主要考虑语料是否容易理解,长句通常不易理解,短句一般比较容易理解,构建语料库时,适当增加篇章长短句的比例,使语料库中保持较均衡的长短句比例,可以方便语料库的使用,如人工读语料库中文本,构建音库;
具体提取时,可以根据应用需求预先设定长句的阈值,如包含100字的句子认为是长句,否则,则认为是短句,统计每个篇章中长句总数和短句总数,篇章长短句比值为长句总数与短句总数的比值。最后将语料库中所有篇章的篇章控制特征向量组合起来,作为文本语料库的篇章控制特征向量。具体组合时,假设文本语料共包含m个篇章语料,每个篇章的篇章控制特征向量大小为1,将文本语料中每个篇章的篇章控制特征向量作为一行,对篇章控制特征向量进行组合,得到组合后的特征向量大小为1×m。
例如,候选文本语料库包括:第一篇章、第二篇章和第三篇章,假设第一篇章包括的长句的总数是X,第一篇章包括的短句的总数是Y,则第一篇章对应的比值是A1=X/Y,类似的,可以得到第二篇章和第三篇章分别对应的比值A2和A3,之后,可以将由这三个比值组成一个行向量,即[A1,A2,A3],将该行向量[A1,A2,A3]作为该候选文本语料库的篇章控制特征。上述的长句和短句可以根据包含的字数确定,例如,将小于100字(100是可设置的值,也可以为其他值)的句子作为短句,将大于或等于100字的句子作为长句。
S26:在所有候选文本语料库中,选择篇章搜索特征与所述收集语料的篇章搜索特征的方向的一致性,以及篇章控制特征与预设控制特征的一致性综合考虑后一致性最优的一个候选文本语料库。
上述内容可以包括:
计算所述候选文本语料库的篇章搜索特征与所述收集语料的篇章搜索特征之间的夹角余弦;
将所述篇章控制特征与预设控制特征的差值对应的行向量与列向量相乘得到向量的乘积,计算所述向量的乘积与预设的权重值的乘积;
将所述夹角余弦与所述乘积的差值作为候选文本语料库的得分,将得分最高的候选文本语料库作为选择的一个候选文本语料库。
具体的,用公式表示为:对应每个候选文本语料库,采用如下公式计算得分:
Figure BDA0001045801780000111
其中,S表示每个候选文本语料库的得分,VT为收集语料的篇章搜索特征,VC为候选文本语料库的篇章搜索特征,UC为候选文本语料库的篇章控制特征,C为目标值对应的向量,具体取值根据应用需求和实验结果确定,如C是与UC大小相同的行向量,且每个元素均为一个预设值,如0.5,λ为篇章搜索特征的调节权重,具体取值根据应用需求或实验结果确定,如0.2。VC·VT表示VC与VT的数量积(内积),|VC|*|VT|表示VC的模乘以VT的模,(UC-C)(UC-C)T表示行向量(UC-C)与列向量(UC-C)T相乘,假设UC是1×m的行向量,则(UC-C)(UC-C)T是1×1的值。
之后,将得分最高的候选文本语料库作为选择的一个候选文本语料库。
S27:将选择的一个候选文本语料库作为最终采用的文本语料库。
或者,与上述对应,S27还可以是:将选择的一个候选文本中的篇章作为满足预设条件的以篇章为单位的语料,并加入到文本语料库中。
比如,选择的一个候选文本语料库由篇章-1、篇章-2、篇章-3…组成,则将篇章-1、篇章-2、篇章-3…加入到最终使用的文本语料库中。
本实施例中,通过上述计算流程可以得到最终采用的文本语料库,且该文本语料库包括以篇章为单位的语料,从而提高对大段文字的处理能力。
具体的,上述实施例中涉及候选文本语料库,一种实现方式中,所述候选文本语料库包括:
当前文本语料库,以及,用当前篇章依次替换所述当前文本语料库中的一个篇章后得到的替换后的文本语料库;
其中,所述当前文本语料库的初始值是:在所述收集语料中选择个数为文本语料库需要的个数的篇章组成的;
所述当前篇章的初始值是:在当前剩余篇章中选择的一个篇章,所述当前剩余篇章是收集语料的篇章中除去当前文本语料库的初始值包括的篇章后的剩余篇章;
所述当前文本语料库的更新流程包括:在存在替换后的文本库的得分大于更新前的文本语料库的得分时,用得分最高的替换后的文本语料库更新;
所述当前篇章的更新流程包括:在当前剩余篇章中存在未被选择的篇章时,在当前剩余篇章中选择一个新的未被选择的篇章作为新的当前篇章;或者,在替换次数大于预设值时,在总的剩余篇章中选择一个未被选择的篇章作为新的当前篇章,其中,所述总的剩余篇章包括:新的剩余篇章及当前剩余篇章中未替换的篇章,所述替换次数通过统计替换发生的次数得到,所述新的剩余篇章根据被替换的篇章得到。
结合上述的候选文本语料库给出如下的实施例。
图3是本申请另一个实施例提出的文本语料库的构建方法的流程示意图。
如图3所示,本实施例的方法包括:
S301:收集文本语料作为收集语料。
S302:计算收集语料的篇章搜索特征。
如用向量VT表示。
S301-S302的具体内容可以参见上述实施例的相关描述,在此不再详细说明。
S303:在收集语料中选择个数为文本语料库需要的个数的篇章,并由选择的篇章组成当前文本语料库,并将收集语料的剩余篇章作为当前剩余篇章,以及在当前剩余篇章中选择一个篇章作为当前篇章。
例如,假设文本语料库需要的个数用M(该值是可设置的)表示,则可以在收集语料中随机选择M个篇章组成当前文本语料库。
另外,假设收集语料中共有N个篇章,则可以将剩余的(N-M)个篇章作为当前剩余篇章,并在当前剩余篇章中随机或顺序选择一个篇章作为当前篇章。
S304:计算当前文本语料库的得分S0,并用当前篇章依次替换当前文本语料库中的每个篇章,并计算每个替换后的文本语料库的得分Si。
文本语料库的得分的计算流程可以参见上述描述,在此不再详细说明。
上述的S0是一个值,如果文本语料库需要的个数为M,则替换后的文本语料库共有M个,相应的,上述的Si共有M个。
S305:判断是否存在Si大于S0,若是,执行S306,否则,执行S307。
S306:选择得分最高的替换后的文本语料库作为新的当前文本语料库,并将替换次数增加1,以及,将被替换的篇章放入新的剩余篇章中。
比如,S303得到的当前文本语料库包括第一篇章、第二篇章和第三篇章,当前剩余篇章包括:第四篇章和第五篇章,且选择第四篇章作为当前篇章。假设第四篇章、第二篇章和第三篇章组成的替换后的文本语料库的得分最高且大于第一篇章、第二篇章和第三篇章组成的文本语料库的得分,则将第四篇章、第二篇章和第三篇章组成的文本语料库作为更新后的当前文本语料库。
另外,替换次数的初始值可以设置为0,则发生替换后,将替换次数加1。
另外,由于第一篇章是被替换的篇章,则将第一篇章放入新的剩余篇章中。具体的,新的剩余篇章的初始值可以设置为空。新的剩余篇章可以根据替换的不断发生而不断更新。例如,如果用第四篇章替换了第一篇章,且之前的新的剩余篇章为空,则更新后的新的剩余篇章包括:第一篇章。如果后续又发生了替换,假设第五篇章替换了第三篇章,则更新后的新的剩余篇章包括:第一篇章、第三篇章。
S307:保持当前文本语料库不变。
例如,经过上述计算,第一篇章、第二篇章和第三篇章组成的当前文本语料库的得分最高,则保持当前文本语料库包括:第一篇章、第二篇章和第三篇章。
S308:判断当前篇章是否是当前剩余篇章中的最后一个被选择的篇章,若否,执行S309,否则执行S310。
S309:在当前剩余篇章中选择一个未被选择的篇章作为新的当前篇章。之后重复执行S304及其后续步骤。
例如,在上述场景下,假设当前篇章是第四篇章,由于当前剩余篇章中还包括第五篇章,则将第五篇章作为新的当前篇章重新执行上述流程。
S310:判断替换次数是否小于预设值,若是,执行S311,否则,执行S312。
假设在本轮运算中,第四篇章替换了一次,第五篇章也替换了一次,则替换次数是两次,否则,第四篇章替换了一次,第五篇章未替换,则替换次数是一次。
通过该步骤可以衡量候选文本语料库的稳定性,当替换次数小于预设值时,则表明候选文本语料库稳定性较好,可以作为最终使用的文本语料库。
当然,可以理解的是,在一些实施例中,也可以不执行该步骤,而是在S308的判断结果为是时,直接执行后续的S311。
S311:将当前文本语料库作为最终采用的文本语料库。
S312:将替换次数归零,以及,在总的剩余篇章中选择一个篇章作为新的当前篇章。其中,总的剩余篇章包括:新的剩余篇章和当前剩余篇章中未替换的篇章。之后重复执行S304及其后续步骤。
例如,当前文本语料库包括:第一篇章、第二篇章和第三篇章,当前剩余篇章包括:第四篇章和第五篇章,假设本轮运算后,第四篇章替换了第一篇章(相应的,新的剩余篇章包括第一篇章),第五篇章未替换,依然在当前剩余篇章中,则总的剩余篇章包括:第五篇章和第一篇章。
可以理解的是,在上述运算中采用的当前文本语料库、当前篇章,新的剩余篇章等,如果存在更新,都是指更新后的相应参数。
本实施例中,通过上述的替换过程,可以在替换涉及的篇章的组合中选择出最优的组合作为最终采用的文本语料库,且该文本语料库由篇章组成,从而可以提高对大段文字的处理能力。
图4是本申请一个实施例提出的文本语料库的构建装置的结构示意图。
如图4所示,本实施例的装置40包括:收集模块41、提取模块42和构建模块43。
收集模块41,用于收集文本语料作为收集语料;
提取模块42,用于从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;
构建模块43,用于根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中。
一些实施例中,所述篇章搜索特征包括如下项中的至少一项:
音段特征出现次数、韵律特征出现次数、对话出现次数、对话在篇章中每句位置出现的次数、篇章文本中角色数、篇章文本类型出现次数、篇章文本情境出现次数。
一些实施例中,参见图5,所述提取模块42包括:
提取单元421,用于提取所述收集语料中每个篇章的篇章搜索特征;
获取单元422,用于根据每个篇章的篇章搜索特征,得到所述收集语料的篇章搜索特征。
一些实施例中,参见图5,所述构建模块43包括:
初始化单元431,用于根据所述收集语料中的篇章构建多种候选文本语料库,所述候选文本语料库包括:根据收集语料中的篇章能够构建的所有候选文本语料库,或者,所述所有候选文本语料库中的部分候选文本语料库;
计算单元432,用于计算每种候选文本语料库的篇章搜索特征和篇章控制特征;
选择单元433,用于在所有候选文本语料库中,选择篇章搜索特征与所述收集语料的篇章搜索特征的方向的一致性,以及篇章控制特征与预设控制特征的一致性综合考虑后一致性最优的一个候选文本语料库;
构建单元434,用于将选择的一个候选文本语料库中的篇章作为满足预设条件的以篇章为单位的语料,并加入到文本语料库中。
一些实施例中,所述选择单元433具体用于:
计算所述候选文本语料库的篇章搜索特征与所述收集语料的篇章搜索特征之间的夹角余弦;
将所述篇章控制特征与预设控制特征的差值对应的行向量与列向量相乘得到向量的乘积,计算所述向量的乘积与预设的权重值的乘积;
将所述夹角余弦与所述乘积的差值作为候选文本语料库的得分,将得分最高的候选文本语料库作为选择的一个候选文本语料库。
一些实施例中,所述候选文本语料库包括:
当前文本语料库,以及,用当前篇章依次替换所述当前文本语料库中的一个篇章后得到的替换后的文本语料库;
其中,所述当前文本语料库的初始值是:在所述收集语料中选择个数为文本语料库需要的个数的篇章组成的;
所述当前篇章的初始值是:在当前剩余篇章中选择的一个篇章,所述当前剩余篇章是收集语料的篇章中除去当前文本语料库的初始值包括的篇章后的剩余篇章;
所述当前文本语料库的更新流程包括:在存在替换后的文本库的得分大于更新前的文本语料库的得分时,用得分最高的替换后的文本语料库更新;
所述当前篇章的更新流程包括:在当前剩余篇章中存在未被选择的篇章时,在当前剩余篇章中选择一个新的未被选择的篇章作为新的当前篇章;或者,在替换次数大于预设值时,在总的剩余篇章中选择一个未被选择的篇章作为新的当前篇章,其中,所述总的剩余篇章包括:新的剩余篇章及当前剩余篇章中未替换的篇章,所述替换次数通过统计替换发生的次数得到,所述新的剩余篇章根据被替换的篇章得到。
一些实施例中,所述计算单元432用于计算篇章控制特征具体包括:
对应每种候选文本语料库,计算所述候选文本语料库中每个篇章的长句与短句的比值;
将每个篇章对应的比值作为向量的一个元素,由所有所述比值组成一个向量,将所述向量作为所述候选文本语料库的篇章控制特征。
一些实施例中,所述获取单元422具体用于:
对所有篇章的篇章搜索特征进行求和运算,将求和结果作为收集语料的篇章搜索特征;或者,
在所述篇章搜索特征为多个时,对所有篇章的不同篇章搜索特征分别进行求和运算,得到每个篇章搜索特征的取值,在所有篇章搜索特征中删除取值小于预设值的篇章搜索特征,将求和运算后剩余的篇章搜索特征作为收集语料的篇章搜索特征。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过将满足预设条件的以篇章为单位的语料加入到文本语料库中,可以构建以篇章为单位的文本语料库,从而提高对大段文本的处理能力,提高合成语音的自然度和可懂度。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种文本语料库的构建方法,其特征在于,包括:
收集文本语料作为收集语料;
从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;
根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中,在构建所述文本语料库时,令所述文本语料库中的语料的篇章搜索特征的方向与所述收集语料的篇章搜索特征的方向一致。
2.根据权利要求1所述的方法,其特征在于,所述篇章搜索特征包括如下项中的至少一项:
音段特征出现次数、韵律特征出现次数、对话出现次数、对话在篇章中每句位置出现的次数、篇章文本中角色数、篇章文本类型出现次数、篇章文本情境出现次数。
3.根据权利要求1所述的方法,其特征在于,所述从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征,包括:
提取所述收集语料中每个篇章的篇章搜索特征;
根据每个篇章的篇章搜索特征,得到所述收集语料的篇章搜索特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,包括:
根据所述收集语料中的篇章构建多种候选文本语料库,所述候选文本语料库包括:根据收集语料中的篇章能够构建的所有候选文本语料库,或者,所述所有候选文本语料库中的部分候选文本语料库;
计算每种候选文本语料库的篇章搜索特征和篇章控制特征;
在所有候选文本语料库中,选择篇章搜索特征与所述收集语料的篇章搜索特征的方向的一致性,以及篇章控制特征与预设控制特征的一致性综合考虑后一致性最优的一个候选文本语料库;
将选择的一个候选文本语料库中的篇章作为满足预设条件的以篇章为单位的语料。
5.根据权利要求4所述的方法,其特征在于,在所有候选文本语料库中,选择篇章搜索特征与所述收集语料的篇章搜索特征的方向的一致性,以及篇章控制特征与预设控制特征的一致性综合考虑后一致性最优的一个候选文本语料库,包括:
计算所述候选文本语料库的篇章搜索特征与所述收集语料的篇章搜索特征之间的夹角余弦;
将所述篇章控制特征与预设控制特征的差值对应的行向量与列向量相乘得到向量的乘积,计算所述向量的乘积与预设的权重值的乘积;
将所述夹角余弦与所述乘积的差值作为候选文本语料库的得分,将得分最高的候选文本语料库作为选择的一个候选文本语料库。
6.根据权利要求4所述的方法,其特征在于,计算每种候选文本语料库的篇章控制特征包括:
对应每种候选文本语料库,计算所述候选文本语料库中每个篇章的长句与短句的比值;
将每个篇章对应的比值作为向量的一个元素,由所有所述比值组成一个向量,将所述向量作为所述候选文本语料库的篇章控制特征。
7.根据权利要求4所述的方法,其特征在于,所述候选文本语料库包括:
当前文本语料库,以及,用当前篇章依次替换所述当前文本语料库中的一个篇章后得到的替换后的文本语料库;
其中,所述当前文本语料库的初始值是:在所述收集语料中选择个数为文本语料库需要的个数的篇章组成的;
所述当前篇章的初始值是:在当前剩余篇章中选择的一个篇章,所述当前剩余篇章是收集语料的篇章中除去当前文本语料库的初始值包括的篇章后的剩余篇章;
所述当前文本语料库的更新流程包括:在存在替换后的文本库的得分大于更新前的文本语料库的得分时,用得分最高的替换后的文本语料库更新;
所述当前篇章的更新流程包括:在当前剩余篇章中存在未被选择的篇章时,在当前剩余篇章中选择一个新的未被选择的篇章作为新的当前篇章;或者,在替换次数大于预设值时,在总的剩余篇章中选择一个未被选择的篇章作为新的当前篇章,其中,所述总的剩余篇章包括:新的剩余篇章及当前剩余篇章中未替换的篇章,所述替换次数通过统计替换发生的次数得到,所述新的剩余篇章根据被替换的篇章得到。
8.根据权利要求3所述的方法,其特征在于,所述根据每个篇章的篇章搜索特征,得到所述收集语料的篇章搜索特征,包括:
对所有篇章的篇章搜索特征进行求和运算,将求和结果作为收集语料的篇章搜索特征;或者,
在所述篇章搜索特征为多个时,对所有篇章的不同篇章搜索特征分别进行求和运算,得到每个篇章搜索特征的取值,在所有篇章搜索特征中删除取值小于预设值的篇章搜索特征,将求和运算后剩余的篇章搜索特征作为收集语料的篇章搜索特征。
9.一种文本语料库的构建装置,其特征在于,包括:
收集模块,用于收集文本语料作为收集语料;
提取模块,用于从篇章角度对所述收集语料进行分析,提取所述收集语料的篇章搜索特征;
构建模块,用于根据所述篇章搜索特征,在所述收集语料中搜索满足预设条件的以篇章为单位的语料,并将搜索得到的语料加入文本语料库中,所述构建模块在构建所述文本语料库时,令所述文本语料库中的语料的篇章搜索特征的方向与所述收集语料的篇章搜索特征的方向一致。
10.根据权利要求9所述的装置,其特征在于,所述篇章搜索特征包括如下项中的至少一项:
音段特征出现次数、韵律特征出现次数、对话出现次数、对话在篇章中每句位置出现的次数、篇章文本中角色数、篇章文本类型出现次数、篇章文本情境出现次数。
11.根据权利要求9所述的装置,其特征在于,所述提取模块包括:
提取单元,用于提取所述收集语料中每个篇章的篇章搜索特征;
获取单元,用于根据每个篇章的篇章搜索特征,得到所述收集语料的篇章搜索特征。
12.根据权利要求9所述的装置,其特征在于,所述构建模块包括:
初始化单元,用于根据所述收集语料中的篇章构建多种候选文本语料库,所述候选文本语料库包括:根据收集语料中的篇章能够构建的所有候选文本语料库,或者,所述所有候选文本语料库中的部分候选文本语料库;
计算单元,用于计算每种候选文本语料库的篇章搜索特征和篇章控制特征;
选择单元,用于在所有候选文本语料库中,选择篇章搜索特征与所述收集语料的篇章搜索特征的方向的一致性,以及篇章控制特征与预设控制特征的一致性综合考虑后一致性最优的一个候选文本语料库;
构建单元,用于将选择的一个候选文本语料库中的篇章作为满足预设条件的以篇章为单位的语料,并加入到文本语料库中。
13.根据权利要求12所述的装置,其特征在于,所述选择单元具体用于:
计算所述候选文本语料库的篇章搜索特征与所述收集语料的篇章搜索特征之间的夹角余弦;
将所述篇章控制特征与预设控制特征的差值对应的行向量与列向量相乘得到向量的乘积,计算所述向量的乘积与预设的权重值的乘积;
将所述夹角余弦与所述乘积的差值作为候选文本语料库的得分,将得分最高的候选文本语料库作为选择的一个候选文本语料库。
14.根据权利要求12所述的装置,其特征在于,所述计算单元用于计算篇章控制特征具体包括:
对应每种候选文本语料库,计算所述候选文本语料库中每个篇章的长句与短句的比值;
将每个篇章对应的比值作为向量的一个元素,由所有所述比值组成一个向量,将所述向量作为所述候选文本语料库的篇章控制特征。
15.根据权利要求12所述的装置,其特征在于,所述候选文本语料库包括:
当前文本语料库,以及,用当前篇章依次替换所述当前文本语料库中的一个篇章后得到的替换后的文本语料库;
其中,所述当前文本语料库的初始值是:在所述收集语料中选择个数为文本语料库需要的个数的篇章组成的;
所述当前篇章的初始值是:在当前剩余篇章中选择的一个篇章,所述当前剩余篇章是收集语料的篇章中除去当前文本语料库的初始值包括的篇章后的剩余篇章;
所述当前文本语料库的更新流程包括:在存在替换后的文本库的得分大于更新前的文本语料库的得分时,用得分最高的替换后的文本语料库更新;
所述当前篇章的更新流程包括:在当前剩余篇章中存在未被选择的篇章时,在当前剩余篇章中选择一个新的未被选择的篇章作为新的当前篇章;或者,在替换次数大于预设值时,在总的剩余篇章中选择一个未被选择的篇章作为新的当前篇章,其中,所述总的剩余篇章包括:新的剩余篇章及当前剩余篇章中未替换的篇章,所述替换次数通过统计替换发生的次数得到,所述新的剩余篇章根据被替换的篇章得到。
16.根据权利要求11所述的装置,其特征在于,所述获取单元具体用于:
对所有篇章的篇章搜索特征进行求和运算,将求和结果作为收集语料的篇章搜索特征;或者,
在所述篇章搜索特征为多个时,对所有篇章的不同篇章搜索特征分别进行求和运算,得到每个篇章搜索特征的取值,在所有篇章搜索特征中删除取值小于预设值的篇章搜索特征,将求和运算后剩余的篇章搜索特征作为收集语料的篇章搜索特征。
CN201610542952.5A 2016-07-11 2016-07-11 文本语料库的构建方法和装置 Active CN107610693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610542952.5A CN107610693B (zh) 2016-07-11 2016-07-11 文本语料库的构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610542952.5A CN107610693B (zh) 2016-07-11 2016-07-11 文本语料库的构建方法和装置

Publications (2)

Publication Number Publication Date
CN107610693A CN107610693A (zh) 2018-01-19
CN107610693B true CN107610693B (zh) 2021-01-29

Family

ID=61054846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610542952.5A Active CN107610693B (zh) 2016-07-11 2016-07-11 文本语料库的构建方法和装置

Country Status (1)

Country Link
CN (1) CN107610693B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364655B (zh) * 2018-01-31 2021-03-09 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108228191B (zh) * 2018-02-06 2022-01-25 威盛电子股份有限公司 语法编译系统以及语法编译方法
CN109101581A (zh) * 2018-07-20 2018-12-28 安徽淘云科技有限公司 一种文本语料的筛选方法及装置
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109948142B (zh) * 2019-01-25 2020-01-14 北京海天瑞声科技股份有限公司 语料选取处理方法、装置、设备及计算机可读存储介质
CN110276070B (zh) * 2019-05-22 2023-04-07 广州多益网络股份有限公司 一种语料处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN103823824A (zh) * 2013-11-12 2014-05-28 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及系统
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101425065B (zh) * 2007-10-31 2013-01-09 日电(中国)有限公司 实体关系挖掘设备和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609456A (zh) * 2012-01-12 2012-07-25 凤凰在线(北京)信息技术有限公司 一种文章实时智能抓取系统和方法
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN103823824A (zh) * 2013-11-12 2014-05-28 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及系统
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

Also Published As

Publication number Publication date
CN107610693A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107610693B (zh) 文本语料库的构建方法和装置
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP4769223B2 (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
Goldwater et al. Which words are hard to recognize? Prosodic, lexical, and disfluency factors that increase speech recognition error rates
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US20080177543A1 (en) Stochastic Syllable Accent Recognition
CN105654940B (zh) 一种语音合成方法和装置
CN110675855A (zh) 一种语音识别方法、电子设备及计算机可读存储介质
US8155963B2 (en) Autonomous system and method for creating readable scripts for concatenative text-to-speech synthesis (TTS) corpora
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
KR20100130263A (ko) 음성 인식용 발음사전 확장 장치 및 방법
CN112562676B (zh) 一种语音解码方法、装置、设备及存储介质
Proença et al. Automatic evaluation of reading aloud performance in children
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
Guennec et al. Unit selection cost function exploration using an A* based Text-to-Speech system
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
CN112489638B (zh) 一种语音识别方法、装置、设备及存储介质
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
JP2016157097A (ja) 音読評価装置、音読評価方法、及びプログラム
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
WO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant