CN109344221A - 录音文本生成方法、装置及设备 - Google Patents

录音文本生成方法、装置及设备 Download PDF

Info

Publication number
CN109344221A
CN109344221A CN201810866675.2A CN201810866675A CN109344221A CN 109344221 A CN109344221 A CN 109344221A CN 201810866675 A CN201810866675 A CN 201810866675A CN 109344221 A CN109344221 A CN 109344221A
Authority
CN
China
Prior art keywords
sentence
syllable
weight
value
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810866675.2A
Other languages
English (en)
Other versions
CN109344221B (zh
Inventor
韩喆
官砚楚
陈力
杨磊
吴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810866675.2A priority Critical patent/CN109344221B/zh
Publication of CN109344221A publication Critical patent/CN109344221A/zh
Application granted granted Critical
Publication of CN109344221B publication Critical patent/CN109344221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种录音文本生成方法、装置及设备,本说明书实施例从数据源中获取备选录音文本,并根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表。由于语句权重值可以由语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种作为评价因子进行计算而获得,而基于倒排索引表能索引到每个音节所在语句,因此,可以将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。

Description

录音文本生成方法、装置及设备
技术领域
本说明书涉及数据处理领域,尤其涉及录音文本生成方法、装置及设备。
背景技术
不管是语音识别场景,还是语音合成场景,为了训练良好的声学模型,都需要依赖大量的语音数据以及与语音数据对应的正确的文本信息,语音数据以及与语音数据对应的正确的文本信息,可以简称为文本语音对。目前,常根据录音文本以及朗读该录音文本而获得的录音数据,构建文本语音对。因此,录音文本的选取尤为重要。
发明内容
为克服相关技术中存在的问题,本说明书提供了录音文本生成方法、装置及设备。
根据本说明书实施例的第一方面,提供一种录音文本生成方法,所述方法包括:
从数据源中获取备选录音文本;
根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
在一个实施例中,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。
在一个实施例中,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;
和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。
在一个实施例中,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。
在一个实施例中,所述根据备选录音文本中语句的相关信息确定语句权重值,包括:
从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:
其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。
在一个实施例中,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。
在一个实施例中,所述将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本,包括:
针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;
在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。
根据本说明书实施例的第二方面,提供一种录音文本生成装置,所述装置包括:
文本获取模块,用于从数据源中获取备选录音文本;
集合构成模块,用于根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
索引表建立模块,用于针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
语句抽取模块,用于将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
在一个实施例中,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。
在一个实施例中,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;
和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。
在一个实施例中,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。
在一个实施例中,所述集合构成模块,具体用于:
从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:
其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。
在一个实施例中,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。
在一个实施例中,所述语句抽取模块,具体用于:
针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;
在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
从数据源中获取备选录音文本;
根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例从数据源中获取备选录音文本,并根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表。由于语句权重值可以以语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种作为评价因子进行计算获得,而基于倒排索引表能索引到每个音节所在语句,因此,可以将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。可见,通过本说明书实施例能生成音节分布更好的录音文本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书根据一示例性实施例示出的一种录音文本生成方法的流程图。
图2是本说明书根据一示例性实施例示出的一种录音文本生成方法的应用实例图。
图3是本说明书根据一示例性实施例示出的一种录音文本生成装置所在计算机设备的一种硬件结构图。
图4是本说明书根据一示例性实施例示出的一种录音文本生成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
语音识别,可以是将语音转换成文本,在识别过程中会涉及到声学模型和语言模型。语音合成,可以是将文本映射为音频,在合成过程中也会涉及到声学模型。例如,端到端语音识别模型,可以是从输入端(语音波形或特征序列)到输出端(单词或字符序列)用神经网络相连,把传统声学模型、发音词典、语言模型等传统模块放在神经网络中进行处理。
而声学模型的建立需要依赖大量的语音数据,以及语音数据对应的正确的文本信息,从而得到语音与文字的统计关系,并利用语音数据以及语音数据对应的正确的文本信息对模型进行训练,获得声学模型。
目前,常基于录音文本以及朗读该录音文本而获得的录音数据,构建文本语音对。例如,对播音员朗读录音文本进行录音,获得录音数据。录音文本可以取自新闻文本,但新闻文本的结构比较单一、重复文本出现比例高、很难覆盖大部分音节和音节组合。而专业的录音员和录音设备成本较高,而为了覆盖大部分音节而录制大量的录音文本,会极大的提升录音成本。
鉴于此,本说明书实施例提供一种录音文本生成方案,能从数据源中抽取一些语句(又可以称为句子),作为语音录制的朗读文本(又可以称为录音文本)。期望达到的结果是:选取的语句质量尽可能的高,可以覆盖较多的音素、音节,以及尽可能多的双音节。可见,通过本说明书实施例方案能生成音节分布更好的录音文本,从而减少录音文本的数量,进而减少录音成本。
其中,音素可以是语音中最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音节可以是音位组合构成的最小的语音结构单位,在汉语中一般一个汉字的读音即为一个音节,本说明书实施例所指音节可以是拼音音节,每个拼音音节指代一个汉字。双音节可以是汉语中任意两个汉字读音之间的组合。因此,音节又可以称为拼音音节,双音节又可以称为双拼音音节。音节可以是带声调的音节,也可以是不带声调的音节,均可以使用本说明书实施例方案生成录音文本。
以下结合附图对本说明书实施例进行示例说明。
如图1所示,是本说明书根据一示例性实施例示出的一种录音文本生成方法的流程图,所述方法包括:
在步骤102中,从数据源中获取备选录音文本;
在步骤104中,根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
在步骤106中,针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
在步骤108中,将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
关于备选录音文本,备选录音文本可以来源于数据源中,为了解决录音文本结构单一的缺陷,可以从至少两种数据源中获取备选录音文本。
实际应用中,生成录音文本的目的往往是为了构建文本语音对,进而训练获得语音识别模型或语音合成模型,而语音相对口语话,同时又要保证录音文本的准确性,因此,在一个实施例中,所述数据源可以包括新闻语料库和网络百科库,所述备选录音文本可以包括新闻文本和百科词条的摘要。
其中,网络百科可以是百度百科、维基百科等开源网络百科。
在该实施例中,通过从网络百科库和新闻语料库中抽取文本,可以解决传统技术中录音文本结构单一、重复文本出现比例高、很难覆盖所有音节的问题。另外,从网络百科库中仅抽取百科词条的摘要,可以提高文本的准确性。
此外,数据源还可以包括其他数据源,例如,论文数据库、期刊数据库等,在此不一一列举。
在获取备选录音文本后,可以构成原始文本库,也可以称为备选文本库。针对备选文本库中每段备选录音文本,可以从每段备选录音文本中抽取语句。例如,采用标点符号等分句方法对备选录音文件进行断句,获得多条语句。然后,根据语句的相关信息确定语句权重值,在所有备选录音文本中所有语句的语句权重值确定后,可以构成具有语句权重值的语句集合。
关于语句权重值,可以是利用语句的相关信息对语句的重要性进行评分获得的评分值。基于不同的评价侧重点,可以选用不同的相关信息作为评价因子。在一个实施例中,相关信息可以包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种。本实施例可以从语句长度、语句来源的重要性以及语句中不同音节的分布情况,来评价该语句,从而获得该语句的语句权重值。作为一种优选方式,相关信息可以包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息,实现从多维度对语句进行评价。
关于语句长度,可以是语句中不同音节的个数。例如,在语句“我的爸爸”中,音节个数为3,则语句长度可以为3。
关于语句来源的重要性参数,是用于评判来源的重要性。语句来源可以进行粗分类,也可以进行细分类。例如,在某些例子中,同一数据来源的语句具有等同的重要性,因此,数据来源为同一数据源的不同语句,其语句来源的重要性参数可以相同。以数据源包括新闻语料库为例,可以判定新闻语料库中的新闻重要程度相当,因此,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值。例如,预设值可以为1.0。又如,在某些例子中,虽然语句的数据来源相同,但语句所属备选录音文本不同,其重要性也存在差异。因此,语句来源的重要性参数不仅考虑数据源,还需考虑其所属备选录音文本。以数据源包括网络百科库为例,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。在一个实施例中,可以基于页面中链接数量确定百科页面的重要性。例如,以语句所属百科页面中链接的数量除以所有百科页面中链接数量的最大值,获得语句来源的重要性参数。在另一个实施例中,可以采用使用PageRank(网页排名)等算法衡量页面重要性,并且进行归一化处理,以获得语句来源的重要性参数。
关于语句中不同音节的分布信息,可以包括单个音节的分布情况,也可以包括多个音节的分布情况,以便将音节分布情况作为语句的评分标准之一。在一个实施例中,可以利用音节权重值反应单个音节在语句中的分布情况,可以利用多音节权重值(如双音节权重值)反应多音节(如双音节)在语句中的分布情况。而权重值可以是对音节/多音节的评分值,例如,权重值又可以基于出现频率而确定,以实现出现频率与权重值呈反相关关系。
例如,所述语句中不同音节的分布信息可以包括:所述语句中不同音节的分布信息可以包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。
可见,在该实施例中,不仅将单个音节的分布情况作为评价语句的标准之一,还将双音节的分布情况作为评价语句的标准之一,可以通过语句权重值同时反映单个音节和双音节的分布情况。
以下提供一种权重计算方法进行示例说明。
所述根据备选录音文本中语句的相关信息确定语句权重值,包括:
从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:
其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。
在计算语句Si中音节权重值的总和时,同一音节出现多次时,可以仅考虑一次,即音节权重值的总和是不同音节的音节权重值之和。以语句Si为“我的爸爸”为例,音节“ba”重复出现两次,而在求和中,可以仅考虑一次,因此,Si中音节权重值的总和可以为:hi_j=h(wo)+he(de)+he(ba)。而针对双音节,双音节是由相邻两个音节组成,因此,双音节权重值的总和可以为:
hi_j(j+1)=h(wo de)+he(de ba)+he(ba ba)。
为了实现音节权重值与语句中音节在语句集合中的出现频率呈反相关关系;双音节权重值与语句中双音节在语句集合中的出现频率呈反相关关系,在一个实施例中,音节权重值可以基于音节在语句集合中的出现频率的对数获得,双音节权重值可以基于双音节在语句集合中的出现频率的对数获得。可以理解的是,音节权重值和双音节权重值均进行归一化处理。例如,音节“wo”的音节权重值:h(wo)=h'(wo)/h'_sum,h'(wo)=log(wo的出现频率)。其中,h(wo)表示音节“wo”的音节权重值,假设语句集合中总共有M个不同音节,h'_sum表示M个音节的音节出现频率求对数后的总和。同理,双音节权重值可以采用相似方法,在此不做赘述。
从备选录音文本中抽取语句,并进行去重处理,计算每句语句的语句权重值,从而构成具有语句权重值的语句集合。
对语句集合进行分析,可以获得语句集合中所包含的不同的音节。步骤106中的音节,可以是语句集合所囊括的不同的音节。针对每个音节,可以建立用于从语句集合中索引该音节所在语句的倒排索引表。所谓倒排索引表,可以记录有音节与语句标识的映射关系。因此,可以基于倒排索引表,利用与音节对应的语句标识索引包含音节的语句。语句标识可以是用于索引音节所在语句的信息,例如,语句存储位置、语句在语句集合中的序号等。语句集合中的语句可以进行编号。
由于针对某些音节,包含该音节的语句的数量比较大,因此,还可以对包含音节的语句进行筛选。在一个实施例中,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设个数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。
在该实施例中,目标语句可以是从包含音节的所有语句中,基于语句权重值进行筛选获得的语句。针对每个音节,可以维护一个最大堆,最大堆中所映射的语句数量具有上限值,以获得音节所在的比较重要的语句的倒排索引表。例如,可以对语句集合中的语句按顺序进行遍历,筛选出包含该音节、且语句权重值排名靠前的预设条数的语句。即,语句权重值排名为前预设名次的语句。其中,预设条数可以基于目标录音文本中所期望的语句数量而定。例如,预设条数可以为目标录音文本中所期望的语句数量。又如,假设语句集合中总共有M个不同音节,目标录音文本中所期望的语句数量为N,假设每个句子平均有k个音节,则预设条数可以是k*N/M。
为了提高后续抽取效率,在一个实施例中,所述倒排索引表中语句标识可以按语句权重值的大小进行排序。例如,可以按语句权重值从大到小的顺序,对倒排索引表中的语句标识进行排序,以实现最大语句权重值所对应的语句标识在堆顶,方便后续根据语句权重值抽取语句时,可以比较每个堆的堆顶,从而可以快速从语句集合中抽取最大语句权重值的语句。
本实施例的期望在于选取的句子质量尽可能的高,可以覆盖尽可能多的音素、音节、双音节,鉴于此,可以将期望包含的音节以及语句权重值作为抽取条件,又由于针对每个音节都建立有倒排索引表,因此,可以结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本,以使构成的目标录音文本语句权重值比较大,同时能覆盖所有的音节。
以下以一种抽取方式进行示例说明。
所述将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本,可以包括:
针对每个音节执行语句抽取操作,语句抽取操作可以包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;
在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。
在该示例中,对所有音节都执行抽取操作,可以保证所抽取的语句中囊括了所有音节。针对每个音节,所抽取的语句可以是该音节所在语句中语句权重值排名前预设数量的语句。
在对所有音节执行完语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,循环比较倒排索引表中语句标识所对应的语句权重值。利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句权重值最大的语句,直至所构成的目标录音文本的数量满足要求。其中,以语句权重值作为抽取条件,可以是按语句权重值从大到小的顺序抽取语句。
为了控制不同音节的出现频率分布相对平均,还可以对每个音节设置一个软上限。在利用某音节对应的倒排索引表抽取语句的条数达到软上限后,该倒排索引表失效,即不再利用该倒排索引表进行语句抽取。每个音节的软上限可以与频率相关。比如,先统计所有文本中每个音节频率,2个音节p1和p2的软上线的比例可以是它们的频率比例Tp1:Tp2,也可以是频率的对数的比值,即log(Tp1):log(Tp2)。在另一个实施例中,软上限可以根据语句集合中每个字节平均出现次数而定。例如,软上限可以是平均出现次数的2到3倍。如,假设语句集合有10000条语句,每个语句有15个字,则总共150000字,假设总共有100个音节,则每个音节平均出现1500次,则所有音节的软上限可以是1500的2到3倍。如,利用每个音节所对应的倒排索引表最多抽取3000条语句,则该倒排索引表则失效,不再考虑该音节所对应的堆。
由上述实施例可知,利用本说明书实施例,通过不同的数据源,可以增加更多的语法结构、语句形式,通过倒排索引,可以抽取音节分布更好的语句,不同的音节达到一定的出现频率,从而减少录音文本的数量,进而极大的减少录音成本。
以上实施方式中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述,因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。
以下以一个应用实例进行示例说明。
如图2所示,是本说明书根据一示例性实施例示出的一种录音文本生成方法的应用实例图。在该实施例中,可以获取百科摘要和新闻文本构建原始文本语料。使用分句方法从原始文本语料中抽取出句子,然后计算每个句子的语句权重值,构成文本库,又可称为语句集合。例如,针对语句“这就是光速极限的道理”,语句权重值为0.67。针对语句“元宵节是春节之后的第一个重要节日”,语句权重值为0.83。基于语句集合,得到每个音节所在句子的倒排索引表。倒排索引表可以是音节与句子序号的映射表。例如,音节“an”所在句子的句子序号可以是:18,823,745,209……又如,音节“yi”所在句子的句子序号可以是:9081,7,13……。在针对所有音节构建倒排索引表后,可以通过音节所在句子的索引,得到最终的录音文本。例如,可以将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,例如“元宵节是春节之后的第一个重要节日”等。
与前述录音文本生成方法的实施例相对应,本说明书还提供了录音文本生成装置及其所应用的电子设备的实施例。
本说明书录音文本生成装置的实施例可以应用在计算机设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书录音文本生成装置所在计算机设备的一种硬件结构图,除了图3所示的处理器310、网络接口320、内存330、以及非易失性存储器340之外,实施例中录音文本生成装置331所在的计算机设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图4所示,是本说明书根据一示例性实施例示出的一种录音文本生成装置的框图,所述装置包括:
文本获取模块42,用于从数据源中获取备选录音文本;
集合构成模块44,用于根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
索引表建立模块46,用于针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
语句抽取模块48,用于将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
在一个实施例中,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。
在一个实施例中,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;
和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。
在一个实施例中,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。
在一个实施例中,所述集合构成模块,具体用于:
从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:
其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。
在一个实施例中,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。
在一个实施例中,所述语句抽取模块,具体用于:
针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;
在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
从数据源中获取备选录音文本;
根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:
从数据源中获取备选录音文本;
根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (15)

1.一种录音文本生成方法,所述方法包括:
从数据源中获取备选录音文本;
根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
2.根据权利要求1所述的方法,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。
3.根据权利要求2所述的方法,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;
和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。
4.根据权利要求1所述的方法,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。
5.根据权利要求4所述的方法,所述根据备选录音文本中语句的相关信息确定语句权重值,包括:
从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:
其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。
6.根据权利要求1至5任一项所述的方法,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。
7.根据权利要求6所述的方法,所述将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本,包括:
针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;
在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。
8.一种录音文本生成装置,所述装置包括:
文本获取模块,用于从数据源中获取备选录音文本;
集合构成模块,用于根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
索引表建立模块,用于针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
语句抽取模块,用于将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
9.根据权利要求8所述的装置,所述数据源包括新闻语料库和网络百科库,所述备选录音文本包括新闻文本和百科词条的摘要。
10.根据权利要求9所述的装置,来源于新闻语料库的不同语句,语句来源的重要性参数为同一预设值;
和/或,来源于网络百科库的语句,语句来源的重要性参数基于语句所属百科页面的重要性而确定。
11.根据权利要求8所述的装置,所述语句中不同音节的分布信息包括:所述语句中音节的音节权重值、以及所述语句中双音节的双音节权重值;所述音节权重值与语句中音节在所述语句集合中的出现频率呈反相关关系;所述双音节基于所述语句中相邻音节组成,所述双音节权重值与语句中双音节在所述语句集合中的出现频率呈反相关关系。
12.根据权利要求11所述的装置,所述集合构成模块,具体用于:
从所述备选录音文本中抽取语句,并采用以下公式计算语句权重值:
其中,Si表示第i条语句,Score(Si)表示语句Si的语句权重值,Bis(Si)表示语句Si来源的重要性参数,hi_j表示语句Si中第j个音节的音节权重值,sum(hi_j)表示语句Si中音节权重值的总和,hi_j(j+1)表示语句Si中由相邻音节j和j+1所构成双音节的双音节权重值,sum(hi_j(j+1))表示语句Si中双音节权重值的总和,len(Si)表示语句Si中不同音节的个数。
13.根据权利要求8至12任一项所述的装置,所述倒排索引表包括音节与音节所在目标语句的语句标识的映射关系,所述目标语句属于:含有所述音节、且语句权重值排名靠前的预设条数的语句;所述倒排索引表中语句标识按语句权重值的大小进行排序。
14.根据权利要求13所述的装置,所述语句抽取模块,具体用于:
针对每个音节执行语句抽取操作,包括:利用音节对应的倒排索引表,按倒排索引表中语句标识的顺序,从所述语句集合中抽取预设数量的包含该音节的语句;
在对所有音节执行完所述语句抽取操作后,若所抽取的语句总数小于目标录音文本期望的语句数量阈值,则以语句权重值作为抽取条件,利用音节对应的倒排索引表,从语句集合的剩余语句中抽取语句,构成目标录音文本。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如下方法:
从数据源中获取备选录音文本;
根据备选录音文本中语句的相关信息确定语句权重值,构成具有语句权重值的语句集合,所述相关信息包括语句长度、语句来源的重要性参数、以及语句中不同音节的分布信息中的一种或多种;
针对每个音节,建立用于从语句集合中索引该音节所在语句的倒排索引表;
将期望包含的音节以及语句权重值作为抽取条件,结合所有音节对应的倒排索引表,从所述语句集合中抽取语句,构成目标录音文本。
CN201810866675.2A 2018-08-01 2018-08-01 录音文本生成方法、装置及设备 Active CN109344221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810866675.2A CN109344221B (zh) 2018-08-01 2018-08-01 录音文本生成方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810866675.2A CN109344221B (zh) 2018-08-01 2018-08-01 录音文本生成方法、装置及设备

Publications (2)

Publication Number Publication Date
CN109344221A true CN109344221A (zh) 2019-02-15
CN109344221B CN109344221B (zh) 2021-11-23

Family

ID=65291443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810866675.2A Active CN109344221B (zh) 2018-08-01 2018-08-01 录音文本生成方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109344221B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276070A (zh) * 2019-05-22 2019-09-24 广州多益网络股份有限公司 一种语料处理方法、装置及存储介质
CN117521628A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064103A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
CN101558442A (zh) * 2006-12-05 2009-10-14 摩托罗拉公司 使用语音识别的内容选择
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
US20150120303A1 (en) * 2013-10-25 2015-04-30 Kabushiki Kaisha Toshiba Sentence set generating device, sentence set generating method, and computer program product
CN107204184A (zh) * 2017-05-10 2017-09-26 平安科技(深圳)有限公司 语音识别方法及系统
CN107680585A (zh) * 2017-08-23 2018-02-09 海信集团有限公司 一种中文分词方法、中文分词装置和终端
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064103A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
CN101558442A (zh) * 2006-12-05 2009-10-14 摩托罗拉公司 使用语音识别的内容选择
CN102970618A (zh) * 2012-11-26 2013-03-13 河海大学 基于音节识别的视频点播方法
US20150120303A1 (en) * 2013-10-25 2015-04-30 Kabushiki Kaisha Toshiba Sentence set generating device, sentence set generating method, and computer program product
CN107204184A (zh) * 2017-05-10 2017-09-26 平安科技(深圳)有限公司 语音识别方法及系统
CN107680585A (zh) * 2017-08-23 2018-02-09 海信集团有限公司 一种中文分词方法、中文分词装置和终端
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIN-SONG ZHANG ET. AL: "An Improved Greedy Search Algorithm for the Development of a Phonetically Rich Speech Corpus", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》 *
沈亚敏 等: "面向语音转换的汉语语料自动选取算法", 《计算机工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276070A (zh) * 2019-05-22 2019-09-24 广州多益网络股份有限公司 一种语料处理方法、装置及存储介质
CN110276070B (zh) * 2019-05-22 2023-04-07 广州多益网络股份有限公司 一种语料处理方法、装置及存储介质
CN117521628A (zh) * 2023-11-20 2024-02-06 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片
CN117521628B (zh) * 2023-11-20 2024-05-28 中诚华隆计算机技术有限公司 基于人工智能的剧本创作方法、装置、设备及芯片

Also Published As

Publication number Publication date
CN109344221B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
Brown et al. Sound correspondences in the world's languages
CN107944027A (zh) 创建语义键索引的方法及系统
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
EP4235485A1 (en) Method for converting text data into acoustic feature, electronic device, and storage medium
US11645474B2 (en) Computer-implemented method for text conversion, computer device, and non-transitory computer readable storage medium
Chittaragi et al. Automatic dialect identification system for Kannada language using single and ensemble SVM algorithms
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
CN109344221A (zh) 录音文本生成方法、装置及设备
CN1956057B (zh) 一种基于决策树的语音时长预测装置及方法
CN115796653A (zh) 一种面试发言评价方法及系统
CN113836894B (zh) 多维度英语作文评分方法、装置及可读存储介质
Tong et al. Multi-Task Learning for Mispronunciation Detection on Singapore Children's Mandarin Speech.
El Haddad et al. An HMM approach for synthesizing amused speech with a controllable intensity of smile
CN115116428A (zh) 韵律边界标注方法、装置、设备、介质及程序产品
Gutkin et al. FonBund: A library for combining cross-lingual phonological segment data
Ditewig et al. Regional variation in the pronunciation of/s/in the Dutch language area
Huang et al. Prosody-TTS: Improving Prosody with Masked Autoencoder and Conditional Diffusion Model For Expressive Text-to-Speech
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
Oyebola et al. A sociophonetic study on TH variation in Educated Nigerian English
JP5337705B2 (ja) 中国語バナーの生成
CN111681680B (zh) 视频识别物体获取音频方法、系统、装置及可读存储介质
CN111681676B (zh) 视频物体识别构建音频方法、系统、装置及可读存储介质
Akkharasena Production of Bangkok Thai tones by native speakers of Burmese and Urdu
Praveen et al. Phoneme based Kannada Speech Corpus for Automatic Speech Recognition System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant