CN106575502B

CN106575502B - 用于在合成语音中提供非词汇线索的系统和方法

Info

Publication number: CN106575502B
Application number: CN201580045620.XA
Authority: CN
Inventors: J.M.克里斯蒂安; P.格拉夫; C.A.纳卡楚; B.A.霍基
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-09-26
Filing date: 2015-08-28
Publication date: 2021-03-30
Anticipated expiration: 2035-08-28
Also published as: US10026393B2; US9542929B2; WO2016048582A1; US20200243065A1; US20220319492A1; US20240127789A1; US11398217B2; US20200243064A1; US20190115007A1; EP3198590A4; US10679606B2; CN106575502A; US11404043B2; US11848001B2; US20170256252A1; US20160093285A1; EP3198590A1

Abstract

公开了用于在合成语音中提供非词汇线索的系统和方法。分析原始文本以确定文本的特性和/或导出或增强意图（例如，意图代码）。基于文本的特性和/或意图来确定非词汇线索插入点。在插入点处插入一个或多个非词汇线索以生成增强文本。将增强文本合成为语音，包括将非词汇线索转换为语音输出。

Description

用于在合成语音中提供非词汇线索的系统和方法

技术领域

本文的实施例一般涉及语音合成，并且更具体地涉及在文本到语音输出中提供非词汇线索。

背景技术

自然语言接口一般在计算设备中并且特别是在诸如智能电话、平板计算机和膝上型计算机的移动计算设备中变得平常。当前的自然语言接口通常合成听起来是人工的语音，因为合成语音不包括自然语言的非词汇表达特征。

附图说明

图1是根据一个实施例的用于在文本到语音输出中提供非词汇线索的系统的示意图。

图2是根据一个实施例的用于在文本到语音输出中提供非词汇线索的系统的非词汇线索插入引擎的示意图。

图3是根据一个实施例的用于在文本到语音输出中提供非词汇线索的方法的流程图。

具体实施方式

自然语言接口当前一般可在各种计算设备上并且特别是在诸如智能电话、平板计算机和膝上型计算机的移动计算设备中可用。这些自然语言接口当前提供主要是或者甚至纯粹是词汇（即，语言的单词或词的词汇或者与之相关的词汇）的并且经常听起来是机械的和/或人工的输出语音。由当前可用的自然语言接口输出的合成语音的机械和/或人工声音的一个原因是合成语音没有并入在人的语音中通常常见的非词汇表达特征。非词汇线索包括可以在原本（otherwise）的词汇语音中插入或改变的诸如韵律（prosody）或音高（pitch）的任何噪声或超词汇（supra-lexical）特征。通常省略的非词汇特征包括但不限于非言语（verbal）的不流畅性（例如，um、oh、uh）、短语重音（"No, not a rat. I saw a CAT comethrough the window." （“不，不是老鼠。我看到猫经过窗口”））、语调、延长（例如，"thatis waaaay too long" （“那太太太太长了”））、呼吸噪声（例如叹息）、音韵手势（phonological gesture）（例如，pfff、tsss）等。

本发明人已经认识到，将非词汇线索并入文本到语音（TTS）系统中可以使其输出声音更像是真人。此外，并入非词汇线索可以将附加的含义注入到输出，并且改善听者理解该输出的能力。并入非词汇线索可以传达可能不以其他方式传达的意欲含义。

所公开的实施例将非词汇线索并入TTS技术中，以使合成语音输出声音更像是真人。所公开的实施例包括可以使用算法技术来确定在TTS系统的输出信号中哪些非词汇线索应当出现在何处的系统和方法。

图1是根据一个实施例的用于在TTS输出中提供非词汇线索的系统100的示意图。系统100可以包括处理器102、存储器104、音频输出106、输入设备108和网络接口140。处理器102可以专用于系统100，或者可以并入到另一个系统（例如，自然语言接口）或诸如台式计算机或移动计算设备（例如，膝上型计算机、平板计算机、智能电话等）的计算设备中和/或从另一个系统（例如，自然语言接口）或诸如台式计算机或移动计算设备（例如，膝上型计算机、平板计算机、智能电话等）的计算设备借用。存储器104可以耦合到处理器102或者可以其他方式由处理器102访问。存储器104可以包括和/或存储协议、模块、工具、数据等。音频输出106可以是扬声器或者是用于向另一个系统传输包括音频输出的信号的输出端口。如图所示，输入设备108可以是麦克风。在其他实施例中，输入设备108可以是键盘或其他输入外设（例如，鼠标、扫描仪）。在其他实施例中，输入设备108可以简单地是被配置为接收传输文本的输入信号的输入端口。输入设备108可以包括或耦合到网络接口140以从计算机网络接收文本数据。

系统100可以包括语音到文本系统110（例如，自动语音识别（ASR）系统），以接收输入音频波形并将输入语音的音频波形转换为输入文本。该输入文本可以由系统100和/或另一系统处理以基于语音到文本输出（即，输入文本）处理命令和/或执行操作。

系统100还可以包括意图分析器112，所述意图分析器112被配置为使用机器学习技术来标识和学习行为、语音、交互等的模式，其可以用于导出用户输入意图，诸如输入语音的意欲含义。意图可以包括除了叙述的词语之外（或未包括在其中）的所传达的任何含义。导出的用户输入意图可以是用户输入的意欲含义（用户想要传达的消息）。

例如，用户输入（例如，输入语音、输入文本）可以是“Man, it's cold in here”（“伙计，这里很冷”）以礼貌地请求系统关小A/C。将把输入语音转换为文本。实际的用户输入文本是“Man, it's cold in here”（“伙计，这里很冷”）并且意图可以是“POLITE: Turndown the A/C”（“有礼貌的：关小A/C”）。该意图也可以被确定为“SARCASTIC: Turn downthe A/C”（“讥讽：关小A/C”）。可以基于行为、语音、交互等的模式来从用户输入推断意图。

可以将用户输入意图表示为文本意图短语或句子。在其他实施例中，可以将导出的用户输入意图表示为输入意图代码。可以利用输入文本将用户输入意图例如提供给对话系统120，并且用户输入意图可以用于确定输出语音，并且具体地用于确定要包括在合成输出语音中的非词汇线索。在一些实例中，可以将用户输入意图存储在用户简档中，例如存储在数据库中。

系统100还可以包括被配置为基于用户输入（例如，输入语音、输入文本）执行命令的命令执行引擎114。命令执行引擎114例如可以启动另一应用（例如，电子邮件客户端、地图应用、SMS文本客户端、浏览器等）、与其他系统和/或系统部件交互、经由网络接口140查询网络（例如，因特网）等。

网络接口140可以将系统100耦合到诸如因特网的计算机网络。在一个实施例中，网络接口140可以是专用网络接口卡。网络接口140可以专用于系统100，或者可以并入到另一个系统（例如，自然语言接口）或诸如台式计算机或移动计算设备（例如，膝上型计算机、平板计算机、智能电话等）的计算设备中和/或从另一个系统（例如，自然语言接口）或诸如台式计算机或移动计算设备（例如，膝上型计算机、平板计算机、智能电话等）的计算设备借用。

系统100可以包括对话系统120，以生成对用户输入（例如，输入语音、输入文本）的可听响应。对话系统120还可以包括前述部件中的一个或多个，包括但不限于语音到文本系统110、意图分析器112、命令执行引擎114等。在图1所示的实施例中，用户自适应对话系统120可以包括文本规格化器122、输入分析器124、响应引擎125、非词汇线索插入引擎130、语音合成器126和/或数据库128。

对话系统120提供生成包括非词汇线索以听起来更像真人和/或提供附加的含义的输出语音的自然语言界面（NLI）。对话系统120可以确定对用户输入的适当响应，包括原始文本形式的适当输出语音。可以基于用户输入、用户输入意图、用户简档和/或设备简档来确定适当的输出语音。对话系统120可以确定输出语音的意图（例如，除了叙述的词语之外（或者不包括在叙述的词语中）的还要被传达的含义）。对话系统120可以为此确定非词汇线索和插入点以便增强或加强输出语音以传达该意图。换言之，对话系统120可以用可以被合成为输出语音的非词汇线索来增强输出语音原始文本。在对于在对话系统120处接收的实际输入文本不包括用户输入意图的情况下，对话系统120可以导出初始意图，所述初始意图例如与设备相关联、与设备的给定用户相关联、和/或与设备的用户的给定用户简档相关联。

系统100并且具体地是对话系统120可以包括文本规格化器122，其可以被配置为规格化或者以其他方式预处理文本。例如，系统100可以接收可以包括符号或其他非单词分量（例如，数字、标点符号、缩写等）的原始文本。文本规格化器122可以对这个原始文本进行预处理以将符号转换为写出来的单词以及以其他方式处理符号。

系统100并且具体地是对话系统120可以包括输入分析器124以分析由对话系统120接收的输入文本。输入文本可以是原始文本，或者可以是已经被规格化的原始文本。输入分析器124可以标识输入文本的特性和/或特征。所标识的特性和/或特征可以用于导出或增强用户输入意图。在一些实施例中，意图分析器112与输入分析器124集成。在一些实施例中，输入分析器124可以确定对用户输入的适当响应。在一些实施例中，命令执行引擎114可以与输入分析器124集成。

系统100并且具体地是对话系统120可以包括响应引擎125以分析由对话系统120接收的输入文本并生成响应。响应引擎125可以从输入文本并且如果有的话从可以与输入文本一起包括的意图导出含义，并且确定适当的响应文本（例如，原始响应文本或者就只是原始文本）。响应文本可以被认为是可以被合成为输出语音的原始文本。更具体地，响应文本表示可以用非词汇线索增加为被合成为输出语音的增强文本的响应。响应引擎125可以基于由对话系统120接收的用户输入和用户输入意图，从多个潜在响应中选择响应文本。在一些实例中，可以不将用户输入意图与输入文本一起提供给对话系统，在这种情况下，用户输入意图可以例如由输入分析器124从由输入分析器124和/或由响应引擎125标识的特性和/或特征导出。在一些实施例中，意图分析器112与响应引擎125集成。在一些实施例中，命令执行引擎114可以与响应引擎125集成。

系统100并且具体地是对话系统120可以包括非词汇线索插入引擎130。非词汇线索插入引擎130可以接收原始文本（例如，响应文本）并确定原始文本的意图。非词汇线索插入引擎130可以使用意图来确定非词汇线索的插入点和/或可以确定在原始文本内的插入点处插入哪个非词汇线索以生成有助于传达原始文本的意图的增强文本。换言之，意图可以使非词汇插入引擎130能够标识要用寄生（parasitic）非词汇线索进行增强的单词和/或单词部分和/或标识单词之间的位置以插入类似单词的非词汇线索。

作为示例，考虑包括不确定性（即，不由单词独自传递的原始文本的意欲含义可以包括不确定性）或低置信度水平的意图。在标识非词汇线索的插入点中可以使用包括不确定性的意图。原始文本中的短语“fluffy bowling ball”（“毛茸茸的保龄球”）可能伴随有包括不确定性的意图（例如，“bowling ball”（“保龄球”）真的跟在“fluffy”（“毛茸茸的”）后面

）。文本分析器124可以确定插入传达不确定性（或低置信度）的非词汇线索。因此，原始文本序列“this is a fluffy bowling ball”（“这是毛茸茸的保龄球”）可以用一个或多个非词汇线索来增强，诸如“this is a fluffy UM bowLING baLL”（“这是毛茸茸的UM保龄球”）。在增强的文本中不流畅性“UM”和“bowling”（“保龄”）和“ball”（“球”）结尾处的上升语调可以传达不确定性。当将这些非词汇线索合成到输出语音中时，它们传达可以帮助听者理解合成语音的附加含义。非词汇线索当被合成到输出语音中时可以传达该意图，即不确定性。

如前述示例所示，非词汇线索可以是类似单词的，因为它以与原始文本的已经存在的词汇分量相区分的方式被插入。类似单词的非词汇线索的示例可以是非言语不流畅性，诸如“um”、“oh”、“uh”等。作为另一示例，类似单词的非词汇线索可以是呼吸噪声、诸如叹息。作为又一示例，类似单词的非词汇线索可以是音韵手势，诸如“pfff”、“tsss”等。

其他非词汇线索可以寄生在原始文本内的单词的至少一部分上。在前述示例中，在“this is a fluffy UM bowLING baLL”（“这是毛茸茸的UM保龄球”）中的“bowling ”（“保龄”）和“ball”（“球”）的结尾处的上升语调是寄生的非词汇线索（即，寄生在“bowling”（“保龄”）和“ball”（“球”）的部分上）。作为另一示例，寄生的非词汇线索可以是短语重音，诸如在下面的文本串：“No, not a rat. I saw a CAT come through the window”（“不，不是老鼠。我看到猫经过窗口”）中的单词“cat”（“猫”）上的重音。作为另一示例，寄生的非词汇线索可以是语调，诸如“John is French!”（“约翰是法国人！”）相比于“John isFrench

”（“约翰是法国人

”）。作为又一示例，寄生非词汇线索可以是延长单词，诸如在短语“that is waaaay too long”（“那太太太太长了”）中延长单词。

为了在确定意图、插入点和非词汇线索中帮助非词汇线索插入引擎130，可以与用户输入文本一起传送用户输入意图。用户输入意图可以由非词汇线索插入引擎130使用以确定意图（例如，输出意图）、插入点和/或适当的非词汇线索。

非词汇线索插入引擎130还可以将一个或多个非词汇线索插入到原始文本中以生成增强文本。在一个实施例中，非词汇线索插入引擎130可以向原始文本添加标签，诸如标记语言的标签。标签可以是语音合成器可识别的，以指示应当将哪个非词汇线索包括在合成语音中。在另一实施例中，非词汇线索插入引擎130可以简单地将附加文本添加到原始文本、和/或更改或改变原始文本以生成增强文本。图2中描绘了非词汇线索插入引擎的实施例，下面参考图2对其进行更详细的描述。

系统100并且具体地是对话系统120可以包括语音合成器126。语音合成器126可以从增强文本合成语音。语音合成器126可以包括被配置为将书写的文本转换为人工人类语音的任何适当的语音合成技术。语音合成器126可以通过将存储在数据库128中的已记录语音的片段串接（concatenate）起来以生成合成语音。语音合成器126可以检索或以其他方式访问存储在数据库128中的语音单元的已存储记录——完整的单词和/或单词部分，诸如音素（phones）或双音素（diphones）并将记录串接在一起以生成合成语音。语音合成器126被配置为将包括非词汇线索的增强文本转换为合成语音。换言之，语音合成器126被配置为识别插入的非词汇线索，并检索适当的语音单元以将非词汇线索转换为输出语音。

在一个实施例中，语音合成器126可以被配置为识别已经被添加以生成增强文本的标签和/或解析标签以确定要检索的语音单元来串接成输出合成语音。插入的标签可以包括标记语言标签，并且可以指定非词汇线索、其类型（即，寄生的或类似单词的）和/或其位置。在另一实施例中，语音合成器126可以被配置为识别和/或解析被添加以生成增强文本的附加和/或更改的文本以确定要检索的语音单元来串接成输出合成语音。

图2是根据一个实施例的用于在TTS输出中提供非词汇线索的系统的非词汇线索插入引擎200的示意图。可以将图2的非词汇线索插入引擎200包括在诸如图1的系统100之类的系统中。图2的非词汇线索插入引擎200包括意图分析器202、插入点分析器204和线索插入引擎206。

意图分析器202可以被配置为导出由非词汇线索插入引擎200接收的原始文本的意图。意图分析器202可以分析原始文本以确定原始文本的特性，或者以其他方式接收原始文本的特性，以及使用特性来导出表示要与原始文本一起传达的意欲含义（例如，可能潜在地由非词汇线索传达的含义）的意图。这些特性可以包括固有特性，诸如文本的一般感受（例如，快乐、悲伤、关注、放松、缓解的积极、消极等）、文本正在传达的内容的准确性的置信度水平以及文本的其他固有方面。在一些实施例中，意图分析器202可以从例如输入分析器124（图1）接收原始文本的特性以导出意图。在其他实施例中，意图分析器202可以接收可以表示原始文本的特性的意图。

意图分析器202可以从原始文本的特性和/或特征、过去的用户动作、用户简档、设备简档、或可以从其获得和/或比较和/或对比的模式、概率（例如，句法概率）等的其他数据源导出意图（或者在一些实例中增强接收的意图）。意图可以体现和/或表示文本的一个或多个特性。

意图可以指示原始文本的类别，诸如句子的力量（force）（例如陈述、命令、问题）、讥讽、讽刺、强调、焦点、礼貌、不确定性、感受、容易理解等。

作为导出意图的示例，意图分析器202可以从包括在原始文本中的单词导出或以其他方式断定一般感受。给定单词可能已经在数据库128中结合它存储了感受指示符。例如，诸如“excite”（“兴奋”），“fun”（“有趣”）或“great”（“很棒”）之类的词语可以与积极感受的相关联指示符一起存储在数据库中。同样的这些单词也可以与其他指示符相关联地进行存储，其他指示符诸如是快乐感受的指示符、激动感受的指示符等。多个感受指示符可以与单个单词相关联。意图分析器202可以在导出意图中考虑一个或多个感受指示符。

意图分析器202还可以导出或以其他方式断定原始文本正在传达的内容的准确性的置信度水平。可以从分析单词的组合并确定一个或多个概率（例如，句法概率）来导出置信度水平。可以使用概率模型来确定单词概率。可以分析两个或更多个单词的序列，并且可以确定序列中的给定单词出现在具有其他单词的序列中的概率。例如，在序列“this is afluffy bowling ball”（“这是毛茸茸的保龄球”）中，在“fluffy”（“毛茸茸的”）之后出现“bowling”（“保龄”）和“ball”（“球”）的单词概率可能相对低。相比之下，在序列“this is afluffy cat”（“这是毛茸茸的猫”）中，在“fluffy”（“毛茸茸的”）之后出现“cat”（“猫”）的单词概率可能相对高。单词概率可以提供置信度水平，所述置信度水平可以用于导出意图。可以确定其他概率以导出置信度水平。示例包括句法模式概率、语言学模式概率、词序概率、词组概率、句子概率和句子序列概率。

置信度水平也可以从外部源导出。例如，因特网搜索可以用于搜索原始文本中的条目。搜索引擎可以产生可以用于导出意图指示符的置信度水平（例如，在搜索结果的质量中）。因特网搜索的搜索结果也可以用于获得置信度水平。例如，返回的搜索结果的数量可以提供置信度水平。作为另一示例，由搜索引擎提供的一个或多个个体结果的相对质量的指示可以提供置信度水平。

意图分析器202可以考虑过去的用户与原始文本的说话者的交互和/或原始文本的特性和/或特征，包括原始文本的一般感受和原始文本中的置信度水平中的一个或多个，以导出或增强意图。如果提供先前导出的意图或者先前导出的意图以其他方式可用，则可以由意图分析器202鉴于已更新信息而对该先前导出的意图进行考虑和增强（或修改）。当未提供先前意图时或在其他实施例中，意图分析器202可以简单地导出新意图（或初始意图）。

导出的意图可以是单词、短语、句子等。意图可以提供、指示或以其他方式表示可以与原始文本一起传达的原始文本的意欲含义（例如，诸如通过非词汇线索）。在一些实例中，意图可以与原始文本相似或甚至相同。在一些实例中，意图可以被表示为意图代码，该意图代码可以表示可能意欲传递但是并没有严格地通过原始文本中的单词来传递的含义。意图代码可以是被非词汇线索插入引擎200理解为表示原始文本的意图的数字、字母、符号、单词、短语、句子等。意图代码可以表示从向NLI（例如，NLI的语音到文本系统）提供输入的说话者的过去的用户交互导出的意欲含义。例如，可以随着时间导出和/或增强意图代码以识别短的、简练的原始文本实际上可能意欲提供更全面、更丰富、更完整的响应。

插入点分析器204可以确定原始文本内的非词汇线索的插入点以生成增强文本。由意图分析器202导出的意图可以由非词汇线索插入引擎130使用来确定插入点。

作为示例，意图代码中的句法概率可以用来确定非词汇线索的插入点。在句法概率低的实例中，不确定性的更大可能性可以是固有的，并且可以将非词汇线索添加到输出语音以传达附加的含义，诸如不确定性。相比之下，更高的句法概率可以指示更高的置信度、更大的断信性（assertiveness）等。句法概率可以用来确定传达置信度、断言性等的附加含义的非词汇线索插入点。

作为另一示例，意图代码中的置信度水平可以用于标识非词汇线索的插入点。如果单词序列的置信度水平低（例如，“fluffy bowling ball”（“毛茸茸的保龄球”）），则插入点分析器204可以确定一个或多个插入点，其中可以插入非词汇线索以传达期望的附加含义，诸如低信度。因此，在原始文本包括单词序列“this is a fluffy bowling ball”（“这是毛茸茸的保龄球”）的情况下，插入点分析器204可以确定非词汇线索（诸如，不流畅性）可以插入在“fluffy”（“毛茸茸的”）和“bowling”（“保龄”）之间。可以理解，可以标识多个插入点。插入点分析器204可以标识可能的非词汇线索插入点的集合，并且可以基于或利用意图代码来选择那些点的子集。如下面更全面地解释的，非词汇线索插入点可以在单词或单词部分之间或者在特定单词或单词部分处。

在其他实施例中，插入点分析器204还可以确定在每个被选择的非词汇线索插入点处将哪个（哪些）非词汇线索插入到原始文本中。

在图2的实施例中，线索插入引擎206可以确定在由插入点分析器204标识的每个被选择的非词汇线索插入点处将哪个（哪些）非词汇线索插入到原始文本中。线索插入引擎206可以使用意图来确定要在每个被选择的非词汇线索插入点处插入的适当线索。意图可以用来做出确定。意图可以使线索插入引擎206能够标识要在单词和/或单词部分之间的非词汇线索插入点处插入的类似单词的非词汇线索、以及能够标识要在单词和/或单词部分处（或上）的非词汇线索插入点处插入的寄生非词汇线索。根据用附加的意欲含义来增强由原始文本的单词所传达的含义的意图来选择一个或多个非词汇线索。例如，原始文本“thisis a fluffy bowling ball”（“这是毛茸茸的保龄球”）可以用一个或多个非词汇线索来增强，一个或多个非词汇线索诸如“this is a fluffy UM bowLING baLL”（“这是一个毛茸茸的UM保龄球”）。在增强的文本中的不流畅性“UM”和“bowling”（“保龄”）和“ball”（“球”）的结尾处的上升语调可以传达不确定性。不流畅性“UM”是可以被选择来填充暂停的类似单词的非词汇线索。在这种情况下，可以针对“fluffy”（“毛茸茸的”）和“bowling”（“保龄”）之间的插入点选择不流畅性“UM”，以传达关于文本中跟在“fluffy”（“毛茸茸的”）之后的单词的附加含义，即不确定性。类似地，上升语调，即在“bowling”（“保龄”）结尾处的“LING”和在“ball”（“球”）结尾处的“LL”是寄生的非词汇线索，其可以被选择来对单词和/或单词部分进行增强以传达质疑和/或不确定性。在这种情况下，选择这些上升语调以传达关于这些非词汇线索寄生的单词和/或单词部分的附加含义，即质疑或不确定性。

线索插入引擎206还可以将一个或多个非词汇线索插入到原始文本中以生成增强文本。在一个实施例中，线索插入引擎206可以向原始文本添加标签，诸如标记语言的标签。标签可以是语音合成器可识别的，以指示应当将哪个非词汇线索包括在合成语音中。在另一个实施例中，线索插入引擎206可以简单地将附加文本添加到原始文本、和/或更改或改变原始文本。线索插入引擎206以及因此非词汇线索插入引擎200将增强的文本提供给语音合成器，如上参考图1所述的那样。

图3是根据一个实施例的用于在TTS输出中提供非词汇线索的方法的流程图。接收302原始文本，并且可以对原始文本进行规格化304或以其他方式进行预处理。可以分析306原始文本或规格化文本（其中任一个可以被认为是原始文本）以断定文本的特性。分析306可以包括对附加上下文的考虑，诸如历史模式和先前接收的、增强的和合成的文本。特性可以用来导出308原始文本的意图。意图可以是意图代码，所述意图代码可以表示可能意欲传递的、但是没有严格地被原始文本中的单词所传递的原始文本的意欲含义。可以至少部分地基于特性来导出308意图（例如，意图代码）。特性可以包括一般感受、置信度水平和其他特性。还可以至少部分地基于先前的意图（或关于相同、相似和/或不同文本的较早导出的意图和/或意图代码）来导出意图。

可以确定310非词汇线索的插入点。意图和/或原始文本的特性可以帮助确定非词汇线索插入点。可以将非词汇线索插入312到原始文本中以生成增强文本。可以通过文本的附加来插入312非词汇线索。在一些实施例中，可以通过插入诸如标记语言的标签之类的标签来插入312非词汇线索，其可以在语音合成时诸如通过语音合成器识别和处理。

可以将增强文本合成314或转换以输出合成语音。可以使用语音合成器技术将增强的文本合成314为语音。语音合成器可以检索与单词和/或单词部分相对应的记录，并且将记录串接在一起以产生合成语音。可以从数据库检索记录。数据库可以包括对应于非词汇线索的记录，包括类似单词的非词汇线索和寄生非词汇线索。增强文本到语音的合成314包括识别插入的非词汇线索并将那些线索转换为合成语音。

示例

示例1.一种将文本转换为语音的计算机实现的方法，所述方法包括：在一个或多个计算设备上，分析原始文本以导出表示可以由非词汇线索传达的原始文本的意欲含义的意图；在所述一个或多个计算设备上，基于所导出的意图来确定所述原始文本中的非词汇线索的插入点；由所述一个或多个计算设备在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本；以及从所述增强文本合成语音。

示例2.根据示例1所述的方法，其中，导出所述意图包括使用概率模型来确定相对于所述原始文本中的单词序列的句法概率，其中所述意图包括所述句法概率，并且其中使用所述句法概率来确定所述非词汇线索的所述插入点。

示例3.根据示例1-2中任一项所述的方法，其中，所述句法概率包括句法模式的概率、语言学模式的概率、词序概率、词组概率、句子概率和句子序列概率中的一个或多个。

示例4.根据示例1-3中任一项所述的方法，其中,导出所述意图包括确定所述原始文本中的置信度水平，并且所述意图包括所述置信度水平，其中基于的置信度水平确定所述非词汇线索的插入点。

示例5.根据示例4所述的方法，其中，确定置信度水平包括：使用来自所述原始文本的一个或多个单词通过搜索引擎来执行因特网的搜索；以及使用来自所述原始文本的所述一个或多个单词来获得对于所述搜索的所述搜索引擎的置信度测量。

示例6.根据示例1-5中任一项所述的方法，其中，在所述插入点处插入的所述非词汇线索是类似单词的，因为以与所述原始文本的已经存在的词汇分量相区别的方式将其插入。

示例7.根据示例1-6中任一项所述的方法，其中，在所述插入点处插入的所述非词汇线索寄生在原始文本内的单词的至少一部分上。

示例8.根据示例1-7中任一项所述的方法，其中，在所述插入点处插入所述非词汇线索包括将标记语言的标签添加到所述原始文本，其中，所述标签对于所述语音合成器而言是可识别的以指示将要包括在所述合成语音中的所述非词汇线索。

示例9.根据示例1-8中任一项所述的方法，其中，在所述插入点处插入所述非词汇线索包括改变所述原始文本的一部分。

示例10.根据示例1至9中任一项所述的方法，其中，所述非词汇线索选自由如下组成的组中：非言语不流畅性、短语重音、语调、延长单词、呼吸噪声和音韵手势。

示例11.根据示例1-10中任一项所述的方法，其中，所述原始文本是已经被预处理以将符号转换为写出单词的规格化原始文本。

示例12.根据示例1-11中任一项所述的方法，其中，导出所述意图包括导出意图代码，所述意图代码可以表示可能意欲传递的、但是没有严格地被所述原始文本中的单词所传递的所述原始文本的意图含义。

示例13.根据示例12所述的方法，其中，所述意图代码包括数字、字母、符号、单词、短语和句子中的一个或多个。

示例14.根据示例1-13中任一项所述的方法，其中，所述意图与所述原始文本相区别并且与所述原始文本相同。

示例15.根据示例1-14中任一项所述的方法，其中，所述意图与所述原始文本相区别并且与所述原始文本相似。

示例16.一种包括用于实现根据示例1-15中任一项所述的方法的装置的系统。

示例17.一种将文本转换为语音的系统，所述系统包括：意图分析器，用于分析由系统接收的原始文本以导出表示要由非词汇线索传达的意欲含义的意图；非词汇线索插入引擎，用于基于所导出的意图来确定非词汇线索的插入点，并且用于在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本；以及用于从所述增强文本合成语音的语音合成器。

示例18.根据示例17所述的系统，其中所述意图分析器使用概率模型来导出所述意图，以确定所述原始文本内的词序列中的句法概率。

示例19.根据示例17-18中任一项所述的系统，其中，所述意图分析器通过确定所述原始文本中的置信度水平来导出所述意图。

示例20.根据示例19所述的系统，其中，确定置信度水平包括使用来自所述原始文本的一个或多个单词通过搜索引擎执行因特网的搜索，并获得所述搜索引擎的置信度测量。

示例21.根据示例17-20中任一项所述的系统，其中，所述非词汇线索插入引擎在所述插入点处插入类似单词的非词汇线索，因为它以与所述原始文本的已经存在的词汇分量相区别的方式被插入。

示例22.根据示例17-21中任一项所述的系统，其中，所述非词汇线索插入引擎在所述插入点处插入在所述原始文本内的单词的至少一部分上寄生的非词汇线索。

示例23.根据示例17-22中任一项所述的系统，其中，所述非词汇线索插入引擎通过将标记语言的标签添加到所述原始文本来在所述插入点处插入所述非词汇线索，其中所述标签对于所述语音合成器而言是可识别的以指示将要包括在所述合成语音中的非词汇线索。

示例24.根据示例17-23中任一项所述的系统，其中，所述非词汇线索插入引擎通过改变所述原始文本的一部分来在所述插入点处插入所述非词汇线索。

示例25.根据示例17-24所述的系统，还包括已记录音频片段的数据库，所述语音合成器可以使用所述已记录音频片段并将其串接在一起以合成语音，其中已记录音频片段的所述数据库包括非词汇线索的音频片段。

示例26.根据示例25所述的系统，其中，所述数据库中的非词汇线索的音频片段包括是所述数据库中的另一音频片段的变化形式的寄生词汇线索的至少一个音频片段，其中所述变化形式包括所述另一音频片段的至少一部分的短语重音、语调或延长中的一个或多个。

示例27.根据示例25所述的系统，其中，所述数据库中的非词汇线索的音频片段包括至少一个音频片段，其包括由以下组成的组中的一个：非言语不流畅性；呼吸噪声；和音韵手势。

示例28.根据示例17-27中任一项所述的系统，还包括文本规格化器，用于对由系统接收的原始文本执行文本规格化，以生成是规格化文本的原始文本，其中文本规格化包括将所述原始文本中的符号转换为所述原始文本中的写出单词。

示例29.根据示例17-28中任一项所述的系统，其中，所述意图分析器通过导出意图代码来导出意图，所述意图代码可以表示可能意欲传递的、但是没有严格地被原始文本中的单词所传递的原始文本的意欲含义。

示例30.根据示例29所述的系统，其中，所述意图代码包括数字、字母、符号、单词、短语和句子中的一个或多个。

示例31.根据示例17-30中任一项所述的系统，其中，所述意图与所述原始文本相区别并且与所述原始文本相同。

示例32.根据示例17-31中任一项所述的系统，其中，所述意图与所述原始文本相区别并且与所述原始文本相似。

示例33.一种具有其上存储的指令的计算机可读存储介质，所述指令在由处理器执行时使得所述处理器执行操作，所述操作包括：分析原始文本以导出表示由一个或多个非词汇线索传达的意欲含义的意图；基于所导出的意图来确定非词汇线索的插入点；在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本；以及从所述增强文本合成语音。

示例34.根据示例33所述的计算机可读存储介质，其中，导出意图包括使用概率模型来确定相对于所述原始文本中的单词序列的句法概率，其中所述意图包括所述句法概率，并且其中使用所述句法概率来确定所述非词汇线索的插入点。

示例35.根据示例33-34中任一项所述的计算机可读存储介质，其中，所述句法概率包括句法模式、语言学模式的概率、词序概率、词组概率、句子概率和句子序列概率中的一个或多个。

示例36.如示例33-35中任一项所述的计算机可读存储介质，其中，导出意图包括确定所述原始文本中的置信度水平，其中所述意图包括所述置信度水平。

示例37.根据示例36所述的计算机可读存储介质，其中确定置信度水平包括：使用来自所述原始文本的一个或多个单词通过搜索引擎执行因特网的搜索；以及使用来自所述原始文本的所述一个或多个单词来获得对于所述搜索的所述搜索引擎的置信度测量。

示例38.根据示例33-37中任一项所述的计算机可读存储介质，其中，在插入点处插入的非词汇线索是类似单词的，因为它以与所述原始文本的已经存在的词汇分量相区别的方式被插入。

示例39.根据示例33-38中任一项所述的计算机可读存储介质，其中，在所述插入点处插入的所述非词汇线索寄生在所述原始文本内的单词的至少一部分上。

示例40.根据示例33-39中任一项所述的计算机可读存储介质，其中，在所述插入点处插入所述非词汇线索包括将标记语言的标签添加到所述原始文本，其中所述标签对于所述语音合成器而言是可识别的以指示将要包括在所述合成语音中的非词汇线索。

示例41.根据示例33-40中任一项所述的计算机可读存储介质，其中，在所述插入点处插入所述非词汇线索包括改变所述原始文本的一部分。

示例42.根据示例33-41中任一项所述的计算机可读存储介质，其中，所述非词汇线索选自由以下组成的组中：非言语不流畅性、短语重音、语调、延长单词、呼吸噪声和音韵手势。

示例43.根据示例33-42中任一项所述的计算机可读存储介质，其中，导出所述意图包括导出意图代码，所述意图代码可以表示可能意欲传递的、但是没有严格地被原始文本中的单词所传递的原始文本的意欲含义。

示例44.根据示例43所述的计算机可读存储介质，其中所述意图代码包括数字、字母、符号、单词、短语和句子中的一个或多个。

示例45.根据示例33-44中任一项的计算机可读存储介质，其中，所述意图与所述原始文本相区别并且与所述原始文本相同。

示例46.根据示例33-45中任一项所述的计算机可读存储介质，其中，所述意图与所述原始文本相区别并且与所述原始文本相似。

示例47.一种将文本转换为语音的系统，所述系统包括：用于分析由所述系统接收的原始文本以导出表示由非词汇线索传达的意欲含义的意图的装置；用于基于所导出的意图来确定非词汇线索的插入点并且在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本的装置；以及用于从所述增强文本合成语音的装置。

示例48.根据示例47所述的系统，其中所述分析装置使用概率模型来导出所述意图，以确定所述原始文本内的单词序列中的句法概率。

以上描述提供了用于透彻理解本文所描述的实施例的许多具体细节。然而，本领域技术人员将认识到：可以省略具体细节中的一个或多个，或者可以使用其他方法、部件或材料。在一些情况下，未详细示出或描述公知的特征、结构或操作。

此外，在一个或多个实施例中，可以以各种各样的不同配置来布置和设计和/或以任何合适的方式组合所描述的特征、操作或特性。因此，系统和方法的实施例的详细描述并不旨在限制所要求保护的本公开的范围，而是仅表示本公开的可能实施例。另外，还将容易地理解，正如对于本领域技术人员而言清楚的是：结合所公开的实施例描述的方法的步骤或动作的顺序可以改变。因此，附图或具体实施方式中的任何顺序仅用于说明目的，并且不意味着暗示所需的顺序——除非规定要求顺序。

实施例可以包括可以在由通用或专用计算机（或其他电子设备）执行的机器可执行指令中具体化的各种步骤。可替代地，这些步骤可以由包括用于执行这些步骤的具体逻辑的硬件部件或者由硬件、软件和/或固件的组合来执行。

实施例还可以被提供为包括具有其上存储的指令的计算机可读存储介质的计算机程序产品，其可以用于对计算机（或其他电子设备）进行编程以执行本文所述的过程。计算机可读存储介质可以包括但不限于：硬盘驱动器、软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM，EEPROM、磁卡或光卡、固态存储器设备或适于存储电子指令的其他类型的介质/机器可读介质。

如本文所使用的，软件模块或部件可以包括位于存储器设备和/或计算机可读存储介质内的任何类型的计算机指令或计算机可执行代码。软件模块例如可以包括计算机指令的一个或多个物理或逻辑块，其可以被组织为执行一个或多个任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。

在某些实施例中，特定软件模块可以包括存储在存储器设备的不同位置中的完全不同的指令，它们一起实现模块的所描述的功能。实际上，模块可以包括单个指令或许多指令，并且可以分布在若干不同的代码段上、不同的程序之间、以及跨越若干存储器设备。一些实施例可以在分布式计算环境中实施，其中任务由通过通信网络链接的远程处理设备来执行。在分布式计算环境中，软件模块可以位于本地和/或远程存储存储设备中。另外，在数据库记录中被绑定或呈现在一起的数据可以驻留在相同的存储器设备中或跨越若干存储器设备，并且可以跨越网络在数据库中的记录的字段中链接在一起。

对于本领域技术人员明显的是，在不脱离本发明的基本原理的情况下，可以对上述实施例的细节进行许多改变。因此，本发明的范围应仅由以下权利要求书来确定。

Claims

1.一种将文本转换为语音的系统，所述系统包括：

意图分析器，用于分析由所述系统接收的原始文本以导出表示由非词汇线索传达的意欲含义的意图；

非词汇线索插入引擎，用于基于所导出的意图来确定非词汇线索的插入点并且用于在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本；以及

语音合成器，用于从所述增强文本合成语音，

其中，所述非词汇线索插入引擎在所述插入点处插入类似单词的非词汇线索，因为它以与所述原始文本的已经存在的词汇分量相区别的方式被插入，

其中，所述非词汇线索插入引擎在所述插入点处插入在所述原始文本内的单词的至少一部分上寄生的非词汇线索。

2.根据权利要求1所述的系统，其中，所述意图分析器使用概率模型来导出所述意图，以确定所述原始文本内的单词序列中的句法概率。

3.根据权利要求1所述的系统，其中，所述意图分析器通过确定所述原始文本中的置信度水平来导出所述意图。

4.根据权利要求3所述的系统，其中，确定置信度水平包括使用来自所述原始文本的一个或多个单词通过搜索引擎执行因特网的搜索并获得所述搜索引擎的置信度测量。

5.根据权利要求1所述的系统，其中，所述非词汇线索插入引擎通过将标记语言的标签添加到所述原始文本来在所述插入点处插入所述非词汇线索，其中所述标签对于所述语音合成器而言是可识别的以指示将要包括在合成语音中的非词汇线索。

6.根据权利要求1所述的系统，其中，所述非词汇线索插入引擎通过改变所述原始文本的一部分来在所述插入点处插入所述非词汇线索。

7.根据权利要求1所述的系统，还包括所述语音合成器可以使用并且串接在一起以合成语音的已记录音频片段的数据库，其中已记录音频片段的所述数据库包括非词汇线索的音频片段。

8.根据权利要求7所述的系统，其中，所述数据库中的非词汇线索的音频片段包括是所述数据库中的另一音频片段的变化形式的寄生词汇线索的至少一个音频片段，其中所述变化形式包括所述另一音频片段的至少一部分的短语重音、语调或延长中的一个或多个。

9.根据权利要求7所述的系统，其中，所述数据库中的非词汇线索的音频片段包括非言语不流畅性、呼吸噪声和音韵手势中的至少一个。

10.一种将文本转换为语音的计算机实现的方法，所述方法包括：

在一个或多个计算设备上，分析原始文本以导出表示可以由非词汇线索传达的原始文本的意欲含义的意图；

在所述一个或多个计算设备上，基于所导出的意图来确定所述原始文本中的非词汇线索的插入点；

由所述一个或多个计算设备在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本；以及

从所述增强文本合成语音，

其中，在所述插入点处插入的所述非词汇线索是类似单词的，因为它以与所述原始文本的已经存在的词汇分量相区别的方式被插入，

其中，在所述插入点处插入的所述非词汇线索寄生在所述原始文本内的单词的至少一部分上。

11.根据权利要求10所述的方法，其中，导出所述意图包括使用概率模型来确定相对于所述原始文本中的单词序列的句法概率，

其中，所述意图包括所述句法概率，并且其中使用所述句法概率来确定所述非词汇线索的所述插入点。

12.根据权利要求11所述的方法，其中，所述句法概率包括句法模式概率、语言学模式概率、词序概率、词组概率、句子概率和句子序列概率中的一个或多个。

13.根据权利要求10所述的方法，其中，导出所述意图包括确定所述原始文本中的置信度水平，并且所述意图包括所述置信度水平，

其中，基于所述置信度水平来确定所述非词汇线索的所述插入点。

14.根据权利要求13所述的方法，其中，确定置信度水平包括：

使用来自所述原始文本的一个或多个单词通过搜索引擎来执行因特网的搜索；和

使用来自所述原始文本的所述一个或多个单词来获得对于所述搜索的所述搜索引擎的置信度测量。

15.根据权利要求10所述的方法，其中，在所述插入点处插入所述非词汇线索包括将标记语言的标签添加到所述原始文本，其中所述标签是可识别的以指示将要包括在合成语音中的非词汇线索。

16.根据权利要求10所述的方法，其中，在所述插入点处插入所述非词汇线索包括改变所述原始文本的一部分。

17.根据权利要求10所述的方法，其中，所述非词汇线索选自由如下组成的组中：非言语不流畅性、短语重音、语调、延长单词、呼吸噪声和音韵手势。

18.一种具有其上存储的指令的机器可读存储介质，所述指令在由处理器执行时使得所述处理器执行根据权利要求10-17所述的方法。

19.一种将文本转换为语音的设备，所述设备包括：

用于在一个或多个计算设备上，分析原始文本以导出表示可以由非词汇线索传达的原始文本的意欲含义的意图的装置；

用于在所述一个或多个计算设备上，基于所导出的意图来确定所述原始文本中的非词汇线索的插入点的装置；

用于由所述一个或多个计算设备在所述原始文本内的所述插入点处插入非词汇线索以生成增强文本的装置；以及

用于从所述增强文本合成语音的装置，

20.根据权利要求19所述的设备，其中，用于导出所述意图的装置包括用于使用概率模型来确定相对于所述原始文本中的单词序列的句法概率的装置，

21.根据权利要求20所述的设备，其中，所述句法概率包括句法模式概率、语言学模式概率、词序概率、词组概率、句子概率和句子序列概率中的一个或多个。

22.根据权利要求19所述的设备，其中，用于导出所述意图的装置包括用于确定所述原始文本中的置信度水平的装置，并且所述意图包括所述置信度水平，

23.根据权利要求22所述的设备，其中，用于确定置信度水平的装置包括：

用于使用来自所述原始文本的一个或多个单词通过搜索引擎来执行因特网的搜索的装置；和

用于使用来自所述原始文本的所述一个或多个单词来获得对于所述搜索的所述搜索引擎的置信度测量的装置。

24.根据权利要求19所述的设备，其中，用于在所述插入点处插入所述非词汇线索的装置包括用于将标记语言的标签添加到所述原始文本的装置，其中所述标签是可识别的以指示将要包括在合成语音中的非词汇线索。

25.根据权利要求19所述的设备，其中，用于在所述插入点处插入所述非词汇线索的装置包括用于改变所述原始文本的一部分的装置。

26.根据权利要求19所述的设备，其中，所述非词汇线索选自由如下组成的组中：非言语不流畅性、短语重音、语调、延长单词、呼吸噪声和音韵手势。