CN1788305B

CN1788305B - 使用语义分析配置语音阅读器的系统和方法

Info

Publication number: CN1788305B
Application number: CN2004800128989A
Authority: CN
Inventors: 史蒂夫·E·阿特金; 贾纳尼·贾纳基拉曼; 戴维·B·库姆希尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-06-19
Filing date: 2004-06-11
Publication date: 2011-05-04
Anticipated expiration: 2024-06-11
Also published as: US20040260551A1; EP1636790B1; US20070276667A1; IL172518A0; EP1636790A1; DE602004008776T2; KR20060020632A; WO2004111997A1; DE602004008776D1; ATE372572T1; IL172518A; CN1788305A; KR100745443B1

Abstract

提供一种系统和方法，用于使用语义分析配置语音阅读器。文本文件包括多个文本块，如段落。处理对每个文本块执行语义分析，以便将文本块的语义内容和语义标识符匹配。一旦处理将语义标识符和文本块匹配，处理就检索对应于语义标识符的语音属性(即，音调值、音量值和语速值)，并且提供语音属性给语音阅读器。语音阅读器使用文本块产生合成的语音信号，该信号具有对应于语音属性的性质。文本块可以包括语义标记，由此处理对语义标记执行隐藏语义索引，以便将语义标识符和语义标记匹配。

Description

使用语义分析配置语音阅读器的系统和方法

技术领域

本发明通常涉及一种使用语义分析配置语音阅读器的系统和方法。更特别地，本发明涉及一种系统和方法，用于选择对应于文本块的语义内容的语音属性，并且使用该语音属性转换文本块为合成语音。

背景技术

语音阅读器用于转换文本文件为合成语音。可以从外部源，如web页面接收文本文件，或者可以从本地源，如致密盘接收文本文件。例如，视力受损的用户可以使用语音阅读器，该语音阅读器通过计算机网络(即，因特网)从服务器接收web页面，转换web页面文本为合成语音给用户听。在另一个例子中，小孩可以使用语音阅读器，该语音阅读器从致密盘检索儿童书文本文件，并且转换儿童书文本文件为合成语音给小孩听。

但是，随语音阅读器发现的挑战是：语音阅读器产生的讲话不是可动态配置的。例如，可以预先配置语音阅读器以使用女声低速阅读文本。在这个例子中，该预先配置语音在转换儿童书文本给儿童听时是合适的，但是当转换财经文章给成人听时可能不合适。

此外，语音阅读器不可配置来根据用户的兴趣转换文本文件的特定部分。例如，用户可能对包括在特定技术文档中的“概述”部分感兴趣。在这个例子中，语音阅读器使用为每个部分预先配置的语音属性转换文本文件，并且为每个部分产生合成语音，而不管该部分的内容。

发明内容

已经发现的是：通过对文本块执行语义分析，并且为动态配置语音阅读器，使用对应于语义分析结果的语音属性，更适宜解决前述挑战。

根据第一方面，本发明提供一种方法，用于使用计算机系统的文本转换，所述方法包含：从文本文件接收文本块；对文本块执行语义分析；根据语义分析结果选择一个或更多语音属性；以及使用选择的语音属性转换文本块到音频。

最好从音调值、音量值和语速值构成的组选择至少一个语音属性。

最好选择的属性提供给语音合成器；并且使用语音合成器转换文本块到音频。

最好该选择的语音属性提供给使用API的语音合成器。

最好从服务器接收文本文件并且服务器执行语义分析。

最好服务器适合包括一个或更多伴随文本块的语义标记，该语义标记对应于语义分析结果。

在优选实施例中，从文本块提取语义标记之一，对语义标记执行隐藏语义索引，并且使用隐藏语义索引的结果选择一个或更多语音属性。

在优选实施例中，接收文本文件，标识文本文件中的一个或更多部分中断，并且使用标识的部分中断分割文本文件为多个文本块。

在优选实施例中，从多个语义标识符标识语义标识符以响应语义分析，并且语义标识符用于执行语音属性选择。

最好确定是否选择了一个或更多用户兴趣语义标识符，并且根据该确定，多个语义标识符包括一个或更多用户兴趣语义标识符。

最好从概述、细节、结论和部分标题构成的组选择用户兴趣语义标识符。

根据优选实施例，多个语义标识符包括主题语义标识符，并且从儿童书、商业期刊、有关男人、有关女人和有关青少年构成的组选择至少一个主题语义标识符。

根据优选实施例，从文件位置检索文本文件，并且从web页面服务器、计算机硬驱动器、致密盘、软盘、数字视盘构成的组选择文件位置。

最好提供一种用于动态配置语音阅读器属性的系统和方法，使得语音阅读器属性与语音阅读器正在转换的文本的语义内容对应。

最好提供一种用于使用语义分析配置语音阅读器的系统和方法。最好提供一种系统和方法，用于动态选择对应于文本块的语义内容的语音属性，并且使用语音属性转换文本块为合成语音。

最好客户机接收文本文件并分割文本文件为多个文本块。在一个实施例中，客户机通过计算机网络如因特网，从web页面服务器接收文本文件。在另一个实施例中，客户机从存储设备如致密盘接收文本文件。客户机最好发送文本块到语义分析器。

语义分析器最好通过使用标准语义分析技术使位于查找表中的语义标识符和文本块匹配来执行对文本块的语义分析。例如，语义分析器可以使用语义分析技术，如符号机器学习、基于图形的成簇和分类、基于统计的多元分析、基于人工神经网络的计算或基于演进的编程。语义分析器最好根据语义分析结果使语义标识符和文本块匹配，并且从查找表检索对应于匹配的语义标识符的语音属性。

语义标识符可以是主题语义标识符或用户兴趣语义标识符。主题语义标识符最好对应于特定主题，如儿童书或财经文章。用户兴趣语义标识符最好对应于特定的感兴趣区域，如文本文件的概述、细节或部分标题。例如，语义分析器标识文本块是对应于财经信息的段落并使“商业期刊”语义标识符与文本块相关联。在这个例子中，语义分析器从查找表检索对应于“商业期刊”语义标识符的语音属性。

语义分析器最好提供语音属性给语音阅读器。语音属性最好包括如音调值、音量值和语速值的属性。在一个实施例中，通过应用程序接口(API)提供语音属性给语音阅读器。语音阅读器最好输入语音属性到语音合成器中，由此语音合成器转换文本块为合成的语音给用户听。

在一个实施例中，文本文件包括对应于特定文本块的语义内容的语义标记。在这个实施例中，语义分析器对语义标记执行隐藏语义索引，以便使语义标识符和语义标记匹配。隐藏语义索引最好通过使用隐含的更高阶方法，如单值分解，将文本对象组织为语义结构以关联文本对象。例如，服务器可能先前已经分析过文本块，并且服务器将对应于文本块的语义内容的语义标记插入到文本块中。

根据第二方面，本发明提供：一个或更多处理器；可以由处理器访问的存储器；一个或更多可以由处理器访问的非易失存储设备；以及文本转换工具，用于转换文本为音频，文本转换工具包含有效的软件代码，从而：从文本文件接收文本块；对文本块执行语义分析；从非易失存储设备之一选择基于语义分析结果的一个或更多语音属性；以及转换文本块为使用选择的语音属性的讲话。

也将认识到的是：可以在计算机软件中实现本发明。

附图说明

现在将只通过例子说明本发明的优选实施例，并参考下列附图：

注意，不同附图中使用相同的参考符号指示相似或相同的项。

图1是这样的图，它根据本发明的优选实施例显示，客户机从服务器接收web页面，并产生具有对应于web页面的语义内容的属性的合成语音信号；

图2是这样的图，它根据本发明的优选实施例显示，客户机从服务器接收包括语义标记的web页面，并产生具有对应于语义标记的语义内容的属性的合成语音信号；

图3是这样的图，它根据本发明的优选实施例显示，计算机系统转换文本文件为具有对应于文本文件的语义内容的属性的合成语音信号；

图4A是这样的详图，它根据本发明的优选实施例显示，语音阅读器从嵌入的语义分析器接收对应于文本文件的语义性质的语音属性；

图4B是这样的详图，它根据本发明的优选实施例显示，语音阅读器从外部语义分析器接收对应于文本文件的语义性质的语音属性；

图5A是查找表，它根据本发明的优选实施例显示对应于主题语义标识符的语音属性；

图5B是查找表，它根据本发明的优选实施例显示对应于用户兴趣语义标识符的语音属性；

图6是用户配置窗口，它根据本发明的优选实施例显示语义标识符和相应的语音属性；

图7是流程图，它根据本发明的优选实施例显示，在转化多个文本块为合成语音信号中采取的步骤；

图8是流程图，它根据本发明的优选实施例显示，通过使用语义分析标识对应于文本块或语义标记的语义标识符中采取的步骤；的

图9是信息处理系统的方块图，该系统能够实现本发明的优选实施例。

具体实施方式

图1是这样的图，它根据本发明的优选实施例显示，客户机从服务器接收web页面，并产生具有对应于web页面的语义内容的属性的合成语音信号。客户机100通过计算机网络140如因特网发送请求105到服务器110。请求105包括服务器110支持的用于特定web页面的标识符(即，URL)。例如，请求105可以对应于财经文章，并且服务器110可以是支持“WallStreetJournal.com”的服务器。服务器110接收到请求105并从web页面存储器115检索对应于请求的web页面。服务器110通过计算机网络140发送web页面130到客户机100。

客户机100接收到web页面130并在显示器145上显示web页面。使用上述的例子，客户机100在显示器145上显示财经文章给用户阅读。客户机100包括语音阅读器150，它能够转换文本为合成语音信号，如合成语音195(对于关于语音阅读器属性的进一步的细节，见图4A、4B和相应的文字)。

语音阅读器150发送文本块160到语义分析器170。文本块160是包括在web页面130中的文本的一部分，如一个段落。通过使用标准语义分析技术，将位于表存储器180中的语义标识符和文本块匹配，语义分析器170执行对文本块160的语义分析。例如，语义分析器170可以使用语义分析技术，如符号机器学习、基于图形的成簇和分类、基于统计的多元分析、基于人工神经网络的计算或基于演进的编程。

语义分析器170根据语义分析将语义标识符与文本块匹配，并且从位于表存储器180中的查找表检索对应于匹配的语义标识符的语音属性。使用上述的例子，语义分析器170标识文本块160是相应于财经信息的段落，并且选择“商业期刊(Business Journal)”语义标识符与文本块160相对应。在这个例子中，语义分析器170检索对应于用于查找表的“商业期刊”语义标识符的语音属性(对于关于查找表属性的进一步的细节，见图5A、5B和相应的文字)。表存储器180可以存储在非易失存储区域上，如计算机硬驱动器。

语义分析器170提供检索的语音属性(例如，语音属性190)给语音阅读器150。语音属性190包括属性如音调值、音量值和语速值。在一个实施例中，语音属性190通过应用程序接口(API)(对于关于API的进一步的细节，见图4B和相应的文字)提供给语音阅读器150。语音阅读器150输入语音属性190到语音合成器中。语音合成器转换文本块为合成语音195给用户听。

图2是这样的图，它显示客户机从服务器接收包括语义标记的web页面，并产生具有对应于语义标记的语义内容的属性的合成语音信号。图2类似于图1，只是图2的服务器110使用语义分析器210对请求的web页面执行语义分析。语义分析器210使用标准语义分析技术，并且将位于标记存储器220中的语义标记与特定文本块(即，段落)匹配。标记存储器220可以存储在非易失存储区域上，如计算机硬驱动器。

语义分析器210提供匹配的标记给服务器110，该服务器将标记插入到请求的web页面中。然后，服务器发送具有标记的web页面230到客户机100。客户机100接收web页面230，由此语音阅读器150标识第一个文本块，并且发送具有标记的文本块240到语义分析器170。语义分析器170对标记内容执行隐藏语义索引，并且根据语义分析使语义标识符与标记相关联。隐藏语义索引通过使用隐含的更高阶的方法将文本对象组织到语义结构中以关联文本对象，如单值分解。例如，标记可以是“现金流”，并且语义分析器170可以使语义标识符“财经”与语义标记相关联。

语义分析器170从表存储器180检索对应于相关联的语义标识符的语音属性，并且发送语音属性190给语音阅读器150。语音阅读器150输入语音属性190到语音合成器中。语音合成器转换文本块为合成语音195给用户听。

图3是这样的图，它显示计算机系统转换文本文件为具有对应于文本文件的语义内容的属性的合成语音信号。图3类似于图1，除了计算机系统300不在计算机网络上接收文本文件，而是从本地存储区域检索文本文件。例如，用户可以将包括对应于儿童书的文本文件的致密盘插入计算机系统300的盘驱动器，并且该文本文件被装载到计算机系统300的本地存储区域如文本存储器320。文本存储器320可以存储在非易失存储区域上，如计算机硬驱动器。

语音阅读器150从文本存储器320检索文本文件并发送文本块(例如，文本块160)到语义分析器170用于处理。如本领域的技术人员能够认识到的，文本文件可以包括语义标记，由此语义分析器对语义标记(对于语义标记分析进一步的细节，见图2和相应的文字)执行隐藏语义索引。

图4A是这样的详图，它显示语音阅读器从嵌入的语义分析器接收对应于文本文件的语义性质的语音属性。语音阅读器400从文本存储器410检索文本文件，并且使用块分割器420将文本文件分割为文本块。例如，块分割器420可以搜索段落中断并为每个段落创建文本块。块分割器420发送文本块425到语义分析器430用于处理。

语义分析器430对文本块425执行语义分析，并且根据语义分析匹配语义标识符到文本块425(对于关于语义标识符选择的进一步的细节，见图7、8和相应的文字)。语义分析器430从表存储器440检索对应于匹配的语义标识符的语音属性。语音属性包括音调值、音量值和语速值。语义分析器430提供语音属性给语音合成器450。语音合成器450又输入语音属性到音调控制器460、音量控制器470和语速控制器480。音调控制器460产生对应于音调值语音属性的合成语音的合成音调(即，男声)。音量控制器470控制对应于音量值语音属性的合成语音的音量(即，轻声)。语速控制器480控制对应于语速值语音属性的合成语音的语速(即，快速)。

图4B是这样的详图，它显示语音阅读器从外部语义分析器接收对应于文本文件的语义性质的语音属性。图4B类似于图4A，除了语义分析器430在语音阅读器400的外部。语义分析器430通过API 425从块分割器420接收文本块。

语义分析器430对接收到的文本块执行语义分析，并且从语音属性存储器440检索对应于语义分析结果的语音属性。反过来，语音分析器430通过API 425提供语音属性(即，音调值、音量值和语速值)给语音合成器450。语音合成器450合成文本块并使用接收到的语音属性创建合成语音490。

图5A是显示对应于主题语义标识符的语音属性的查找表。主题语义标识符是对应于特定主题如儿童书或财经新闻报告的语义标识符。语义分析器使语义标识符与特定文本块相关联。反过来，语义分析器检索对应于相关联的语义标识符的语音属性，并且提供语音属性给语音阅读器，该语音阅读器转换文本块为合成语音。语音属性指定语音阅读器在文本决转换期间使用的语音特性，如音调值、音量值和语速值。例如，用户可能希望使儿童书以女声慢速读给他的小孩，这样儿童书吸引小孩(对于关于语音合成器的进一步的细节，见图4A、4B和相应的文字)。

表500包括列505、510、515和520。列505包括主题语义标识符的列表。这些语义标识符可以是预选的，或者用户可以选择特定语义标识符用于转换文本块为合成语音。例如，主题查找表可以包括“儿童书”和“商业期刊”语义标识符作为默认语义标识符，并且用户可以选择其它包括在主题查找表中的语义标识符(对于关于用户配置窗口属性的进一步的细节，见图6和相应的文字)。

列510包括对应于列505中显示的语义标识符的语音属性“音调”值的列表。音调值可以是这样的值，如女高音、女中音、女低音、男高音、男中音、男低音。当转换文本块为合成语音时，音调值指示语音阅读器使用哪种语音类型。例如，行525包括“儿童书”语义标识符，并且它的相应音调值是“女高音”。在这个例子中，当转换通过语义分析标识为“儿童书”的文本块时，女高音音调值指示语音阅读器使用高音调女声。

列515包括对应于列505中显示的语义标识符的语音属性“音量”值的列表。音量值可以是这样的值，如大声、中等音量或轻声。当转换文本块时，音量值指示语音阅读器以多大声产生语音。使用上面所述的例子，行525包括“中等”音量值，当转换使用语义分析标识为“儿童书”的文本块时，它指示语音阅读器以中等音量水平产生语音。

列520包括对应于列505中显示的语义标识符的语音属性“语速”值的列表。语速值可以是这样的值，如“慢速”、“中速”或“快速”。当转换文本块时，语速值指示语音阅读器以多快产生语音。使用上面所述的例子，行525包括“慢速”语速值，当转换标识为“儿童书”的文本块时，它指示语音阅读器以慢速产生语音。

行530包括“商业期刊”语义标识符，它具有相应的语音属性“男低音”、“中等音量”和“慢速”。当语义分析器使如财经报道的文本块关联于“商业期刊”语义标识符时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用低音调男声的中等音量和慢语速的讲话。

行535包括“有关男人”语义标识符，它具有相应的语音属性“男中音”、“中等音量”和“中速”。当语义分析器使如男人健康(fitness)信息的文本块和“有关男人”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用中等音调男声的中等音量和中速的讲话。

行540包括“有关女人”语义标识符，它具有相应的语音属性“女中音”、“中等音量”和“中速”。当语义分析器使如女人健康信息的文本块和“有关女人”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用中等音调女声的中等音量和中速的讲话。

行545包括“青少年”语义标识符，它具有相应的语音属性“女高音”、“大声”和“快速”。当语义分析器使如给流行歌曲的歌词的文本块和“青少年”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用高音调女声的大声和快速的讲话。

用户可以配置除了主题语义标识符的语义标识符类型，如用户兴趣语义标识符，以便定制语音阅读器的文本到语音转换过程(对于关于用户兴趣语义标识符的进一步的细节，见图5B和相应的文字)。

图5B是显示对应于用户兴趣语义标识符的语音属性的查找表。用户兴趣语义标识符是那个用户根据用户的兴趣配置的语义标识符。例如，用户兴趣语义标识符可以包括“概述”、“细节”和“部分标题”。语义分析器使语义标识符和特定文本块相关联。反过来，语义分析器检索对应于相关联的语义标识符的语音属性，并且提供语音属性给语音阅读器以转换文本块为语音。语音属性指定语音阅读器在文本块转换期间使用的语音特性，如音调值、音量值和语速值。例如，用户可能对听特定文档的概述感兴趣。在这个例子中，用户使用配置窗口配置“概述”语义标识符(对于关于用户配置窗口属性的进一步的细节，见图6和相应的文字)。

表550包括列555、560、565和570。列555包括用户兴趣语义标识符的列表。列560、565和570包括语音属性类型的列表，该语音属性类型分别与图5A中显示的列510、515和520相同。

行575包括“概述”语义标识符，它具有相应的语音属性“男中音”、“大声”和“中速”。当语义分析器使如技术文档的概述的文本块和“概述”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用中等音调男声的大声和中速的讲话。

行580包括“细节”语义标识符，它具有相应的语音属性“男高音”、“中等音量”和“慢速”。当语义分析器使如技术文档中的详细说明的文本块和“细节”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用高音调男声的中等音量和慢速的讲话。

行585包括“结论”语义标识符，它具有相应的语音属性“女中音”、“轻声”和“中速”。当语义分析器使如实验的结果的文本块和“结论”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用中等音调女声的轻声音量和中速的讲话。

行590包括“部分标题”语义标识符，它具有相应的语音属性“女高音”、“中等音量”和“快速”。当语义分析器使如部分的小标题的文本块和“部分标题”语义标识符相关联时，语义分析器提供相应的语音属性给语音阅读器。语音阅读器又转换文本块为使用高音调女声的中等音量和快速的讲话。

图6是用户配置窗口，它显示语义标识符和相应的语音属性。用户使用窗口600定制相应于特定语义标识符的语音属性。窗口600包括区域605和区域640，区域605包括主题语义标识符，而区域640包括用户兴趣语义标识符。

通过使用箭头612滚动主题语义标识符的列表直到用户想要的主题语义标识符显示在文本框610中，用户选择特定的主题语义标识符。例如，主题语义标识符的列表可以是“儿童书”、“商业期刊”和“有关青少年”。图6中显示的例子显示：用户选择了“儿童书”。

一旦用户选择主题语义标识符，用户就配置音调值、音量值和语速值以与主题语义标识符相对应。通过使用箭头617滚动音调值的列表直到用户想要的音调值显示在文本框615中，用户选择特定的音调值。例如，音调值的列表可以是“女高音”、“女中音”、“女低音”、“男高音”、“男中音”、“男低音”。图6中显示的例子显示：用户选择了“女高音”作为音调值，从而与“儿童书”语义标识符相对应。

通过使用箭头622滚动音量值的列表直到用户想要的音量值显示在文本框620中，用户选择特定的音量值。例如，音量值的列表可以是“大声”、“中等音量”和“轻声”。图6中显示的例子显示：用户选择了“中等音量”作为音量值，从而与“儿童书”语义标识符相对应。

通过使用箭头627滚动语速值的列表直到用户想要的语速值显示在文本框625中，用户选择特定的语速值。例如，语速值的列表可以是“快速”、“中速”和“慢速”。图6中显示的例子显示：用户选择了“慢速”作为语速值，从而与“儿童书”语义标识符相对应。

行630到634是用户可以使用的其它行，以选择主题语义标识符和配置相应的语音属性。如本领域的技术人员可以认识到的，可以比图6中显示的有更多或更少的主题语义标识符选择可用。

区域640包括用户选择的用户兴趣语义标识符并配置相应的语音属性。通过使用箭头662滚动用户兴趣语义标识符的列表直到用户想要的用户兴趣语义标识符显示在文本框660中，用户选择特定的用户兴趣语义标识符。例如，用户兴趣语义标识符的列表可以是“概述”、“细节”和“部分标题”。图6中显示的例子显示：用户选择了“概述”用户兴趣语义标识符。

一旦用户选择用户兴趣语义标识符，用户就配置音调值、音量值和语速值以与用户兴趣语义标识符相对应。通过使用箭头667滚动音调值的列表直到用户想要的音调值显示在文本框665中，用户选择特定的音调值。另外，通过使用箭头672滚动音量值的列表直到用户想要的音量值显示在文本框670中，用户选择特定的音量值。此外，通过使用箭头677滚动语速值的列表直到用户想要的语速值显示在文本框675中，用户选择特定的语速值。最后，用户选择文本框650以便通知如下处理：用户希望听到对应于特定语义标识符的文本块。

行680到690是用户可以使用的其它行，以选择用户兴趣语义标识符并配置相应的语音属性。如本领域的技术人员能够认识到的，可以比图6中显示的有更多或更少的用户兴趣语义标识符选择可用。

当用户完成配置语义标识符和相应的语音属性时，用户选择命令按钮695以保存变化并退出窗口600。如果用户不希望保存变化，用户选择命令按钮699以退出窗口600而不保存变化。

图7是显示在转化多个文本块为合成语音信号中采取的步骤的流程图。处理在700开始，于是处理在步骤710从文本存储器715检索第一个文本块。第一个文本块是文本文件的一段，如段落。在一个实施例中，文本文件包括先前通过计算机网络如因特网从服务器接收到的web页面。在另一个实施例中，文本文件包括从本地输入设备如致密盘阅读器检索的文本文档。输入存储器715可以存储在非易失存储区域上，如计算机硬驱动器。

处理对文本块执行语义分析，以便将语义标识符与文本块匹配(预定义的处理块720，对进一步的细节，见图8和相应的文字)。如本领域的技术人员能够认识到的，标准语义分析技术，如符号机器学习、基于图形的成簇和分类、基于统计的多元分析、基于人工神经网络的计算或基于演进的编程可以用于对文本块执行语义分析。语义标识符对应于用户为特定语义标识符配置的特定语音属性(即，音量、音调和语速)(对于关于用户配置的进一步的细节，见图6和相应的文字)。

处理从表存储器735检索相应于标识的语义标识符的语音属性(步骤730)。表存储器735可以存储在非易失存储区域上，如计算机硬驱动器。处理在步骤740使用直接连接或使用API提供语音属性给语音合成器760(对于关于语音合成器方法的进一步的细节，见图4A、4B和相应的文字)。语音合成器760是设备或软件子程序，它使用文本到语音合成(TTS)转换文本到合成语音。处理在步骤750使用语音合成器760转换文本块为合成语音765(例如，讲话)。

确定是否存在更多的文本块要处理(判决770)。如果存在更多的块要处理，判决770转向“是”分支772，它循环返回以检索(步骤780)和处理下一个文本块。这个循环继续，直到没有更多的文本块要处理，在该点判决770转向“否”分支778，于是处理在790结束。

图8是流程图，它显示通过使用语义分析标识对应于文本块或语义标记的语义标识符中采取的步骤。处理在800开始，于是处理从表存储器815检索语义标识符(步骤810)。语义标识符包括主题语义标识符，并且可以包括一个或更多相应于用户请求的用户兴趣语义标识符，以便转换特定文本块为合成语音。例如，用户可能希望以慢速男声听见包括在文本文件中的概述信息，并且希望以快速女声听见包括在文本文件中的细节信息(对于关于用户配置的进一步的细节，见图6和相应的文字)。表存储器815可以存储在非易失存储区域上，如计算机硬驱动器。

确定是否语义标识符包括一个或更多用户兴趣语义标识符(判决820)。如果语义标识符包括一个或更多用户兴趣语义标识符，判决820转向“是”分支824，于是确定是否文本块包括语义标记(判决850)。例如，服务器可能先前已经分析了文本块，由此服务器将相应于文本块的语义内容的语义标记插入文本块(对于关于语义标记插入的进一步的细节，见图2和相应的文字)。

如果文本块包括语义标记，判决850转向“是”分支854，于是处理使用用户兴趣语义标识符对语义标记执行隐藏(latent)语义索引。隐藏语义索引通过使用隐含的更高阶的方法将文本对象组织到语义结构中以关联文本对象，如单值分解。例如，语义标记可以是“摘要”，并且用户兴趣语义标识符是“概述”、“细节”和“部分标题”。处理根据在步骤865执行的语义分析在步骤870选择语义标识符。使用上述的例子，处理选择语义标识符“概述”，因为“概述”是最接近“摘要”的语义标识符。

另一方面，如果文本块不包括语义标记，判决850转向“否”分支852，于是处理使用用户兴趣语义标识符对文本块执行语义分析(步骤855)。例如，文本块可以包括用于如技术文档的特定文档的概览(overview)信息，而用户兴趣语义标识符包括“概述”、“细节”和“部分标题”。处理根据在步骤855执行的语义分析选择语义标识符(步骤860)。使用上述的例子，处理选择语义标识符“概述(summary)”，因为“概述”最接近匹配“概览”。

如果语义标识符不包括用户兴趣语义标识符，判决820转向“否”分支822，于是确定是否文本块包括语义标记(判决825)。例如，服务器可能先前已经分析了文本块，由此服务器将相应于文本块的语义内容的语义标记插入文本块(对于关于语义标记插入的进一步的细节，见图2和相应的文字)。如果文本块包括语义标记，判决825转向“是”分支829，于是处理使用主题语义标识符对语义标记执行隐藏语义索引(步骤840)。例如，语义标记可以是“财经”，并且主题语义标识符包括“儿童书”、“商业期刊”和“有关青少年”。处理根据在步骤840执行的语义分析在步骤845选择语义标识符。使用上述的例子，处理选择语义标识符“商业期刊”，因为“商业期刊”最接近匹配“财经”标记。

另一方面，如果文本块不包括语义标记，判决825转到“否”分支827，于是处理使用主题语义标识符对文本块执行语义分析。例如，文本块可以包括对特定公司的财经报道，而主题语义标识符是“儿童书”、“商业期刊”和“有关青少年”。处理根据在步骤830执行的语义分析选择语义标识符(步骤835)。使用上述的例子，处理选择语义标识符“商业期刊”，因为“商业期刊”最接近匹配财经报道信息。处理在880返回。

图9说明信息处理系统901，该系统是能够执行这里说明的计算操作的计算机系统的简化的例子。计算机系统901包括连接到主机总线902的处理器900。二级(L2)高速缓存904也接到主机总线902。主机到PCI桥906连接到主存储器908，包括高速缓存和主存储器控制功能，并且提供总线控制以处理PCI总线910、处理器900、L2高速缓存904、主存储器908和主机总线902之间的传递。主存储器908连接到主机到PCI桥906以及主机总线902。只由主机处理器900使用的设备，如LAN卡930连接到PCI总线910。服务处理器接口和ISA访问通过912提供PCI总线910和PCI总线914之间的接口。PCI总线910以这种方式与PCI总线914隔离。设备如闪存918连接到PCI总线914。在一个实现中，闪存918包括BIOS代码，该代码包含必要的处理器可执行代码，用于各种低级系统功能和系统引导功能。

PCI总线914为由主机处理器900和服务处理器916共享的各种设备提供接口，这样的设备包括，例如闪存918。PCI到ISA桥935提供总线控制以处理PCI总线914和ISA总线940、通用串行总线(USB)功能体945、电源管理功能体955之间的传递，并且可以包括其它未显示的功能元件，如实时时钟(RTC)、DMA控制、中断支持和系统管理总线支持。非易失RAM 920连接到ISA总线940。服务处理器916包括JTAG和I2C总线922，用于初始化步骤期间与处理器900通信。JTAG/I2C总线922也连接到L2高速缓存904、主机到PCI桥906和主存储器908，提供处理器、服务处理器、L2高速缓存、主机到PCI桥和主存储器之间的通信路径。服务处理器916也可以访问系统电源资源，用于关闭信息处理设备901的电源。

外围设备和输入/输出(I/O)设备可以连接到各种接口(例如，连接到ISA总线940的并行接口962、串行接口964、键盘接口968和鼠标接口970。或者，连接到ISA总线940的超级I/O控制器(未显示)可以容纳很多I/O设备。

为连接计算机系统901到另一个计算机系统从而在网络上复制文件，LAN卡930连接到PCI总线910。类似地，使用电话线连接，连接计算机系统901到ISP以连接到因特网，调制解调器975连接到串口964和PCI到ISA桥935。

虽然图9中说明的计算机系统能够执行这里说明的过程，这个计算机系统只不过是计算机系统的一个例子。本领域的技术人员将认识到：很多其它的计算机系统设计能够执行这里说明的过程。

本发明的优选实现之一是应用程序，即代码模块中指令的集合(程序代码)，该代码模块可以例如驻留在计算机的随机访问存储器中。直到由计算机要求，指令的集合可以存储在另一个计算机存储器中，例如硬盘驱动器上，或者可移动存储器中，如光盘(最终用于CD ROM中)或软盘(最终用于软盘驱动器中)，或者通过因特网或其它计算机网络下载。这样，根据优选实施例，本发明可以作为用在计算机中的计算机程序产品实现。另外，虽然所述各种方法在通用计算机中由软件选择性地激活或重新配置来方便地实现，但本领域的普通技术人员也将认识到：这样的方法可以在硬件中、在固件中或在更特殊的装置中实现，构造该特殊装置来执行要求的方法步骤。

虽然已经显示并说明了本发明的特定实施例，但对本领域的技术人员显然的是：根据这里的教导，可以进行变化和修改而不背离本发明及其更宽的方面，因此权利要求要在其范围内包含所有这样的变化和修改，如在本发明的真正精神和范围内。而且，要理解的是：本发明只由权利要求定义。本领域的技术人员将理解的是：如果计划了特定数目的引入的权利要求元素，就将在权利要求中明确地叙述这样的意图，并且在没有这样的叙述的情况下，没有这样的限制。对非限制的例子，为有助理解，下面的权利要求包含引语“至少一个”和“一个或更多”的使用以引导权利要求元素。但是，使用这样的引语不应该解释为意味着：权利要求元素由不定冠词“a”或“an”(一个)引导将任何包含这样的引导的权利要求元素的特定权利要求限制为只包含一个这样的元素的发明，甚至当相同的权利要求包括引语“一个或更多”或“至少一个”以及不定冠词如“a”或“an”时；这对权利要求中使用定冠词也成立。

Claims

1.一种方法，用于使用计算机系统的文本转换，所述方法包含：

从文本文件接收文本块，文本块包含一个或更多语义标记，该语义标记从对文本块执行的语义标记分析产生；

对文本块执行语义分析；

根据语义分析结果选择一个或更多的语音属性；以及

使用选择的语音属性转换文本块为音频，

其中该方法还包含：

从文本块提取语义标记之一；

对语义标记执行隐藏语义索引；以及

使用隐藏语义索引的结果执行选择。

2.根据权利要求1所述的方法，其中从包含音调值、音量值和语速值的组选择至少一个语音属性。

3.根据权利要求1所述的方法，其中转换进而包含：

提供选择的语音属性给语音合成器；以及

使用语音合成器执行转换。

4.根据权利要求3所述的方法，其中使用API实现所述提供。

5.根据权利要求1所述的方法，其中从服务器接收文本文件，以及其中服务器对文本块执行语义标记分析。

6.根据权利要求5所述的方法，其中服务器适合包括一个或更多语义标记伴随文本块。

7.根据权利要求1所述的方法，进而包含：

接收文本文件；

标识文本文件中的一个或更多部分中断；以及

使用标识的部分中断分割文本文件为多个文本块。

8.根据权利要求1所述的方法，进而包含：

从多个语义标识符标识语义标识符以响应语义分析；以及

使用语义标识符执行语音属性选择。

9.根据权利要求8所述的方法，进而包含：确定是否选择了一个或更多用户兴趣语义标识符；以及

其中根据所述确定，多个语义标识符包括一个或更多用户兴趣语义标识符。

10.根据权利要求9所述的方法，其中从包含概述、细节、结论和部分标题的组选择用户兴趣语义标识符。

11.根据权利要求1所述的方法，其中多个语义标识符包括至少一个主题语义标识符，其中所述至少一个主题语义标识符从包含儿童书、商业期刊、有关男人、有关女人和有关青少年的组中进行选择。

12.根据权利要求1所述的方法，其中从文件位置检索文本文件，以及其中从包含web页面服务器、计算机硬驱动器、致密盘、软盘和数字视盘的组选择文件位置。

13.一种信息处理系统，包含：

一个或更多处理器；

可以由处理器访问的存储器；

可以由处理器访问的一个或更多非易失存储设备；以及

文本转换工具，用于转换文本为音频，该文本转换工具包含有效的软件代码，用于：

对文本块执行语义分析；

从非易失存储设备之一选择基于语义分析结果的一个或更多语音属性；以及

转换文本块为使用选择的语音属性的讲话，

从文本块提取语义标记之一；

对语义标记执行隐藏语义索引；以及

使用隐藏语义索引的结果执行选择。

14.根据权利要求13所述的信息处理系统，其中从包含音调值、音量值和语速值的组选择至少一个语音属性。

15.根据权利要求13所述的信息处理系统，其中所述有效的软件代码还用于：

提供选择的语音属性给语音合成器；以及

使用语音合成器执行文本块转换。

16.根据权利要求15所述的信息处理系统，其中使用API提供语音属性。

17.根据权利要求13所述的信息处理系统，其中从服务器接收文本文件，以及其中服务器对文本块执行语义标记分析。

18.根据权利要求17所述的信息处理系统，其中服务器适合包括一个或更多语义标记伴随文本块。

19.根据权利要求13所述的信息处理系统，其中所述有效的软件代码还用于：

接收文本文件；

标识文本文件中的一个或更多部分中断；以及

使用标识的部分中断分割文本文件为多个文本块。

20.根据权利要求13所述的信息处理系统，其中所述有效的软件代码还用于：

从多个语义标识符标识语义标识符以响应语义分析；以及

使用语义标识符执行语音属性选择。

21.根据权利要求20所述的信息处理系统，其中所述有效的软件代码还用于：

确定是否选择了一个或更多用户兴趣语义标识符；以及

22.根据权利要求21所述的信息处理系统，其中从包含概述、细节、结论和部分标题的组选择用户兴趣语义标识符。

23.根据权利要求13所述的信息处理系统，其中多个语义标识符包括至少一个主题语义标识符，其中所述至少一个主题语义标识符从包含儿童书、商业期刊、有关男人、有关女人和有关青少年的组中进行选择。

24.根据权利要求13所述的信息处理系统，其中从文件位置检索文本文件，以及其中从包含web页面服务器、计算机硬驱动器、致密盘、软盘和数字视盘的组选择文件位置。