CN107004404A

CN107004404A - 信息提供系统

Info

Publication number: CN107004404A
Application number: CN201480083606.4A
Authority: CN
Inventors: 马场直哉; 古本友纪; 武井匠; 齐藤辰彦; 大泽政信
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2017-08-01
Anticipated expiration: 2034-11-25
Also published as: DE112014007207T5; US20170309269A1; CN107004404B; DE112014007207B4; JP6073540B2; JPWO2016084129A1; WO2016084129A1

Abstract

信息提供系统1包括：提取部(12)，其将包含在朗读文本中的词组等中的能从信息源获取与该词组等相关的附加信息的词组等作为声音识别对象语进行提取；合成控制部(13)，其输出对朗读文本进行朗读的音频进行合成所用的语调信息以及提取部(12)所提取出的声音识别对象语；音频合成部(14)，其使用从合成控制部(13)接收到的语调信息来对朗读文本进行朗读；以及显示指示部(15)，其指示显示器(4)与音频合成部(14)朗读声音识别对象语的时刻相应地显示从合成控制部(13)接收到的声音识别对象语。

Description

信息提供系统

技术领域

本发明涉及通过朗读文本从而向用户提供信息的信息提供系统。

背景技术

以往，在从Web(网页)等信息源获取文本并呈现给用户的信息提供装置中，通过用户说出包含在所呈现的文本中的关键词，从而对该关键词进行声音识别，进而获取与该关键词对应的信息并进行呈现。

在利用了上述的声音识别的信息提供装置中，需要向用户明示文本中的哪个词语是声音识别对象。

因此，作为向用户明示声音识别对象语的方法，在专利文献1中记载了如下的方法：对从Web获取的超文本信息中的链接文件的描述性文本的至少一部分(作为声音识别对象的词语)进行强调并显示于画面。同样地，在专利文件2中记载了如下方法：对从外部获取到的内容信息中的作为声音识别对象的词语的显示方式进行变更并显示于画面。

现有技术文献

专利文献

专利文献1：日本专利特开平11－25098号公报

专利文献2：日本专利特开2007－4280号公报

发明内容

发明所要解决的技术问题

在车载设备那样的画面较小的装置中，有时会通过朗读文本来呈现给用户，而非将文本显示于画面。在该情况下，上述专利文献1、2那样的方法无法适用。

此外，由于画面较小时能显示的字符数量也受到限制，因此即使将文本显示于画面，有时也不能将文本全部显示。在该情况下，在上述专利文献1、2那样的方法中，可能由于字符数限制导致声音识别对象语无法显示于画面，从而无法向用户明示声音识别对象语。

本发明是为了解决上述问题而完成的，因此其目的是即使在朗读用的文本不显示于画面上、或者能显示于画面上的字符数量受到限制的情况下，也能将包含在该文本中的声音识别对象语明示给用户。

解决技术问题的技术方案

本发明所涉及的信息提供系统包括：提取部，其将包含在文本中的单词或者词组中的能从信息源获取与该单词或者词组相关的信息的单词或者词组作为声音识别对象语进行提取；合成控制部，其输出朗读文本的音频进行合成所用的信息以及提取部提取出的声音识别对象语；音频合成部，其使用从合成控制部接收到的信息来朗读文本；以及显示指示部，其指示显示部与音频合成部朗读声音识别对象语的时刻相应地显示从合成控制部接收到的声音识别对象语。

发明效果

根据本发明，在朗读文本时，在朗读声音识别对象语的时刻进行显示，因此即使在朗读用的文本不显示于画面上、或者能显示于画面上的字符数量受到限制的情况下，也能将包含在该文本中的声音识别对象语明示给用户。

附图说明

图1是说明本发明的实施方式1所涉及的信息提供系统及其周边设备的概要的图。

图2是表示实施方式1的显示器的显示例的图。

图3是表示实施方式1所涉及的信息提供系统及其周边设备的主要硬件结构的概要图。

图4是示出实施方式1所涉及的信息提供系统的结构例的框图。

图5是示出实施方式1所涉及的信息提供系统的信息处理控制部的动作的流程图。

图6是示出在实施方式1中用户说出了声音识别对象语时的信息提供系统的动作的一个示例的流程图。

图7是示出本发明的实施方式2所涉及的信息提供系统的结构例的框图。

图8是示出实施方式2所涉及的信息提供系统的信息处理控制部的动作的流程图。

图9是示出本发明的实施方式3所涉及的信息提供系统的结构例的框图。

图10是示出实施方式3所涉及的信息提供系统的信息处理控制部的动作的流程图。

具体实施方式

以下，为了更详细地说明本发明，对于用于实施本发明的实施方式，参照附图进行说明。

另外，在以下的实施方式中，虽然对于将本发明的信息提供系统适用于车辆等移动体用的导航装置的情况举例进行说明，但除导航装置以外，还可以适用于PC(个人计算机)、平板PC、以及智能手机等移动信息终端。

实施方式1.

图1是说明本发明的实施方式1所涉及的信息提供系统1及其周边设备的概要的图。

信息提供系统1经由网络2从Web服务器3等外部信息源获取朗读文本，并指示扬声器5对获取到的朗读文本进行音频输出。除此以外，信息提供系统1也可以指示显示器(显示部)4对朗读文本进行显示。

信息提供系统1指示显示器4在朗读包含在朗读文本中的作为声音识别对象的单词或者词组的定时显示该单词或者词组。以下，将单词或者词组称为“词组等”，将作为声音识别对象的词组等称为“声音识别对象语”。

若由用户说出声音识别对象语，则信息提供系统1经由麦克风6获取说出的声音并进行识别，并指示扬声器5对与识别出的词组等相关联的信息进行音频输出。以下，将与词组等相关联的信息称为“附加信息”。

图2是显示器4的显示例。此处，将朗读文本设为“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”，将声音识别对象语作为“首相”“消费税”“通货紧缩”来进行说明。

在显示器4的显示区域A显示示出本车位置及地图等的导航画面，因此用于显示朗读文本的显示区域B较窄。因此，不能一次性将朗读文本的全文显示于显示区域B。因此，信息提供系统1仅对朗读文本的一部分进行显示，对全文进行音频输出。

或者，在不能确保显示区域B的情况下，信息提供系统1也可以不显示朗读文本，仅进行音频输出。

信息提供系统1将作为声音识别对象语的“首相”、“消费税”、“通货紧缩”在各自的朗读的定时显示于显示器4的显示区域C1、C2、C3。而且，若由用户例如说出“消费税”，则信息提供系统1将与“消费税”相关的附加信息(例如“消费税”的含义或者详细说明等)从扬声器5进行音频输出等来呈现给用户。另外，在本示例中，虽然准备了3个显示区域，但是显示区域也可以不限定于3个。

图3是表示实施方式1的信息提供系统1及其周边设备的主要硬件结构的概要图。总线上连接有CPU(CentralProcessingUnit－中央处理器)101、ROM(ReadOnlyMemory－只读存储器)102、RAM(RandamAccessMemory－随机存储器)103、输入装置104、通信装置105、HDD(HardDiskDrive－硬盘驱动器)106、以及输出装置107。

CPU101通过读取并执行存储在ROM102或者HDD106中的各种程序，从而与各硬件协作来实现信息提供系统1的各种功能。对于CPU101所实现的信息提供系统1的各种功能，用后述的图4进行说明。

RAM103是在执行程序时所使用的存储器。

输入装置104是用于接收用户输入的麦克风、遥控器等操作设备、或者触摸传感器等。图1中，示出了麦克风6来作为输入装置104的例子。

通信装置105经由网络2来进行通信。

HDD106是外部存储装置的一个示例。作为外部存储装置，除HDD以外，还包括CD、DVD、或者采用了USB存储器以及SD卡等闪存的存储器等。

输出装置107是用于将信息呈现给用户的扬声器、液晶显示器、或者有机EL(Electroluminescence－电致发光)等。图1中，图示了显示器4及扬声器5来作为输出装置107的例子。

图4是示出实施方式1所涉及的信息提供系统1的结构例的框图。

该信息提供系统1包括获取部10、提取部12、合成控制部13、音频合成部14、显示指示部15、词典生成部16、识别词典17以及音频识别部18。上述的功能通过CPU101执行程序来实现。

提取部12、合成控制部13、音频合成部14以及显示指示部15构成信息处理控制部11。

构成信息提供系统1的获取部10、提取部12、合成控制部13、音频合成部14、显示指示部15、词典生成部16、识别词典17以及音频识别部18可以如图4所示集成在1个装置内，或者也可以分散至网络上的服务器、智能手机等移动信息终端以及车载器上。

获取部10经由网络2从Web服务器3获取以HTML(Hyper Text Markup Language－超文本标记语言)或者XML(eXtensible Markup Language－可扩展标记语言)形式记载的内容。而且，获取部10对获取到的内容进行分析，获取要呈现给用户的朗读文本。

另外，作为网络2例如能够使用互联网及移动电话等的公众线路。

提取部12对由获取部10获取到的朗读文本进行分析并分割成词组等。分割方法例如使用词素分析那样的公知的技术即可，因此省略说明。另外，分割的单位并非限定于词素。

此外，提取部12从分割得到的词组等中提取声音识别对象语。声音识别对象语是包含于朗读文本中的词组等，其能从信息源获取与该词组等相关的附加信息(例如，词组等的含义或者详细说明)。

附加信息的信息源可以是网络2上的Web服务器3那样的外部信息源，也可以是信息提供系统1所具备的数据库(未图示)等。提取部12可以经由获取部10连接至网络2上的外部信息源，也可以不经由获取部10而直接连接。

而且，提取部12决定从朗读文本的开头起到该朗读文本中的各个声音识别对象语为止的音拍数。

在上述的“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”这样的朗读文本的情况下，从朗读文本的开头起的音拍数分别是：“首相”为1、“消费税”为“4”、“通货紧缩”为“33”。

合成控制部13对于朗读文本的全文决定音频合成时所需要的语调等信息(以下记载为“语调信息”)。然后，合成控制部13将所决定的语调信息输出至音频合成部14。

另外，对于语调信息的决定方法使用公知的技术即可，因此省略说明。

合成控制部13对于每个由提取部12决定的声音识别对象语，基于从朗读文本的开头起到声音识别对象语为止的音拍数来计算朗读开始时间。例如，在合成控制部13对于每1个音拍的朗读速度都是既定的，将到声音识别对象语为止的音拍数除以该速度，从而计算该声音识别对象语的朗读开始时间。然后，合成控制部13从朗读文本的语调信息开始向音频合成部14输出的时刻起计时，若达到推测出的朗读开始时间，则对显示指示部15输出声音识别对象语。能够在朗读声音识别对象语的定时相应地显示该声音识别对象语。

另外，虽然设为从开始向音频合成部14输出的时刻起计时，但也可以从指示扬声器5使音频合成部14输出合成音频的时刻起计时。

音频合成部14基于从合成控制部13输出的语调信息生成合成音频，并指示扬声器5输出合成音频。

另外，对于音频合成的方法使用公知的技术即可，因此省略说明。

显示指示部15指示显示器4显示从合成控制部13输出的声音识别对象语。

词典生成部16使用由提取部12提取出的声音识别对象语来生成识别词典17。

音频识别部18参照识别词典17来识别由麦克风6采集到的音频，并输出识别结果字符串。

另外，对于音频识别的方法使用公知的技术即可，因此省略说明。

接着，使用图5及图6所示的流程图与具体例，对实施方式1的信息提供系统1的动作进行说明。

首先，使用图5的流程图说明信息处理控制部11的动作。

此处，将朗读文本设为“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”，将声音识别对象语作为“首相”、“消费税”、“通货紧缩”来进行说明。

首先，提取部12对上述的朗读文本以词组等为单位进行分割(步骤ST001)。此处，提取部12进行词素分析，将上述的朗读文本分割成“/首相/、/消费税/增税/判断/、/启动/专家/讨论/的政策/‘/若/通货紧缩/难以/摆脱/则/考虑/’/”。

接着，提取部12从分割得到的词组等中提取声音识别对象语“首相”、“消费税”、“通货紧缩”(步骤ST002)。

此处，词典生成部16基于由提取部12提取出的3个声音识别对象语“首相”、“消费税”、“通货紧缩”，来生成识别词典17(步骤ST003)。

接着，合成控制部13使用从朗读文本的开头起到声音识别对象语“首相”为止的音拍数与朗读速度，计算说出朗读文本时的“首相”的朗读开始时间(步骤ST004)。合成控制部13同样基于到声音识别对象语“消费税”、“通货紧缩”为止的音拍数来分别计算朗读开始时间。

合成控制部13生成朗读文本的音频合成所需要的语调信息(步骤ST005)。

以下说明的步骤ST006的流程与步骤ST007～ST009的流程并行地执行。

合成控制部13向音频合成部14输出朗读文本的语调信息，音频合成部14生成朗读文本的合成音频并将其输出至扬声器5，从而开始朗读(步骤ST006)。

与步骤ST006并行地，合成控制部13从朗读文本的开头起的音拍数较小的声音识别对象语起，依次判定是否经过了朗读开始时间(步骤ST007)。若达到从朗读文本的开头起的音拍数为最小的声音识别对象语“首相”的朗读开始时间(步骤ST007“是”)，则合成控制部13将该声音识别对象语“首相”输出至显示指示部15(步骤ST008)。显示指示部15对显示器4进行指示使其显示声音识别对象语“首相”。

接着，合成控制部13对是否将3个声音识别对象语全部显示进行判定(步骤ST009)。现阶段剩余声音识别对象语“消费税”“通货紧缩”(步骤ST009“否”)，因此，合成控制部13再重复2次步骤ST007～ST009。若声音识别对象语全部显示完成(步骤ST009“是”)，则合成控制部13结束一系列的处理。

由此，在图2中，在朗读文本“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”的“首相”被朗读的时刻，在显示区域C1显示“首相”；在“消费税”被朗读的时刻，在显示区域C2显示“消费税”；在“通货紧缩”被朗读的时刻，在显示区域C3显示“通货紧缩”。

用户通过说出显示于显示区域C1～C3的声音识别对象语，能接受与该词语关联的附加信息的提供。对于附加信息的提供在图6中详细描述。

另外，显示指示部15也可以进行指示，以使得在将声音识别对象语显示于显示器4时，对声音识别对象语进行强调显示。声音识别对象语的强调显示存在如下的方法：设为醒目的字体、使文字变大、设为醒目的文字颜色、使显示区域C1～C3闪烁、对文字附加符号(例如，“”)。此外，也可以是如下的方法：在声音识别对象语的显示前后变更显示区域C1～C3的颜色(即，背景色)、变更亮度。也可以将上述的强调显示组合。

并且，显示指示部15也可以进行指示，以使得在将声音识别对象语显示于显示器4时，将显示区域C1～C3设为用于选择声音识别对象语的软按键。软按键只要是用户能使用输入装置104进行选择操作即可，例如能通过触摸传感器进行选择的触摸按钮、或者能通过操作设备进行选择的按钮等。

接着，使用图6的流程图，对用户说出了声音识别对象语时的信息提供系统1的动作进行说明。

音频识别部18经由麦克风6获取用户说出的声音，参照识别词典17来进行识别，并输出识别结果字符串(步骤ST101)。接着，获取部10经由网络2从Web服务器3等获取与音频识别部18输出的识别结果字符串相关联的附加信息(步骤ST102)。合成控制部13决定由获取部10获取到的信息的音频合成所需要的语调信息，并输出至音频合成部14(步骤ST103)。最后，音频合成部14基于合成控制部13输出的语调信息生成合成音频，指示扬声器5来输出合成音频(步骤ST104)。

另外，在图6中，虽然构成为在由用户说出声音识别对象语的情况下信息提供系统1获取与该词语相关联的附加信息并进行音频输出，但不限于此，例如也可以构成为若识别出的词组等是设施的品牌名，则执行其品牌名的周边检索并进行显示检索结果等的规定的动作。附加信息可以从Web服务器3等外部信息源来获取，也可以从信息提供系统1内置的数据库等来获取。

此外，虽然构成为在用户说话后获取部10获取附加信息，但不限于此，例如也可以构成为提取部12从朗读文本提取声音识别对象语时，不仅对有无附加信息进行判断，还预先获取附加信息并进行存储。

如上所述，根据实施方式1，信息提供系统1包括：提取部12，其将包含在朗读文本中的词组等中的能从信息源获取与该词组等相关的附加信息的词组等作为声音识别对象语进行提取；合成控制部13，其输出对朗读文本进行朗读的音频进行合成所用的语调信息以及提取部12所提取出的声音识别对象语；音频合成部14，其使用从合成控制部13接收到的语调信息来对朗读文本进行朗读；以及显示指示部15，其指示显示器4与音频合成部14朗读声音识别对象语的时刻相应地显示从合成控制部13接收到的声音识别对象语。显示指示部15与音频合成部14朗读声音识别对象语的时刻相应地从合成控制部13接收该声音识别对象语，因此将接收到的该声音识别对象语显示于显示器4。由此，在朗读文本时，在朗读声音识别对象语的时刻进行显示，因此即使在朗读文本不显示于画面上、或者能显示于画面上的文字数量受到限制的情况下，也能将包含在该文本中的声音识别对象语明示给用户。

另外，根据实施方式1，显示指示部15指示显示器4来对声音识别对象语进行强调显示。因此，用户容易注意到声音识别对象语的显示。

另外，根据实施方式1，显示指示部15指示显示器4将其显示声音识别对象语的区域作为选择该声音识别对象语的软按键。因此，用户根据情况能够分开使用音频操作和软按键操作，从而提高便利性。

实施方式2.

图7是示出本发明的实施方式2所涉及的信息提供系统1的结构例的框图。在图7中，对于与图4相同或者相当的部分标注相同标号并省略说明。

实施方式2的信息提供系统1具备存储声音识别对象语的存储部20。实施方式2的信息处理控制部21与上述实施方式1的信息处理控制部11有一部分动作不同，因此以下进行说明。

提取部22与上述实施方式1相同，对由获取部10获取到的朗读文本进行分析并分割成词组等。

实施方式2的提取部22从分割得到的词组等中提取声音识别对象语，并使提取出的声音识别对象语存储于存储部20。

合成控制部23与上述实施方式1相同，对由获取部10获取到的朗读文本进行分析并分割成词组等。合成控制部23对于每个分割得到的词组等决定音频合成时所需要的语调信息。而且，合成控制部23从朗读文本的开头起以词组等为单位，向音频合成部24输出所决定的语调信息。

实施方式2的合成控制部23在将语调信息输出至音频合成部24的同时，将对应于该语调信息的词组等输出至显示指示部25。

音频合成部24与上述实施方式1相同，基于从合成控制部23输出的语调信息生成合成音频，并指示扬声器5输出合成音频。

实施方式2的显示指示部25对于从合成控制部23输出的词组等是否存在于存储部20进行判定。即，对从合成控制部23输出的词组等是否为声音识别对象语进行判定。在从合成控制部23输出的词组等存在于存储部20的情况下，显示指示部25指示显示器4显示该词组等即声音识别对象语。

在图7中，合成控制部23虽然从获取部10获取朗读文本并分割成词组等，但是也可以从提取部22获取已完成分割的词组等。

显示指示部25参照存储部20对词组等是否为声音识别对象语进行判断，但也可以是合成控制部23进行该判定。在该情况下，合成控制部23在将语调信息输出至音频合成部24时，对于对应于该语调信息的词组等是否存在于存储部20进行判定，并对显示指示部25输出存在于存储部20的词组等，不存在于存储部20的词组等则不输出。显示指示部25仅指示显示器4显示从合成控制部23输出的词组等。

另外，与上述实施方式1相同，显示指示部25也可以进行指示以使得在将声音识别对象语显示于显示器4时进行强调显示。并且，显示指示部25也可以进行指示，以使得将显示声音识别对象语的显示区域C1～C3(在图2中示出)设为用于选择声音识别对象语的软按键。

接着，使用图8的流程图，说明信息处理控制部21的动作。

首先，提取部22对上述的朗读文本以词组等为单位进行分割(步骤ST201)，从分割得到的词组等提取声音识别对象语(步骤ST202)。

此处，词典生成部16基于由提取部12提取出的上述3个声音识别对象语，来生成识别词典17(步骤ST203)。

提取部22将提取出的3个声音识别对象语存储于存储部20(步骤ST204)。

接着，合成控制部23将上述的朗读文本以词组等为单位进行分割，决定音频合成所需要的语调信息(步骤ST205)。而且，合成控制部23从分割得到的词组等的开头起(此处是“首相”)，依次以词组等为单位，将语调信息和词组等输出至音频合成部24和显示指示部25(步骤ST206)。

音频合成部24基于从合成控制部23输出的词组等为单位的语调信息，生成词组等的合成音频，输出至扬声器5，从而进行朗读(步骤ST207)。

与步骤ST207并行地，显示指示部25对于从合成控制部23输出的词组等是否与存在于存储部20中的声音识别对象语一致进行判定(步骤ST208)。在从合成控制部23输出的词组等与存储部20的声音识别对象语一致的情况下(步骤ST208“是”)，显示指示部25指示显示器4显示该词组等(步骤ST209)。另一方面，在从合成控制部23输出的词组等与存储部20的声音识别对象语不一致的情况下(步骤ST208“否”)，音频合成部24跳过步骤ST209。

由于朗读文本的开头的词组等“首相”为声音识别对象语，因此在该词语被朗读的同时，显示于显示器4的显示区域C1(图2中示出)。

接着，合成控制部23对是否输出了朗读文本的全部词组等进行判定(步骤ST210)。由于现阶段只完成输出开头的词组等(步骤ST210“否”)，合成控制部23返回至步骤ST206。若完成输出从朗读文本的开头的词组等到最后的词组等(步骤ST210“是”)，则合成控制部23结束一系列的处理。

由此，如图2所示，在对朗读文本“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”中的“首相”“消费税”“通货紧缩”进行朗读的时刻，在显示区域C1～C3显示“首相”“消费税”“通货紧缩”。

用户通过说出显示于显示区域C1～C3的声音识别对象语，能接受与该声音识别对象语关联的附加信息的提供。

如上所述，根据实施方式2，信息提供系统1包括：提取部22，其将包含在朗读文本中的词组等中的能从信息源获取与该词组等相关的附加信息的词组等作为声音识别对象语进行提取；合成控制部23，其输出对朗读文本进行朗读的音频进行合成所用的语调信息以及提取部12所提取出的声音识别对象语；音频合成部24，其使用从合成控制部23接收到的语调信息来对朗读文本进行朗读；以及显示指示部25，其指示显示器4与音频合成部24朗读声音识别对象语的时刻相应地显示从合成控制部23接收到的声音识别对象语。显示指示部25与音频合成部24朗读词组等的时刻相应地从合成控制部23接收该词组等，在接收到的该词组等为声音识别对象语的情况下，将其显示于显示器4。由此，在朗读文本时，在朗读声音识别对象语的时刻进行显示，因此即使在朗读文本未显示于画面上、或者能显示于画面上的文字数量受到限制的情况下，也能将包含在该文本中的声音识别对象语明示给用户。

实施方式3.

图9是示出本发明的实施方式3所涉及的信息提供系统1的结构例的框图。在图9中，对于与图4及图7相同或者相当的部分标注相同标号并省略说明。

实施方式3的信息提供系统1具备存储声音识别对象语的存储部30。实施方式3的信息处理控制部31具备朗读方法变更部36，其用于在对朗读文本进行朗读时区分声音识别对象语与除此以外的词组等。

实施方式3的信息处理控制部31通过具备朗读方法变更部36，从而与上述实施方式2的信息处理控制部21有一部分动作不同，因此以下进行说明。

提取部32与上述实施方式2相同，对由获取部10获取到的朗读文本进行分析并分割成词组等，从分割得到的词组等中提取声音识别对象语并存储于存储部30。

合成控制部33与上述实施方式2相同，对由获取部10获取到的朗读文本进行分析并分割成词组等，以词组等为单位决定语调信息。

实施方式3的合成控制部33对于词组等是否存在于存储部30进行判定。即，对该词组等是否为声音识别对象语进行判定。而且，合成控制部33从朗读文本的开头起以词组等为单位向音频合成部34输出所决定的语调信息。此时，若与输出的语调信息对应的词组等为声音识别对象语，则合成控制部33指示朗读方法变更部36变更该词组等的朗读方法。而且，若与输出的语调信息对应的词组等为声音识别对象语，则合成控制部33向显示指示部35输出该词组等。

仅在合成控制部33发出了变更词组等的朗读方法的指示的情况下，朗读方法变更部36重新决定语调信息来变更朗读方法。朗读方法的变更是利用下述方法中的至少一种来进行的：即，变更朗读的音高(声音的高度)、变更朗读的速度、变更朗读前后的暂停的有无、变更朗读的音量、以及变更朗读中的效果音的有无。

为了使用户容易辨别声音识别对象语与除此以外的词组等，优选为使朗读声音识别对象语的音高变高、或者在声音识别对象语的前后插入暂停、或者使朗读声音识别对象语的音量变大、或者在声音识别对象语的朗读过程中附加效果音。

音频合成部34基于从朗读方法变更部36输出的语调信息生成合成音频，并指示扬声器5输出合成音频。

显示指示部35指示显示器4显示从合成控制部33输出的词组等。在实施方式3中，从合成控制部33输出至显示指示部35的词组等全部为声音识别对象语。

另外，在图9中，合成控制部33虽然从获取部10获取朗读文本并分割成词组等，但是也可以从提取部32获取已分割完成的词组等。

另外，与上述实施方式1相同，显示指示部35也可以进行指示，使得在将声音识别对象语显示于显示器4时，进行强调显示。并且，显示指示部35也可以进行指示，使得将显示声音识别对象语的显示区域C1～C3(在图2中示出)设为用于选择声音识别对象语的软按键。

接着，使用图10的流程图，说明信息处理控制部31的动作。

此处，将朗读文本设为“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”，将声音识别对象语作为“首相”“消费税”“通货紧缩”来进行说明。

首先，提取部32对上述的朗读文本以词组等为单位进行分割(步骤ST301)，从分割得到的词组等提取声音识别对象语(步骤ST302)。

此处，词典生成部16基于由提取部32提取出的上述3个声音识别对象语，来生成识别词典17(步骤ST303)。

提取部32将提取出的3个声音识别对象语存储于存储部30(步骤ST304)。

接着，合成控制部33将上述的朗读文本以词组等为单位进行分割，决定音频合成所需要的语调信息(步骤ST305)。而且，在合成控制部33从分割得到的词组等的开头起(此处是“首相”)，依次以词组等为单位，将语调信息输出至朗读方法变更部36时，合成控制部33对于该词组等是否存储在存储部30，即是不是声音识别对象语进行判定(步骤ST306)。

在输出的词组等是声音识别对象语的情况下(步骤ST306“是”)，合成控制部33对朗读方法变更部36输出该词组等的语调信息和朗读变更指示(步骤ST307)。

朗读方法变更部36根据从合成控制部33输出的朗读变更指示，重新决定声音识别对象语的语调信息，并对音频合成部34进行输出(步骤ST308)。

音频合成部34基于由朗读方法变更部36重新决定的语调信息，生成声音识别对象语的合成音频，输出至扬声器5，并进行朗读(步骤ST309)。

与步骤ST307～ST309并行地，合成控制部33将与输出至朗读方法变更部36的语调信息对应的声音识别对象语输出至显示指示部35(步骤ST310)。显示指示部35指示显示器4显示从合成控制部33输出的声音识别对象语。

由于朗读文本的开头的词组等”首相”为声音识别对象语，因此在改变朗读方法的同时，显示于显示器4的显示区域C1(图2中示出)。

另一方面，在输出的词组等不是声音识别对象语的情况下(步骤ST306“否”)，合成控制部33对朗读方法变更部36输出该词组等的语调信息(步骤ST311)。没有从合成控制部33向显示指示部35的输出。

朗读方法变更部36将从合成控制部33输出的词组等的语调信息直接输出至音频合成部34，音频合成部34基于该语调信息，生成词组等的合成音频，输出至扬声器5，并进行朗读(步骤ST312)。

接着，合成控制部33对从朗读文本的开头的词组等到最后的词组等为止，判定是否输出了全部词组等(步骤ST313)。合成控制部33在未完成输出朗读文本的全部词组等的情况下(步骤ST313“否”)，返回至步骤ST306，在完成输出的情况下(步骤ST313“是”)，结束一系列的处理。

由此，如图2所示，在对朗读文本“首相、消费税增税判断、启动专家讨论的政策‘若通货紧缩难以摆脱则考虑’”中的“首相”“消费税”“通货紧缩”进行朗读的时刻，改变朗读方法并且在显示区域C1～C3显示“首相”“消费税”“通货紧缩”。

用户通过说出朗读方法已被改变的、或者显示于显示区域C1～C3的声音识别对象语，从而能接受与该词语关联的附加信息的提供。

如上所述，根据实施方式3，信息提供系统1包括：提取部32，其将包含在朗读文本中的词组等中的能从信息源获取与该词组等相关的附加信息的词组等作为声音识别对象语进行提取；合成控制部33，其输出对朗读文本进行朗读的音频进行合成所用的语调信息以及提取部32所提取出的声音识别对象语；音频合成部34，其使用从合成控制部33接收到的语调信息来对朗读文本进行朗读；以及显示指示部35，其与音频合成部34朗读声音识别对象语的时刻相对应地，指示显示器4显示从合成控制部33接收到的声音识别对象语。显示指示部35与音频合成部34朗读声音识别对象语的时刻相应地，从合成控制部33接收该声音识别对象语，因此将接收到的该声音识别对象语显示于显示器4。由此，在朗读文本时，在朗读声音识别对象语的时刻进行显示，因此即使在朗读文本未显示于画面上、或者能显示于画面上的文字数量受到限制的情况下，也能将包含在该文本中的声音识别对象语明示给用户。

根据实施方式3，信息提供系统1具备朗读方法变更部36，其用于使朗读文本中的声音识别对象语与除此以外的词组等的音频合成部34朗读的方法发生变更。由此，用户在驾驶负荷较高的情况下等无暇观察画面的状况下，也能掌握声音识别对象语，因此提高便利性。

另外，朗读方法变更部36能追加到上述实施方式1、2的信息提供系统1中。

上述实施方式1～3中，虽然信息提供系统1构成为适用于日语的朗读文本，但是也可以构成为适用于日语以外的语言。

此外，本申请发明在其发明的范围内，能进行各实施方式的自由组合或者进行各实施方式的任意的构成要素的变形、或者在各实施方式中能省略任意的构成要素。

工业上的实用性

本发明的信息提供系统设为在朗读文本时，与朗读声音识别对象语的时刻相应地显示声音识别对象语，因此也能适用于能显示于画面上的文字数量受到限制的车载设备以及移动信息终端等。

标号说明

1 信息提供系统，

2 网络，

3 Web服务器(信息源)，

4 显示器(显示部)，

5 扬声器，

6 麦克风，

10 获取部，

11、21、31 信息处理控制部，

12、22、32 提取部，

13、23、33 合成控制部，

14、24、34 音频合成部，

15、25、35 显示指示部，

16 词典生成部，

17 识别词典，

18 音频识别部，

20、30 存储部，

36 朗读方法变更部，

101 CPU，

102 ROM，

103 RAM，

104 输入装置，

105 通信装置，

106 HDD，

107 输出装置。

Claims

1.一种信息提供系统，其特征在于，包括：提取部，其将包含在文本中的单词或者词组中的能从信息源获取与该单词或者词组相关的信息的单词或者词组作为声音识别对象语进行提取；

合成控制部，其输出对朗读所述文本的音频进行合成所用的信息以及所述提取部提取出的所述声音识别对象语；音频合成部，其使用从所述合成控制部接收到的所述信息来朗读所述文本；以及

显示指示部，其指示显示部与所述音频合成部朗读所述声音识别对象语的时刻相应地显示从所述合成控制部接收到的所述声音识别对象语。

2.如权利要求1所述的信息提供系统，其特征在于，所述显示指示部指示所述显示部对所述声音识别对象语进行强调显示。

3.如权利要求2所述的信息提供系统，其特征在于，所述强调显示是利用下述方法中的至少一种来进行的：即，字体、文字的大小、文字颜色、背景颜色、亮度、闪烁、以及附加符号。

4.如权利要求1所述的信息提供系统，其特征在于，具备朗读方法变更部，其用于使所述音频合成部对于所述文本中的所述声音识别对象语与除此以外的文本的朗读方法进行变更。

5.如权利要求4所述的信息提供系统，其特征在于，所述朗读方法的变更是利用下述方法中的至少一种来进行的：即，变更朗读的音高、变更朗读的速度、变更朗读前后的暂停的有无、变更朗读的音量、以及变更朗读中的效果音的有无。

6.如权利要求1所述的信息提供系统，其特征在于，所述显示指示部进行指示，使得将所述显示部显示所述声音识别对象语的区域作为选择该声音识别对象语的软按键。