CN111033461A

CN111033461A - 信息提供方法及信息提供装置

Info

Publication number: CN111033461A
Application number: CN201880052918.7A
Authority: CN
Inventors: 岩田贵裕; 濑户优树
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-08-31
Filing date: 2018-08-16
Publication date: 2020-04-17
Also published as: US11790913B2; WO2019044520A1; EP3678018A4; JP2020053060A; US20200175988A1; JPWO2019044520A1; JP6614395B2; US20220208190A1; EP3678018A1; JP7331645B2

Abstract

信息提供装置将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对语音播放装置依次发音出的多个说话语音各自的内容，信息提供装置与来自接收到从语音播放装置发送出的识别信息的终端装置的请求相应地，将与该识别信息相对应的大于或等于1个相关信息相对于该终端装置而发送至通信装置。

Description

信息提供方法及信息提供装置

技术领域

本发明涉及对利用者提供信息的技术。

背景技术

以往提出了一种对终端装置的利用者提供各种信息的技术。例如在专利文献1中公开了一种引导系统，其对在利用者所携带的播放单元中事先存储的多个解说语音中的与从各展示物附近的发送单元发送出的代码信息相对应的解说语音进行播放。

专利文献1：日本特开平2－190888号公报

发明内容

基于专利文献1的技术，只是选择性地播放在播放单元中事先存储的解说语音。但是，如果能够将表示例如在演讲会中依次发音的语音内容的信息提供给利用者，则难以听取语音的听力障碍者能够掌握演讲会中的说话内容，比较方便。考虑以上的情况，本发明的目的在于，将与依次发音的语音相对应的多个信息的时间序列提供给利用者。

为了解决以上的课题，本发明的优选的方式所涉及的信息提供方法为，信息提供装置将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对第1装置依次发音出的多个说话语音各自的内容，信息提供装置与来自接收到从所述第1装置发送出的所述识别信息的第2装置的请求相应地，将与该识别信息相对应的大于或等于1个相关信息相对于该第2装置而发送至通信装置。

本发明的优选的方式所涉及的信息提供装置，其具有：控制部，其将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对第1装置依次发音出的多个说话语音各自的内容；以及发送部，其与来自接收到从所述第1装置发送出的所述识别信息的第2装置的请求相应地，使与该识别信息相对应的大于或等于1个相关信息相对于该第2装置而发送至通信装置。

附图说明

图1是表示本发明的第1实施方式所涉及的通信系统的结构的框图。

图2是表示语音播放装置的结构的框图。

图3是表示信号处理电路的结构的框图。

图4是表示信息提供装置的结构的框图。

图5是信息提供装置的存储装置中的相关信息的存储的说明图。

图6是表示终端装置的结构的框图。

图7是通信系统及终端装置的动作的说明图。

图8是第2实施方式中的通信系统及终端装置的动作的说明图。

图9是第2实施方式中的参照表的示意图。

图10是第3实施方式中的通信系统及终端装置的动作的说明图。

具体实施方式

＜第1实施方式＞

图1是例示本发明的第1实施方式所涉及的通信系统100的结构的框图。第1实施方式的通信系统100是用于对大厅或者会议室等设施(以下称为“提供设施”)内的利用者Ub提供信息的计算机系统，具有语音播放装置10、语音识别装置20、机械翻译装置30和信息提供装置40。通信系统100的各要素例如经由包含移动体通信网或者互联网等在内的通信网200而能够相互地通信。

语音播放装置10(第1装置的例示)设置于提供设施内。在提供设施中，例如召开说话者Ua依次说话的演讲会。语音播放装置10是对说话者Ua依次发音的语音(以下称为“说话语音”)V进行拾音及放音的声响系统。利用者Ub是演讲会的收听者，携带终端装置50而位于提供设施内。终端装置50(第2装置的例示)是例如移动电话机或者智能手机等移动型的信息终端。此外，也可以将例如在提供设施设置的电光公告板或者电子看板(例如数字标示牌)等引导用的设备利用为终端装置50。在下面的说明中，为了方便起见而着眼于1个终端装置50。

图2是例示语音播放装置10的结构的框图。如图2中例示那样，第1实施方式的语音播放装置10具有：控制装置11、存储装置12、通信装置13、拾音装置14、信号处理电路15和放音装置16。除了在提供设施设置的播放系统以外，例如平板终端或者个人计算机等信息终端还被用作语音播放装置10。此外，语音播放装置10除了通过单个装置而实现以外，也可以通过彼此独立地构成的多个装置(即，系统)而实现。

拾音装置14是对周围的声响进行拾音的声响设备(传声器)。说话者Ua对拾音装置14发出说话语音V。拾音装置14对由说话者Ua发出的说话语音V进行拾音，生成表示该说话语音V的语音信号X。此外，为了方便起见而省略将由拾音装置14生成的语音信号X从模拟变换为数字的A/D变换器的图示。

控制装置11例如由CPU(Central Processing Unit)等处理电路构成，对语音播放装置10的各要素集中地进行控制。存储装置12对由控制装置11执行的程序和控制装置11所使用的各种数据进行存储。例如半导体记录介质或者磁记录介质等公知的记录介质，或者多种记录介质的组合优选被用作存储装置12。

第1实施方式的控制装置11通过执行在存储装置12中存储的程序而生成识别信息D。识别信息D是用于对在提供设施内发音的多个说话语音V的时间序列进行识别的信息。例如针对每个演讲会赋予分别独立的识别信息D。识别信息D的生成方法是任意的。例如控制装置11生成包含语音播放装置10的动作开始的时刻、或者规定位数的随机数的识别信息D。可以对固有地赋予给语音播放装置10的识别信息组合前述的时刻或者随机数而作为识别信息D。在提供设施内召开的演讲会由多个说话语音V的时间序列构成，因此识别信息D也能够换言为用于对该演讲会或者该提供设施进行识别的信息。

通信装置13基于由控制装置11实施的控制而经由通信网200与其他装置通信。第1实施方式的通信装置13将由拾音装置14拾音到的语音信号X发送至语音识别装置20，并且将由控制装置11生成的识别信息D发送至信息提供装置40。

信号处理电路15生成声响信号Za，该声响信号Za表示说话语音V和表示识别信息D的声响成分之间的混合音。如图3例示那样，第1实施方式的信号处理电路15包含调制处理部151和混合处理部152而构成。此外，也可以由控制装置11实现信号处理电路15的至少一部分的功能。

调制处理部151生成调制信号Y，该调制信号Y将由控制装置11生成的识别信息D表示为声响成分。具体地说，调制处理部151通过例如利用识别信息D对规定频率的载波进行调制的振幅调制或频率调制、或者利用了扩散符号的识别信息D的扩散调制等调制处理而生成调制信号Y。表示识别信息D的声响成分的频带，例如是能够进行通过放音装置16实现的播放的频带，而且是超过利用者Ub在通常的环境下听取的音的频带的范围(例如大于或等于18kHz且小于或等于20kHz)。

图3的混合处理部152通过将由拾音装置14生成的语音信号X和由调制处理部151生成的调制信号Y进行混合(例如相加)而生成声响信号Za。根据以上的说明所理解的那样，声响信号Za是代表由说话者Ua发出的说话语音V和表示识别信息D的声响之间的混合音的信号。此外，为了方便起见而省略将声响信号Za从数字变换为模拟的D/A变换器的图示。

图2的放音装置16(例如扬声器装置)，对由信号处理电路15生成的声响信号Za所表示的声响进行播放。根据以上的说明所理解的那样，第1实施方式的放音装置16除了作为对由说话者Ua发出的说话语音V进行播放的声响设备起作用以外，还作为发送机起作用，即，该发送机通过将作为空气振动的声波设为传送介质的声响通信而将识别信息D向周围发送。即，在第1实施方式中，通过从对说话语音V进行放音的放音装置16对识别信息D的声响进行放音的声响通信而将该识别信息D向周围发送。因此，具有下述优点，即，不需要专用于识别信息D的发送的发送机。另外，还具有下述优点，即，能够通过设置隔音物而更容易地对发送识别信息D的范围进行限制。还具有下述优点，即，能够在演讲会等中容易地实现1对多的信息传递。

此外，通过语音播放装置10进行的识别信息D的发送的时期是任意的。例如，可以针对由说话者Ua发出的说话语音V的每个发音而由语音播放装置10发送识别信息D，也可以与说话者Ua有无说话无关地以规定的周期由语音播放装置10发送识别信息D。但是，优选构成为在时间轴上的相互不同的多个时刻将识别信息D从语音播放装置10发送，以使得对在演讲会的中途到访提供设施的利用者Ub的终端装置50也提供信息。

图1的语音识别装置20从通信网200接收从语音播放装置10发送出的语音信号X。第1实施方式的语音识别装置20是通过执行针对语音信号X的语音识别，从而对表示说话语音V的内容的字符串(以下称为“识别字符串”)W进行确定的计算机系统(例如网络服务器)。在通过语音识别装置20进行语音识别时，任意地采用识别处理等公知的技术，该识别处理利用了例如隐马尔可夫模型(HMM：Hidden Markov Model)等声响模型、和表示语言性限制的语言模型。

机械翻译装置30通过针对由语音识别装置20确定出的识别字符串W的机械翻译，生成将说话语音V的内容以相互不同的语言(例如日语、英语及汉语)表示的多个相关信息R。在通过机械翻译装置30进行机械翻译时能够任意地采用公知技术。例如，参照识别字符串W的语法解析的结果和语言性规则而变换语序及单词的规则库的机械翻译、或者利用表现出语言的统计性的倾向的统计模型而将识别字符串W翻译为其他语言的统计性的机械翻译被利用于相关信息R的生成。如以上例示那样，第1实施方式的相关信息R是通过针对说话语音V的语音识别及机械翻译而生成的。

信息提供装置40是将通过语音识别及机械翻译生成的相关信息R提供给提供设施内的终端装置50的计算机系统(例如网络服务器)。图4是例示信息提供装置40的结构的框图。如图4例示那样，第1实施方式的信息提供装置40具有：控制装置41、存储装置42和通信装置43。此外，信息提供装置40除了通过单个装置而实现以外，也可以通过彼此独立地构成的多个装置(即，系统)而实现。

控制装置41由例如CPU等处理电路构成，对信息提供装置40的各要素集中地进行控制。存储装置42对由控制装置41执行的程序和控制装置41所使用的各种数据进行存储。作为存储装置42优先使用例如半导体记录介质或者磁记录介质等公知的记录介质、或者多种记录介质的组合。此外，也可以与信息提供装置40分体地设置存储装置42，经由通信网200由控制装置41执行对存储装置42的写入及读出。即，存储装置42能够从信息提供装置40省略。

第1实施方式的控制装置41(控制部的例示)，将表示说话者Ua针对语音播放装置10依次发音的多个说话语音V各自的内容的相关信息R，与由该语音播放装置10的控制装置11生成的共通的识别信息D相关联地储存于存储装置42。具体地说，如图5例示那样，与相互不同的语言对应的多个信息系列G和共通的识别信息D相关联。与任意的语言相对应的1个信息系列G是将说话语音V的识别字符串W机械翻译为该语言而得到的多个相关信息R的时间序列。即，根据由说话者Ua依次发音出的说话语音V而生成的多个相关信息R的时间序列，关于相互不同的多个语言的各语言而存储于存储装置42。此外，在图1中为了方便起见而图示出1个语音播放装置10，但实际的通信系统100具有多个语音播放装置10。因此，在存储装置42中，关于与相互不同的提供设施相对应的多个识别信息D的各识别信息D对与在该提供设施内发音出的说话语音V相对应的多个相关信息R进行存储。

图4的通信装置43基于通过控制装置41实现的控制而经由通信网200与其他装置(语音播放装置10、机械翻译装置30或者终端装置50)进行通信。第1实施方式的通信装置43与来自提供设施内的终端装置50的请求相应地，将与该提供设施的识别信息D相对应的大于或等于1个相关信息R发送至请求源的终端装置50。

图6是例示终端装置50的结构的框图。如图6例示那样，第1实施方式的终端装置50具有：控制装置51、存储装置52、通信装置53、拾音装置54、显示装置55和放音装置56。

拾音装置54是对周围的声音进行拾音的声响设备。具体地说，拾音装置54对由语音播放装置10的放音装置16播放的声响进行拾音，生成表示该声响的波形的声响信号Zb。声响信号Zb包含识别信息D的声响成分。此外，为了方便起见而省略由拾音装置54生成的声响信号Zb从模拟变换为数字的A/D变换器的图示。显示装置55由例如液晶显示面板构成，基于通过控制装置51实现的控制而对各种图像进行显示。

控制装置51由例如CPU等处理电路构成，对终端装置50的各要素集中地进行控制。存储装置52对由控制装置51执行的程序和控制装置51所使用的各种数据进行存储。作为存储装置52任意地使用例如半导体记录介质或者磁记录介质等公知的记录介质、或者多种记录介质的组合。

第1实施方式的控制装置51从由拾音装置54生成的声响信号Zb提取识别信息D。具体地说，控制装置51通过执行对声响信号Zb中的包含识别信息D的声响成分的频带进行强调的滤波处理、和与针对识别信息D的调制处理相对应的解调处理，从而从声响信号Zb提取识别信息D。根据以上的说明所理解的那样，第1实施方式的拾音装置54除了被利用于终端装置50相互间的语音通话或者视频拍摄时的语音收录以外，还作为接收机起作用，即，该接收机通过将作为空气振动的声波设为传送介质的声响通信对识别信息D进行接收。

通信装置53基于由控制装置51实现的控制，经由通信网200与信息提供装置40进行通信。例如，通信装置53将相关信息R的请求(以下称为“信息请求”)发送至信息提供装置40。终端装置50所在的提供设施的识别信息D和在终端装置50中设定的语言(以下称为“设定语言”)L在信息请求中被指定。设定语言L是由终端装置50的利用者Ub所指定的语言。另外，通信装置53使与信息请求相应地从信息提供装置40发送出的相关信息R显示在显示装置55。

图7是在第1实施方式所涉及的通信系统100和任意的1个终端装置50中执行的动作的说明图。如图7例示那样，语音播放装置10的控制装置11以来自说话者Ua的指示为契机生成识别信息D而储存于存储装置12(Sa0)。例如在演讲会刚刚开始后执行步骤Sa0的处理。在生成识别信息D后，说话者Ua开始说话语音V的发音。

如图7例示那样，语音播放装置10的拾音装置14对由说话者Ua发音出的说话语音V进行拾音而生成语音信号X(Sa1)。语音播放装置10的通信装置13与来自控制装置11的指示相应地，执行针对语音识别装置20的语音信号X的发送(Sa2)和针对信息提供装置40的识别信息D的发送(Sa3)。此外，语音信号X的发送(Sa2)和识别信息D的发送(Sa3)的顺序是任意的。另外，也可以将语音信号X和识别信息D并行地发送。

语音识别装置20从语音播放装置10接收语音信号X，通过针对该语音信号X的语音识别而生成识别字符串W(Sa4)。识别字符串W从语音识别装置20发送至机械翻译装置30(Sa5)。机械翻译装置30从语音识别装置20接收识别字符串W，通过针对该识别字符串W的机械翻译而生成相互不同的语言的多个相关信息R(Sa6)。与1个说话语音V相对应的多个相关信息R从机械翻译装置30发送至信息提供装置40(Sa7)。信息提供装置40使从语音播放装置10接收到的识别信息D和从机械翻译装置30接收到的多个相关信息R相关联而储存于存储装置42(Sa8)。以上的处理(Sa1～Sa8)针对由说话者Ua发出的说话语音V的每个发音而反复进行，由此表示相互不同的说话语音V的内容的多个相关信息R的时间序列(信息系列G)与表示提供设施的共通的识别信息D相关联，针对每个语言而存储于存储装置42。各说话语音V例如将音量低于阈值的无声区间划分为边界。此外，也可以通过单词或者文章等的分节单位对说话语音V进行划分。

此外，在以上的说明中，例示出语音播放装置10和语音识别装置20进行通信，语音识别装置20和机械翻译装置30进行通信的动作，但也可以由信息提供装置40对各要素间的信息的收发进行中转。例如，从语音播放装置10发送出的语音信号X经由信息提供装置40间接地发送至语音识别装置20，由语音识别装置20生成的识别字符串W经由信息提供装置40间接地发送至机械翻译装置30。

另一方面，发送出语音信号X和识别信息D的语音播放装置10的信号处理电路15，生成表示识别信息D的声响成分和说话语音V的混合音的声响信号Za(Sb1)。而且，通过将声响信号Za供给至放音装置16，从而随说话语音V的播放一起将识别信息D通过声响通信向周围发送(Sb2)。语音信号X及识别信息D的发送(Sa2、Sa3)和声响信号Za的生成及放音(Sb1、Sb2)的顺序是任意的。例如，也可以在执行声响信号Za的生成及放音(Sb1、Sb2)后由通信装置13发送语音信号X及识别信息D。

终端装置50的拾音装置54对由语音播放装置10的放音装置16发出的播放音进行拾音而生成声响信号Zb(Sb3)。终端装置50的控制装置51从声响信号Zb提取识别信息D(Sb4)。终端装置50的通信装置53将包含从声响信号Zb提取出的识别信息D和该终端装置50的设定语言L在内的信息请求发送至信息提供装置40(Sb5)。例如，从终端装置50以规定的周期反复地发送信息请求。

如果接收到从终端装置50发送出的信息请求，则信息提供装置40的控制装置41从存储装置42对在与由该信息请求指定出的识别信息D相对应的多个信息系列G中与由信息请求指定出的设定语言L相对应的信息系列G中的最新的相关信息R进行检索(Sb6)。即，从存储装置42对与识别信息D和设定语言L的组合相对应的相关信息R进行检索。控制装置41将从存储装置42检索出的相关信息R相对于请求源的终端装置50而发送至通信装置43(Sb7)。根据以上的说明所理解的那样，控制装置41作为将相关信息R发送至通信装置43的要素(发送部的例示)起作用。

此外，在以上的例示中，将与识别信息D和设定语言L的组合相对应的信息系列G的多个相关信息R中的最新的1个相关信息R发送至终端装置50，但向终端装置50发送的相关信息R并不限定于以上的例示。例如，也可以将与识别信息D和设定语言L的组合相对应的信息系列G所包含的已有的全部相关信息R发送至终端装置50，也可以将信息系列G内的规定个数的相关信息R发送至终端装置50。另外，也可以对信息系列G的多个相关信息R中的未向终端装置50发送的相关信息R进行选择而发送至该终端装置50。根据以上的说明所理解的那样，信息提供装置40与来自从语音播放装置10接收到识别信息D的终端装置50的信息请求相应地，将与该识别信息D相对应的大于或等于1个相关信息R发送至终端装置50。

此外，在以上的说明中，针对从终端装置50周期性地发送的信息请求的每次接收而由信息提供装置40将相关信息R发送至终端装置50，但对终端装置50发送相关信息R的时期并不限定于以上的例示。例如在从终端装置50接收到信息请求的情况下，作为相关信息R的发送目标可以将该终端装置50登记于信息提供装置40。信息提供装置40针对由说话者Ua发出的说话语音V的每个发音，向作为相关信息R的发送目标而登记的该终端装置50发送相关信息R(推送)。即，终端装置50无需历经多次发送信息请求。

如果接收到从信息提供装置40发送出的相关信息R，则终端装置50的控制装置51使该相关信息R显示于显示装置55(Sb8)。反复进行以上的动作，其结果，在终端装置50的显示装置55中，将由说话者Ua依次发音出的说话语音V的内容以设定语言L表现的多个相关信息R按照时间序列进行显示。

如果演讲会结束，则说话者Ua对信息提供装置40指示处理的结束。信息提供装置40的控制装置11将从演讲会开始时(Sa0)起在本次演讲会中持续地使用的识别信息D从存储装置12删除(Sb9)。通过以上说明的结束处理，在存储装置42中存储的多个相关信息R的时间序列(例如演讲会的议事录)确定。

根据以上的说明所理解的那样，在第1实施方式中，表示依次发音的多个说话语音V的内容的相关信息R与共通的识别信息D相关联而储存于存储装置42。因此，如第1实施方式的例示那样，能够将与依次发音的说话语音V相对应的多个相关信息R的时间序列(例如演讲会的内容)提供给终端装置50。此外，也可以将多个相关信息R的时间序列用作演讲会的议事录。

另外，通过针对说话语音V的语音识别及机械翻译而生成相关信息R，因此具有下述优点，即，能够将通过其他语言表示说话语音V的内容的相关信息R提供给终端装置50。在第1实施方式中特别是生成以相互不同的语言表现出说话语音V的多个相关信息R，将多个相关信息R中的与终端装置50的设定语言L相对应的相关信息R发送至终端装置50。因此，例如能够将以终端装置50的利用者Ub能够理解的语言(设定语言L)表现出说话语音V的内容的相关信息R提供给终端装置50。

＜第2实施方式＞

对本发明的第2实施方式进行说明。此外，关于在以下例示的各结构中作用或者功能与第1实施方式相同的要素，沿用在第1实施方式的说明时使用的标号而适当地省略各自的详细说明。

图8是在第2实施方式所涉及的通信系统100和任意的1个终端装置50中执行的动作的说明图。如图8例示那样，在第2实施方式中，将第1实施方式的步骤Sa5至步骤Sa7置换为步骤Sc1至步骤Sc5。语音识别装置20通过针对说话语音V的语音识别而确定出的识别字符串W发送至信息提供装置40(Sc1)。

如图9例示那样，在信息提供装置40的存储装置42中存储有参照表。参照表是关于以与说话语音V相同的语言表现的多个候选字符串WC的各候选字符串WC，对将该候选字符串WC以相互不同的语言表现的多个登记字符串WR进行了登记的数据表。各候选字符串WC是对说话者Ua作为说话语音V而要发音的内容进行预测的字符串。即，说话者Ua任意地选择事先准备的多个候选字符串WC的任意者而作为说话语音V进行发音。例如，按照将多个候选字符串WC的时间序列作为演讲会中的说话内容进行了记载的脚本由说话者Ua发出说话语音V。此外，也可以将在参照表中登记的多个候选字符串WC由说话者Ua按照登记顺序进行发音。

信息提供装置40的控制装置41对在参照表中登记的多个候选字符串WC中的与识别字符串W相似的候选字符串WC进行搜索，确定与该候选字符串WC相对应的多个登记字符串WR(Sc2)。即，对将与识别字符串W相似的候选字符串WC翻译为相互不同的语言得到的多个登记字符串WR进行确定。具体地说，控制装置41分别关于多个候选字符串WC的各候选字符串WC对与识别字符串W的相似度的指标(以下称为“相似指标”)进行计算，对与多个候选字符串WC中的相似指标所表示的相似度最大的候选字符串WC(即，与识别字符串W最相似的候选字符串WC)相对应的多个登记字符串WR进行确定。即，对将说话语音V翻译为相互不同的语言得到的多个登记字符串WR进行确定。此外，候选字符串WC本身也可以作为登记字符串WR进行利用。相似指标的种类是任意的，例如用于对多个字符串的相互间的相似性进行评价的编辑距离(莱文施泰因距离)等公知的指标适合作为相似指标。

但是，在识别字符串W中，有时包含与候选字符串WC不一致的部分(以下称为“可变部分”)。例如，事先难以设想说话者Ua的发音内容的情况的固有名词等字符串是可变部分的典型例。在各语言的登记字符串WR中没有包含可变部分的翻译文。因此，信息提供装置40的控制装置11将与识别字符串W的可变部分相关的翻译的请求(以下称为“翻译请求”)从通信装置13发送至机械翻译装置30(Sc3)。机械翻译装置30与来自信息提供装置40的翻译请求相应地执行针对可变部分的机械翻译(Sc4)。具体地说，机械翻译装置30生成将可变部分以相互不同的多个语言表现的字符串。可变部分的翻译文从机械翻译装置30发送至信息提供装置40(Sc5)。

在第2实施方式中，将以第1语言表现的识别字符串W中的除了可变部分以外的部分翻译为第2语言得到的登记字符串WR、和将该可变部分通过机械翻译翻译为该第2语言得到的字符串的组合用作相关信息R。即，与第1实施方式同样地，生成将说话语音V的内容以相互不同的语言表现的多个相关信息R。信息提供装置40的控制装置11与第1实施方式同样地，使从语音播放装置10接收到的识别信息D和通过以上的顺序生成的多个相关信息R相关联而储存于存储装置42(Sa8)。以上的处理针对由说话者Ua发出的说话语音V的每个发音而反复进行，从而表示相互不同的说话语音V的内容的多个相关信息R的时间序列(信息系列G)，与表示提供设施的共通的识别信息D相关联，针对每个语言而存储于存储装置42。与来自终端装置50的信息请求相应地从信息提供装置40向该终端装置50发送相关信息R而显示于显示装置55的动作(Sb1～Sb8)与第1实施方式相同。

在第2实施方式中也实现与第1实施方式相同的效果。另外，在第2实施方式中，将多个候选字符串WC中的与识别字符串W相似的候选字符串WC以其他语言表现的登记字符串WR包含于相关信息R。因此，具有下述优点，即，即使在针对说话语音V的语音识别的结果(识别字符串W)中存在误识别的情况下，也能够生成表示适当的字符串的相关信息R。另外，将识别字符串W中的与候选字符串WC存在差异的可变部分以其他语言表现的字符串包含于相关信息R。因此，还具有下述优点，即，能够生成并不限定于事先准备的候选字符串WC的多种内容的相关信息R。

＜第3实施方式＞

对本发明的第3实施方式进行说明。在第3实施方式中，听到从语音播放装置10的放音装置16播放出的说话语音V的利用者Ub对终端装置50进行发音。例如，设想下述情况，即，利用者Ub针对说话者Ua的说话语音V发表意见或者提出疑问。

图10是在第3实施方式所涉及的通信系统100和利用者Ub的终端装置50中执行的动作的说明图。例如，在终端装置50接收到语音播放装置10通过声响通信发送出的识别信息D的状态下开始图10的动作。

如图10例示那样，终端装置50的拾音装置54对由利用者Ub发音的说话语音V进行拾音而生成语音信号X(Sd1)。终端装置50的通信装置53与来自控制装置51的指示相应地，向语音识别装置20发送语音信号X(Sd2)，并且将从语音播放装置10接收到的识别信息D发送至信息提供装置40(Sd3)。此外，语音信号X的发送(Sd2)和识别信息D的发送(Sd3)的顺序是任意的。另外，也可以将语音信号X和识别信息D并行地发送。

语音识别装置20从终端装置50接收语音信号X，通过针对该语音信号X的语音识别而生成识别字符串W(Sd4)。识别字符串W从语音识别装置20发送至机械翻译装置30(Sd5)。机械翻译装置30从语音识别装置20接收识别字符串W，通过针对该识别字符串W的机械翻译而生成相互不同的语言的多个相关信息R(Sd6)。与利用者Ub的说话语音V相对应的多个相关信息R从机械翻译装置30发送至信息提供装置40(Sd7)。信息提供装置40使从利用者Ub的终端装置50接收到的识别信息D和从机械翻译装置30接收到的多个相关信息R相关联而储存于存储装置42(Sd8)。即，表示说话者Ua及利用者Ub各自发音出的说话语音V的内容的多个相关信息R的时间序列(信息系列G)，与表示提供设施的共通的识别信息D相关联，针对每个语言存储于存储装置42。从信息提供装置40向各终端装置50发送相关信息R的动作与第1实施方式相同。

在第3实施方式中也实现与第1实施方式相同的效果。另外，在第3实施方式中，表示利用者Ub针对终端装置50发音出的说话语音V的内容的相关信息R，随与说话者Ua的说话语音V相对应的相关信息R一起与识别信息D相关联而储存于存储装置42。因此，能够将与说话者Ua及利用者Ub依次发音出的说话语音V相对应的多个相关信息R的时间序列提供给各终端装置50。

＜第3实施方式的变形例＞

在第3实施方式中，可以将终端装置50用作语音播放装置10。例如，设想下述情况，即，多个利用者Ub利用自身的终端装置50以任意的内容相互进行对话(即，自由对话)。在对话开始的阶段，从特定的终端装置50通过声响通信将识别信息D发送至周围的各终端装置50。如果各终端装置50的利用者Ub以期望的语言(例如该利用者Ub的母语)发出说话语音V，则由语音识别装置20及机械翻译装置30生成该说话语音V的内容以相互不同的语言表示的多个相关信息R，与识别信息D相关联而储存于信息提供装置40的存储装置42。通过反复进行以上的动作，从而表示各利用者Ub的说话语音V的内容的多个相关信息R的时间序列(信息系列G)，与共通的识别信息D相关联而针对每个语言而存储于存储装置42。各终端装置50从信息提供装置40接收以相互不同的语言表现的多个相关信息R中的、与该终端装置50的设定语言L相对应的相关信息R而显示于显示装置55。即，由多个利用者Ub依次发音出的说话语音V的时间序列以设定语言L而显示于显示装置55。

此外，仅通过识别信息D无法区分各利用者Ub。因此，通过利用针对每个终端装置50的识别信息(以下称为“终端识别信息”)，从而可以区分各利用者Ub。终端识别信息例如是在终端装置50固有的识别信息、或者例如是通过信息提供装置40事先赋予的识别信息。此外，在第3实施方式中也同样地，可以通过终端识别信息而区分说话者Ua和各利用者Ub。例如，还设想下述结构，即，除了对多个利用者Ub各自进行区分的结构以外，还对多个利用者Ub(听取者)的集合和说话者Ua(演讲者)进行区分。

＜变形例＞

以下例示出在以上例示出的各方式附加的具体的变形方式。可以将从以下的例示任意地选择出的2个以上的方式在不相互矛盾的范围适当合并。

(1)在前述的各方式中，在终端装置50的显示装置55显示出相关信息R，但将相关信息R提示给终端装置50的利用者Ub的方法并不限定于以上的例示。例如，也可以将相关信息R所示的语音通过终端装置50的放音装置56进行播放，从而将相关信息R提示给利用者Ub。例如，设想下述结构，即，相关信息R表示语音的结构、或者通过针对相关信息R所表示的字符串的语音合成而生成语音。另外，也可以将演讲会的资料或者在演讲会拍摄到的图像等各种图像(以下称为“资料图像”)从信息提供装置40提供给各终端装置50，使相关信息R和资料图像一起显示于显示装置55。此外，也可以在终端装置50中事先存储资料图像等可事先准备的数据。

(2)可以由语音播放装置10或者信息提供装置40执行针对说话语音V的语音识别、和针对识别字符串W的机械翻译的至少一者。另外，可以将语音识别和机械翻译通过单体装置实现。即，可以将构成通信系统100的2个以上的装置一体地构成，也可以将构成通信系统100的各装置的功能分散至彼此独立的多个装置。

(3)可以省略通过机械翻译装置30进行的机械翻译。例如，可以将通过由语音识别装置20进行的语音识别而生成的识别字符串W作为相关信息R而储存于信息提供装置40的存储装置42。在以上的结构中，将表示以相同的语言表现出说话语音V的字符串的相关信息R提供给终端装置50。因此，通过对在终端装置50的显示装置55显示出的相关信息R进行视觉识别，从而难以听取说话语音V的听力障碍者能够掌握说话语音V的内容。

(4)在前述的各方式中，例示出将通信系统100用于演讲会的情况，但利用通信系统100的场合并不限定于以上的例示。例如，在国际会议等各种会议、竞技大会或者各种讲座等各种场合中，利用通过前述的各方式例示出的通信系统100。另外，在依次发音台词的现场表演会(例如话剧、音乐剧或者歌舞伎)、或者歌唱出乐曲的现场表演会(例如演唱会或者现场直播)中，为了将与由现场表演者(说话者Ua)发出的说话内容相关的相关信息R提供给终端装置50，也可以利用通过前述的各方式例示出的通信系统100。

(5)在前述的各方式中，通过将声波设为传送介质的声响通信从语音播放装置10向终端装置50发送出识别信息D，但用于从语音播放装置10发送识别信息D的通信方式并不限定于声响通信。例如，也可以通过将电波或者红外线等电磁波设为传送介质的无线通信从语音播放装置10向终端装置50发送识别信息D。例如，将前述的各方式中的放音装置56置换为无线通信用的通信设备。具体地说，Bluetooth(注册商标)或者WiFi(注册商标)等无线通信适合于识别信息D的发送。根据以上的例示所理解的那样，在通过语音播放装置10发送识别信息D时，没有经由移动体通信网等通信网的近距离无线通信是适合的，将声波设为传送介质的声响通信和将电磁波设为传送介质的无线通信是近距离无线通信的例示。此外，也可以从独立于语音播放装置10的发送机通过近距离无线通信将识别信息D发送至终端装置50。即，识别信息D无需是从语音播放装置10发送出的信息。

(6)前述的各方式所涉及的信息提供装置40如各方式中的例示那样，是通过控制装置41和程序的协同动作实现的。前述的各方式所涉及的程序，能够以储存于计算机可读取的记录介质的方式提供而安装于计算机。记录介质例如是非易失性(non-transitory)的记录介质，CD-ROM等光学式记录介质(光盘)是优选例，但也能够包含半导体记录介质或者磁性记录介质等公知的任意形式的记录介质。此外，非暂时性的记录介质包含除了暂时性的传输信号(transitory,propagating signal)以外的任意的记录介质，并不将易失性的记录介质排除在外。另外，也可以通过经由通信网的传送方式将程序提供给计算机。

(7)根据以上例示出的方式，例如掌握以下的结构。

本发明的优选的方式(第1方式)所涉及的信息提供方法为，信息提供装置将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对第1装置依次发音出的多个说话语音各自的内容，与来自接收到从所述第1装置发送出的所述识别信息的第2装置的请求相应地，使与该识别信息相对应的大于或等于1个相关信息相对于该第2装置而发送至通信装置。在以上的方式中，表示依次发音出的多个说话语音各自的内容的相关信息与共通的识别信息相关联而储存于存储装置。因此，能够将与依次发音的说话语音相对应的多个相关信息的时间序列提供给第2装置。

在第1方式的优选例(第2方式)中，与所述说话语音的发音并行地，通过从放音装置对表示所述识别信息的声响进行放音的声响通信将该识别信息相对于所述第2装置而发送至通信装置。在以上的方式中，通过利用了对说话语音进行放音的放音装置的声响通信而将识别信息发送至第2装置，因此具有下述优点，即，不需要专用于识别信息的发送的发送机。另外，还具有下述优点，即，能够通过设置隔音物而更容易地对发送识别信息的范围进行限制。此外，也可以通过利用了与对说话语音进行放音的放音装置独立的放音装置的声响通信而发送识别信息。

在第1方式或者第2方式的优选例(第3方式)中，将相关信息与所述识别信息相关联而储存于所述存储装置，该相关信息表示针对所述第2装置发音出的说话语音的内容。在以上的方式中，针对第1装置发音出的说话语音的相关信息和针对第2装置发音出的说话语音的相关信息与共通的识别信息相关联而储存于存储装置。因此，能够提供与由多个说话者依次发音出的说话语音相对应的多个相关信息的时间序列。

在第1方式至第3方式的任一方式的优选例(第4方式)中，所述相关信息是通过针对所述说话语音的语音识别、和针对通过该语音识别所确定出的识别字符串的机械翻译而生成的。在以上的方式中，通过针对说话语音的语音识别及机械翻译而生成相关信息。因此，例如能够将说话语音的内容以其他语言表示的相关信息提供给第2装置。

在第1方式至第4方式的任一方式的优选例(第5方式)中，将通过针对所述说话语音的语音识别和针对通过该语音识别所确定出的识别字符串的机械翻译而生成的与相互不同的语言相对应的多个相关信息，与所述识别信息相关联而储存于所述存储装置，与来自所述第2装置的请求相应地，使与所述相互不同的语言相对应的多个相关信息中的与该第2装置的设定语言相对应的相关信息相对于该第2装置而发送至通信装置。在以上的方式中，通过针对说话语音的语音识别及机械翻译而生成与相互不同的语言相对应的多个相关信息，将多个相关信息中的与第2装置的设定语言相对应的相关信息发送至该第2装置。因此，例如能够将以第2装置的利用者可理解的语言表现出说话语音的相关信息提供给第2装置。

在第1方式至第5方式的任一方式的优选例(第6方式)中，所述相关信息包含将多个候选字符串中的与通过针对所述说话语音的语音识别所确定出的第1语言的识别字符串相似的候选字符串以第2语言表现的字符串、和将所述识别字符串中的与所述候选字符串存在差异的可变部分以该第2语言表现的字符串。在以上的方式中，将多个候选字符串中的与通过针对说话语音的语音识别所确定出的识别字符串相似的候选字符串以其他语言表现的字符串包含于相关信息，因此具有下述优点，即，即使在针对说话语音的语音识别的结果存在误识别的情况下，也能够生成表示适当的字符串的相关信息。另外，将识别字符串中的与候选字符串存在差异的可变部分以其他语言表现的字符串包含于相关信息，因此还具有下述优点，即，能够提供并不限定于事先准备的候选字符串的多种内容的相关信息。

本发明的优选的方式(第7方式)所涉及的信息提供装置具有：控制部，其将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对第1装置依次地发音的多个说话语音各自的内容；以及发送部，其与来自接收到从所述第1装置发送出的所述识别信息的第2装置的请求相应地，使与该识别信息相对应的大于或等于1个相关信息相对于该第2装置而发送至通信装置。在以上的方式中，将表示依次发音出的多个说话语音各自的内容的相关信息与共通的识别信息相关联而储存于存储装置。因此，能够将与依次发音的说话语音相对应的多个相关信息的时间序列提供给第2装置。

标号的说明

10…语音播放装置，11…控制装置，12…存储装置，13…通信装置，14…拾音装置，15…信号处理电路，16…放音装置，20…语音识别装置，30…机械翻译装置，40…信息提供装置，41…控制装置，42…存储装置，43…通信装置，50…终端装置，51…控制装置，52…存储装置，53…通信装置，54…拾音装置，55…显示装置，56…放音装置。

Claims

1.一种信息提供方法，其中，

信息提供装置将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对第1装置依次发音出的多个说话语音各自的内容，

与来自接收到所述识别信息的第2装置的请求相应地，将与该识别信息相对应的大于或等于1个相关信息相对于该第2装置而发送至通信装置。

2.根据权利要求1所述的信息提供方法，其中，

从所述第1装置对所述第2装置发送所述识别信息。

3.根据权利要求1或2所述的信息提供方法，其中，

与所述说话语音的发音并行地，通过从放音装置对表示所述识别信息的声响进行放音的声响通信，将该识别信息发送至所述第2装置。

4.根据权利要求1至3中任一项所述的信息提供方法，其中，

将相关信息与所述识别信息相关联地储存于所述存储装置，该相关信息表示对所述第2装置发音出的说话语音的内容。

5.根据权利要求1至4中任一项所述的信息提供方法，其中，

所述相关信息是通过针对所述说话语音的语音识别、和针对通过该语音识别所确定出的识别字符串的机械翻译而生成的。

6.根据权利要求1至5中任一项所述的信息提供方法，其中，

将通过针对所述说话语音的语音识别和针对通过该语音识别所确定出的识别字符串的机械翻译而生成的、与相互不同的语言相对应的多个相关信息，与所述识别信息相关联地储存于所述存储装置，

与来自所述第2装置的请求相应地，将与所述相互不同的语言相对应的多个相关信息中的与该第2装置的设定语言相对应的相关信息，相对于该第2装置而发送至所述通信装置。

7.根据权利要求1至6中任一项所述的信息提供方法，其中，

所述相关信息包含将多个候选字符串中的与通过针对所述说话语音的语音识别所确定出的第1语言的识别字符串相似的候选字符串以第2语言表现的字符串、和将所述识别字符串中的与所述候选字符串存在差异的可变部分以该第2语言表现的字符串。

8.一种信息提供装置，其具有：

控制部，其将相关信息与共通的识别信息相关联而储存于存储装置，该相关信息表示针对第1装置依次发音出的多个说话语音各自的内容；以及

发送部，其与来自接收到所述识别信息的第2装置的请求相应地，将与该识别信息相对应的大于或等于1个相关信息相对于该第2装置而发送至通信装置。