CN107710322A - 信息提供系统、信息提供方法和计算机可读记录介质 - Google Patents
信息提供系统、信息提供方法和计算机可读记录介质 Download PDFInfo
- Publication number
- CN107710322A CN107710322A CN201680037071.6A CN201680037071A CN107710322A CN 107710322 A CN107710322 A CN 107710322A CN 201680037071 A CN201680037071 A CN 201680037071A CN 107710322 A CN107710322 A CN 107710322A
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- phrase
- login script
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000009434 installation Methods 0.000 claims abstract description 95
- 230000005540 biological transmission Effects 0.000 claims abstract description 17
- 238000013515 script Methods 0.000 claims description 147
- 230000005236 sound signal Effects 0.000 claims description 33
- 238000003780 insertion Methods 0.000 claims description 31
- 230000037431 insertion Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 44
- 238000010276 construction Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 20
- 238000007726 management method Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000004744 fabric Substances 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 239000004956 Amodel Substances 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000009547 dual-energy X-ray absorptiometry Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L15/00—Indicators provided on the vehicle or train for signalling purposes
- B61L15/0018—Communication with or on the vehicle or train
- B61L15/0027—Radio-based, e.g. using GSM-R
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72475—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
- H04M1/72478—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users for hearing-impaired users
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Mechanical Engineering (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种信息提供系统(1),包括:声音拾取单元(22),其用于拾取指导语音并产生语音信号(SG);字符串指定单元(114),其用于指定表示不同的指导语音(V)的发音细节的多个注册字符串中的与表示通过对语音信号(SG)进行语音识别而分析出指导语音的发音细节的语音字符串(L)类似的注册字符串;以及发声单元(26),其用于从对应于不同的指导语音的多组指导信息(G)当中将表达由字符串指定单元(114)指定的注册字符串的分布信息(D)发送至可向用户(U)呈现与分布信息(D)对应的指导信息(G)的终端装置。
Description
技术领域
本发明涉及一种用于向终端装置的用户提供信息的技术。
背景技术
按照常规,已经提出了基于从口头发音获得的语音识别结果用于向用户提供多种信息的技术。例如,专利文献1公开了执行用户的语音的发音的语音识别并且指定中心具有目标点的地图的显示范围和显示刻度等,目标点已经通过使用语音识别被辨识。
现有技术文献
专利文献
专利文献1:日本专利申请特开公布H03-175478
发明内容
本发明要解决的问题
如果可以在诸如火车或巴士的公共交通服务上对指导语音广播执行语音识别,以及如果可将包括识别文本或其翻译的指导信息提供给乘客,那么对于难以听到指导语音的听障人士或者对于不理解指导语音的语言的外国人来说将是方便的。然而,实际上,难以实现完美的语音识别。例如,因为例如个体播音员独有的说话特征(习惯)或者在接收语音的过程中出现背景噪声而可发生识别错误。将以上情形纳入考虑,本发明的目的在于根据指导语音向用户提供合适的指导信息。
解决问题的手段
为解决上述问题,根据本发明的一种信息提供系统包括:声音接收器,其被构造为接收指导语音并产生声音信号;文本辨识器,其被构造为从表示不同指导语音的发音的内容的多个注册文本当中辨识与表示指导语音之一的发音的内容的发音文本相似的注册文本,所述发音文本通过使用语音识别分析声音信号而获得;以及信息发送器,其被构造为将指示由文本辨识器辨识的注册文本的分布信息发送至终端装置,其中,终端装置被构造为向用户呈现与各自的指导语音对应的多条指导信息当中的与所述分布信息对应的指导信息。通过该构造,从各自表示指导语音之一的发音的内容的所述多个注册文本当中将指示与声音接收器接收的指导语音的发音文本相似的注册文本的分布信息发送至终端装置。这样,与将通过使用语音识别分析接收到的声音信号获得的发音文本提供至终端装置的构造相比,可向终端装置的用户提供不含语音识别错误的合适的指导信息。
根据本发明的优选实施例,信息提供系统还包括:信号处理器,其被构造为产生包括分布信息的声音的音频信号,并且信息发送器包括:声音输出器,其被构造为输出由声音接收器接收的指导语音和由信号处理器产生的音频信号的声音。通过这种构造,输出由声音接收器接收的指导语音的声音输出器也用于输出包括分布信息的声音(即,使用空气振动的声音作为传输介质的声音通信)。因此,相比于与指导语音的输出分开地将分布信息发送至终端装置的构造相比,可简化信息提供系统的构造。在信息发送器发送由文本辨识器辨识的注册文本的辨识信息作为分布信息的构造中,可通过与使用磁波或电波作为传输介质的无线电通信相比具有较低传输容量的声音通信将分布信息合适地发送至终端装置。
在本发明的另一优选示例中,终端装置包括:存储单元,其被构造为存储所述多条指导信息;以及提供器,其被构造为向用户呈现所述多条指导信息当中的与从信息发送器发送的分布信息对应的指导信息。在这种构造中,将存储在终端装置的存储单元中的所述多条指导信息当中的与从信息发送器发送的分布信息对应的指导信息呈现给终端装置的用户。结果,这种构造的优点在于:终端装置不需要出于获取指导信息的目的而经由通信网络执行通信。
在本发明的又一优选实施例中,文本辨识器从所述多个注册文本当中辨识与发音文本相似的注册文本,并且还从待插入至注册文本中设置的插入节段中的多个待插入短语当中辨识与发音文本中的插入节段对应的部分类似的待插入短语,并且信息发送器将指示由文本辨识器辨识的注册文本和待插入短语的分布信息发送至终端装置。在这种构造中,从可插入至注册文本中已设置的插入节段中的所述多个短语当中辨识与对应于发音文本中的插入节段的部分相似的待插入短语。然后,将指示注册文本和待插入短语的分布信息发送至终端装置。因此,在输出通过将不同短语插入固定文本中获得的不同类型的指导语音的情况下,可向终端装置的用户呈现与插入有不同短语的不同指导语音对应的指导信息,而不需要针对不同指导语音准备单独的注册文本。
在本发明的另一优选实施例中,终端装置包括:存储单元,其被构造为存储所述多个注册文本和所述多个待插入短语;指导信息产生器,其被构造为产生指导信息,通过将存储在存储单元中的所述多个待插入短语当中的由分布信息指示的待插入短语进行插入来获得所述指导信息,所述短语被插入至存储在存储单元中的所述多个注册文本当中的由从信息发送器发送的分布信息指示的注册文本中的插入节段中;以及提供器,其被构造为向用户呈现由指导信息产生器产生的指导信息。通过该构造,终端装置的指导信息产生器从存储在终端装置的存储单元中的所述多个注册文本和所述多个待插入短语当中产生将分布信息指示的待插入短语插入至分布信息指示的注册文本中的指导信息。因此,这种构造的优点在于:终端装置不需要出于获取指导信息的目的而经由通信网络执行通信。
在本发明的另一优选实施例中,文本辨识器通过参照表示指导语音提供指导的对象的状态的状态信息选择待插入短语。在该构造中,基于与发音文本的相似性以及指导的对象的状态来选择待插入短语(或者待插入短语和注册文本)。因此,可向终端装置的用户呈现考虑了指导的对象的实际状态的准确的指导信息。
也可将根据上述实施例的信息提供装置实现为根据信息提供装置的不同功能而执行处理的信息提供方法。可替换地,信息提供装置可实现为使得计算机执行这种方法的程序。更具体地说,根据本发明的计算机系统中的信息提供方法包括步骤:接收指导语音并产生声音信号;从表示不同指导语音的发音的内容的多个注册文本当中辨识与表示指导语音之一的发音的内容的发音文本相似的注册文本,所述发音文本通过使用语音识别分析声音信号而获得;以及将指示由文本辨识器辨识的注册文本的分布信息发送至终端装置,其中,终端装置被构造为向用户呈现与各自的指导语音对应的多条指导信息当中的与所述分布信息对应的指导信息。
此外,根据本发明的程序使得计算机执行:声音接收处理,接收指导语音和产生声音信号;文本辨识处理,从表示不同指导语音的发音的内容的多个注册文本当中辨识与表示指导语音之一的发音的内容的发音文本相似的注册文本,所述发音文本通过使用语音识别分析声音信号而获得;以及信息传输处理,将指示由文本辨识器辨识的注册文本的分布信息发送至终端装置,其中终端装置被构造为向用户呈现与各自的指导语音对应的多条指导信息当中的与所述分布信息对应的指导信息。通过这种信息提供方法或者程序,实现与通过信息提供装置实现的效果基本上相同的效果。可将根据本发明的程序在计算机可读记录介质上按照计算机可读格式安装在计算机中。
附图说明
图1是根据本发明的第一实施例的信息提供系统的示意图;
图2是语音指导系统和管理装置的框图;
图3是指导表的示图;
图4是终端装置的框图;
图5是指导信息的显示示例;
图6是说明信息提供系统的操作的示图;
图7是说明根据第二实施例的注册文本和待插入短语的示图;
图8是根据第二实施例的信息提供系统的框图;
图9是根据第二实施例的指导表的示图;
图10是根据第二实施例的待插入短语表的示图;
图11是示出根据第二实施例的文本辨识器的操作的流程的流程图;
图12是根据第二实施例的终端装置的框图;
图13是根据第三实施例的信息提供系统的框图;
图14是根据变型的信息提供系统的框图。
具体实施方式
第一实施例
图1是根据本发明的第一实施例的信息提供系统1的框图。根据第一实施例的信息提供系统1是为诸如火车或巴士的公共交通服务的用户U提供信息的计算机系统。信息提供系统1包括语音指导系统100和管理装置10。语音指导系统100设置在例如火车或巴士的车厢C中,并且经由包括例如互联网的通信网络200与管理装置10进行通信。管理装置10是例如连接至通信网络200的服务器(例如网络服务器)。乘坐在车厢C中的每个用户U携带终端装置30。终端装置30是便携式信息处理装置,并且可为移动电话、智能电话等。在现实中,虽然车厢C内的多个用户U很可能为了方便起见使用信息提供系统1提供的服务,但是在下面的说明中,将着重于描述单个终端装置30。
操作员OP(例如车厢C的驾驶员或售票员)发出语音发音(下文中,指导语音)V以在公共交通服务上提供指导。例如,提供关于车厢C的操作的信息的语音发音,诸如说出“请不要冲进列车”或者“列车由于红灯停止”作为指导语音V。在第一实施例中,假设情况是,其中操作员OP选择并说出预先准备的多个文本(下文中,注册文本)中的任一个作为指导语音V。
信息提供系统1将指定多个注册文本中的与操作员OP发出的指导语音V的发音对应的注册文本的信息(下文中,分布信息)D发送至终端装置30。终端装置30向用户U呈现与从信息提供系统1获取的分布信息D对应的指导信息。指导信息是涉及指导语音V的信息。在第一实施例中,给出了注册文本作为指导信息的示例。也就是说,向用户U呈现预先准备的所述多个注册文本中的、由分布信息D指定的单个类型的注册文本作为指导信息。根据以上构造,由于表示操作员OP已说出的指导语音V的说话内容的注册文本作为指导信息呈现给用户U,因此难以听到指导语音V的听障人士能够理解指导语音V的内容。
语音指导系统100
图2是语音指导系统100和管理装置10的框图。如图2所示,语音指导系统100被构造为包括分布式终端20、声音接收器22、加法器24和声音输出器26。声音接收器22是接收周围的声音的音频装置(麦克风)。操作员OP例如根据公共交通服务的状态选择并说出预先准备并被包括在通告小册子中的多个注册文本中的任一个来作为指导语音V。换句话说,根据第一实施例的指导语音V的内容是预先准备的基本已知的内容,并且不是操作员OP能够自由定义的内容。根据第一实施例的声音接收器22接收操作员OP说出的指导语音V并且产生表示指导语音V的时间波形的声音信号SG。为了方便,附图中未示出将声音接收器22产生的声音信号SG从模拟转换为数字的A/D转换器。
声音接收器22产生的声音信号SG作为音频信号S1经加法器24被供应至声音输出器26。声音输出器26是输出与从加法器24供应的音频信号S1对应的声音的音频装置(扬声器)。例如,从声音输出器26输出声音信号SG表示的指导语音V的声音,以传输给用户U。从以上说明中将理解的是,根据第一实施例的语音指导系统100是由连接至常规车载广播系统的分布式终端20和加法器24组成的音频系统,常规车载广播系统从声音输出器26广播由声音接收器22接收到的指导语音V。然而,可自由选择语音指导系统100的形式,例如,可在单个装置上安装分布式终端20、声音接收器22、加法器24和声音输出器26的不同元件。
由声音接收器22产生的声音信号SG在从声音接收器22与加法器24之间的路径分支之后被供应至分布式终端20。可替换地,可通过无线电将声音信号SG供应至分布式终端20。
分布式终端20是这样的装置,其被构造为为终端装置30提供与由声音接收器22供应的声音信号SG表示的指导语音V对应的分布信息D。例如,通过诸如移动电话和智能电话的便携式终端装置来实现分布式终端20。如图2所示,分布式终端20被构造为包括控制器210和通信器220。通信器220经通信网络200与管理装置10进行通信。根据第一实施例的通信器220是通过无线电与通信网络200进行通信的无线电通信装置。
控制器210是控制分布式终端20的整体操作的控制装置(例如,中央处理单元(CPU))。当控制器210执行存储在诸如半导体记录介质或者磁记录介质的公知的记录介质(未示出)中的程序时,实现了用于获取和分布与指导语音V对应的分布信息D的多个功能(语音获取器212和信号处理器214)。
语音获取器212从声音接收器22获取表示指导语音V的声音信号SG并且将该声音信号SG通过通信器220经由通信网络200发送至管理装置10。管理装置10接收从语音指导系统100发送的声音信号SG,并且产生指定与声音信号SG表示的指导语音V对应的注册文本的分布信息D。管理装置10产生的分布信息D从管理装置10发送至语音指导系统100。通信器220从通信网络200接收从管理装置10发送的分布信息D。
信号处理器214产生表示包括由通信器220从管理装置10接收到的分布信息D在内的声音的音频信号SD。音频信号SD包括作为指定频带内的音频分量的分布信息D。更具体地说,音频信号SD的频带是可通过声音输出器26进行声音输出和通过终端装置30进行声音接收的频带。而且,该频带在比诸如语音(例如,指导语音V)和音乐的声音的频带更高的频带(例如,18kHz与20kHz之间,包括端值)范围内,所述语音和音乐可在普通环境中存在并且用户可听见。当信号处理器214产生音频信号SD时,可自由地选择公知的技术。例如,可采用按次序执行利用扩频码对分布信息D进行扩频调制和利用指定频率的载波进行频率变换以产生音频信号SD的构造。可替换地,可采用利用分布信息D对指定频率的载波(例如正弦波)进行频率调制而产生音频信号SD的另一构造。
语音指导系统100的加法器24通过将信号处理器214产生的音频信号SD和声音接收器22产生的声音信号SG相加来产生音频信号S1。因此,与操作员OP说出的指导语音V一起输出分布信息D的音频分量作为声音输出器26的声音。从以上说明中将理解的是,根据第一实施例的声音输出器26用作通过声音通信向终端装置30发送分布信息D的元件(信息发送器),所述声音通信使用空气振动中的声音(即,声波)作为传输介质。因此,用于输出通过声音接收器22接收的指导语音V的声音输出器26也用于传输分布信息D。为了方便,图中未示出将音频信号S1从数字信号转换为模拟信号的D/A转换器。
管理装置10
管理装置10是管理提供至终端装置30的分布信息D的装置。如图2所示,管理装置包括控制器110、存储单元120和通信器130。管理装置10可实现为单个装置,或者可替换地,可通过彼此分离地构造的多个装置来实现管理装置10。例如,利用控制器110例如经通信网络200从存储单元120读取和写入存储单元120,存储单元120(云存储)可与管理装置10分离地设置。换句话说,可从管理装置10中省略存储单元120。
控制器110是控制装置,例如,控制管理装置10的整体操作的CPU。通信器130经通信网络200与分布式终端20通信。例如,通信器130接收从分布装置20发送的声音信号SG。控制器110执行的程序以及控制器110使用的各种数据存储在存储单元120中。例如,可自由地使用诸如半导体记录介质和磁记录介质的公知的记录介质,或者多个这种公知的记录介质的组合作为存储单元120。根据第一实施例的存储单元120存储指导表TA。
图3是指导表TA的模型。如图3所示,指导表TA是多个注册文本X(X1、X2…)分别与多条分布信息D(D1、D2…)关联的数据表。注册文本X(X1、X2…)各自表示互相不同的指导语音V中的对应的一个的说出的内容。也就是说,在指导表TA中注册包括在操作员OP在说出指导语音V时参照的通告小册子中的所述多个注册文本X(操作员OP可说出的文本)。各条分布信息D是唯一分配至对应的注册文本X的辨识信息。
图2所示的语音分析器112通过使用对通信器130从分布式终端20接收的声音信号SG执行的语音识别来分析表示指导语音V的发音的内容的文本(下文中,发音文本)L。可自由地使用任何公知的技术来对声音信号SG执行语音识别,示例有使用诸如隐马尔可夫模型(Hidden Markov Model,HMM)的音频模型和指示语言限制的语言模型的识别技术。如在前文中,由于操作员OP说出预先准备的注册文本X,在理想的情况下,基于声音信号SG由语音分析器112辨识的发音文本L应该匹配在指导表TA中注册的注册文本X之一。然而,实际上,因为例如个体操作员OP的独特的说话特征(习惯)或者由于车厢C中的背景噪声,在通过语音分析器112执行的分析中可能发生识别错误。结果,会存在彼此类似的发音文本L和注册文本X可能没有严格地彼此对应的情况。例如,即使操作员OP说出注册文本X“ka-ke-ko-mijoh-sha-ni go-chu-i ku-da-sa-i”(日语语句,意思是“请不要冲进列车”),而语音分析器112实际辨识的发音文本L可为与“ka-ki-ko-mi joh-sha-ni go-chu-i ku-ra-ha-i”等同的一些语句。(在该示例中,注册文本X中的“ka-ke-ko-mi”变为发音文本L中的“ka-ki-ko-mi”,而注册文本X中的“ku-da-sa-i”变为“ku-ra-ha-i”。)可替换地,可采用以下另一构造,其中控制器110不提供语音分析器112,而是使用例如经通信网络200连接至管理装置10的不同的语音分析装置作为替代对声音信号SG执行语音识别。
针对不同指导语音V中的每一个,文本辨识器114从指导表TA中注册的多个注册文本X中辨识与语音分析器112分析的发音文本L相似的注册文本X。更具体地说,文本辨识器114计算指导表TA中的所述多个注册文本X中的每一个与发音文本L的相似程度的指数(下文中,相似性指数),并且从所述多个注册文本X中辨识相似性指数指示的相似性最高的一个注册文本X(即,与发音文本L最相似的注册文本X)。可自由地选择相似性指数的类型,并且可使用任何公知的指数,诸如用于评价文本之间的相似性的编辑距离(Levenshtein距离)。通过文本辨识器114执行的对注册文本X的辨识也可解释为用于校正由语音分析器112分析的发音文本L的处理以使其与注册文本X(与发音文本L相似的文本)一致。文本辨识器114从指导表TA中获取与按照以上方式辨识的注册文本X对应的分布信息D,并且将分布信息D从通信器130发送至语音指导系统100的分布式终端20。
从以上说明中将理解的是,从管理装置10将注册文本X的分布信息D发送至分布式终端20,注册文本X对应于发音文本L,并且注册文本X不存在语音分析器112造成的识别错误(操作员OP的独特的说话特征的影响)并且也不存在接收声音时发生的背景噪声的影响。如上所述,在语音指导系统100中,从声音输出器26输出通信器220从管理装置10接收到的分布信息D的音频分量以及指导声音V。仅在操作员OP完成说出指导语音V并且已经完成对发音文本L的分析之后,才执行对注册文本X的辨识以及将分布信息D向分布式终端20的传输。因此,在相对于指导语音V的输出存在延迟的情况下从声音输出器26输出分布信息D的音频分量。
终端装置30
图4是终端装置30的框图。如图4所示,终端装置30被构造为包括声音接收器310、控制器320、存储单元330和提供器340。控制器320是控制终端装置30的整体操作的控制装置(例如,CPU)。控制器320执行的程序(指导程序)和控制器320使用的各种数据存储在存储单元330中。在第一实施例中,在存储单元330中存储指导表TB,如图4所示。
指导表TB是多条指导信息G(G1、G2…)(每条指导信息与彼此不同的指导语音V中的相应的一个相对应)分别与多条分布信息D(D1、D2…)关联的数据表。根据第一实施例,对应于一条指导语音V的一条指导信息G是表示指导语音V的发音的内容的注册文本X,并且一条分布信息D与该注册文本X关联。换句话说,根据第一实施例的指导表TB包含与存储在管理装置10的存储单元120中的指导表TA相同的内容。诸如半导体记录介质或磁记录介质的任何公知的记录介质或者多种这些记录介质的组合可构成存储单元330。通过执行存储在存储单元330中的程序的控制器320来实现用于向用户U呈现在指导表TB中注册的指导信息G的多个功能(信息提取器322和信息管理器324)。
声音接收器310是一种接收周围的声音的音频装置(麦克风),并且声音接收器310通过接收从分布式终端20的声音输出器26输出的声音来产生音频信号S2。音频信号S2包括指示分布信息D的音频分量(音频信号SD)。为了方便,用于转换声音接收器310产生的音频信号S2的A/D转换器未示出。
信息提取器322通过解调声音接收器310产生的音频信号S2来提取分布信息D。更具体地说,信息提取器322通过以下步骤提取分布信息D:使用例如带通滤波器通过强调音频信号S2中的包括分布信息D的频带分量;随后让该带分量通过匹配的滤波器,该匹配的滤波器使用对分布信息D的扩频调制中使用的扩频码作为系数。信息管理器324从指导表TB中的所述多个指导信息G中选择与信息提取器322提取的分布信息D对应的指导信息G(注册文本X)。
提供器340向终端装置30的用户U呈现由信息管理器324选择的指导信息G。根据第一实施例的提供器340是显示由指导信息G指示的注册文本X的显示装置(例如,液晶显示面板)。从以上说明中将理解的是,与操作员OP说出的指导语音V的发音的内容(发音文本L)对应的注册文本X作为指导信息G在提供器340上呈现给用户U。例如,即使通过对表示指导语音V的声音信号SG执行的语音识别辨识出不正确的发音文本L“ka-ki-ko-mi joh-sha-nigo-chu-iku-ra-ha-i”,在终端装置30的提供器340上也显示注册文本X“ka-ke-ko-mi joh-sha-ni go-chu-i ku-da-sa-i”作为指导信息G,如图5所示。通过浏览提供器340上呈现的指导信息G,用户U能够通过视觉识别与操作员OP说出并且随后从声音输出器26输出的指导语音V有关的指导信息G。
图6示出了信息提供系统1的整体操作。当操作员OP说出与注册文本X对应的指导语音V时,语音指导系统100的声音接收器22接收所述指导语音V并且产生声音信号SG(SA1)。由声音接收器22产生的声音信号SG从声音接收器22输出至声音输出器26(SA2),作为声音输出,同时通过语音获取器212获取相同的声音信号SG并且将其从通信器220发送至通信网络220(SA3)。
当通信器130从通信网络200接收从分布式终端20发送的声音信号SG时,管理装置10的语音分析器112对指导语音V的声音信号SG执行语音识别并且对表示指导语音V的发音的内容的发音文本L进行分析(SA4)。文本辨识器114从指导表TA中的多个注册文本X中辨识与语音分析器112分析的发音文本L相似的注册文本X(SA5)。换句话说,将发音文本L校正为注册文本X,注册文本X不具有语音分析器112造成的任何识别错误。通信器130将与文本辨识器114选择的注册文本X对应的分布信息D发送至分布式终端20(SA6)。
当通信器220接收从管理装置10发送的分布信息D时,分布式终端20的信号处理器214产生包括作为分布信息D的音频分量的音频信号SD(SA7)。分布式终端20的加法器24通过将声音接收器22产生的声音信号SG与信号处理器214产生的音频信号SD相加来产生音频信号S1(SA8)。声音输出器26输出对应于音频信号S1的声音(SA9)。也就是说,从声音输出器26输出声音接收器22接收的指导语音V以及分布信息D的音频分量。
终端装置30的声音接收器310接收从声音输出器26输出的声音并且产生音频信号S2(SA10)。信息提取器322通过解调由声音接收器310产生的音频信号S2来提取分布信息D(SA11)。信息管理器324从指导表TB中选择与信息提取器322提取的分布信息D对应的指导信息G。提供器340向用户U呈现由信息管理器324选择的指导信息G指示的注册文本X(SA12)。
如上所述,根据第一实施例,注册文本X的分布信息D被发送至终端装置30,注册文本X是表示互相不同的指导语音V的发音内容的多个注册文本X当中的、与发音文本L相似的注册文本X,所述发音文本L由对指导声音V的声音信号SG执行语音识别的语音分析器112辨识。因此,与将语音分析器112分析的发音文本L提供至终端装置30的构造相比,可经终端装置30为用户U提供更合适的指导信息G,指导信息G不受任何语音识别错误的影响。
根据以上构造,语音指导系统100的声音输出器26输出由声音接收器22接收的指导语音V以及分布信息D的音频分量。因此,用于输出指导语音V的声音的声音输出器26也用于输出包括分布信息D的声音,并且通过利用用作传输介质的空气振动而传输声音来将分布信息D发送至终端装置30。结果,与独立于指导语音V的输出将分布信息D发送至终端装置30的构造相比,可简化信息提供系统1的构造。
同时,声音通信的传输量往往小于使用磁波或电波作为传输介质的无线电通信的传输量。结果,例如,难以通过声音通信将由文本辨识器114辨识的注册文本X从声音输出器26发送至终端装置30。然而,根据第一实施例,将由文本辨识器114辨识的注册文本X的辨识信息作为分布信息D从声音输出器26发送至终端装置30,因此,可利用声音通信将该分布信息D发送至终端装置30,而不管传输量的限制。
第二实施例
下面将描述本发明的第二实施例。在下面描述的实施例中,对于具有与第一实施例的行为和功能相同的行为和功能的元件,将使用与第一实施例的描述中使用的标号相同的标号,并且将省略对其的详细说明。
操作员OP待说出的注册文本X可以是由多个指导语音V共同使用的固定部分(下文中,固定短语)和插入固定短语的特定部分中的可变部分(下文中,待插入短语)构成的文本(下文中,特定注册文本)。例如,如图7所示,假设存在用于向用户U播报车厢C的目的地的特定注册文本X“本列车驶往XX。”。在特定注册文本X中,设置插入节段TK(图7所示的节段,指示为XX),并且将多个不同的待插入短语Y中的任一个选择性地插入到插入节段TK中。待插入短语Y可包括诸如站名或路线名的合适的名词或者指定了用于上或下的站台号的名词。在图7中,将诸如“涩谷(Shibuya)”、“虾夷(Ebisu)”或“目黑(Meguro)”的站名示为待插入词语Y的示例。
图8是根据第二实施例的语音指导系统100和管理装置10的框图。如图8所示,管理装置10的存储单元120存储指导表TA1和待插入短语表TA2。
图9是根据第二实施例的指导表TA1的模型。根据第二实施例的指导表TA1是多个注册文本X(X1、X2、…)按照与第一实施例中的相同的方式分别与对应的一条辨识信息DX(DX1、DX2、…)关联的数据表。在根据第二实施例的指导表TA1中,然而,除了可以注册不包括插入节段TK的注册文本X以外,还可注册包括插入节段TK的特定注册文本X。在特定注册文本X中的插入节段TK处,附有预定符号以指示插入节段TK。一条辨识信息DX是唯一分配至各个注册文本X的辨识信息。
图10是根据第二实施例的待插入短语表TA2的示图。待插入短语表TA2采取数据表的形式,其中多个待插入短语Y(Y1、Y2、…)各自与对应的一条辨识信息DY(DY1、DY2、…)相关联。更具体地说,在待插入短语表TA2中注册可插入至特定注册文本X的插入节段TK中的多个待插入短语Y。一条辨识信息DY是唯一地分配至各个待插入短语Y的辨识信息。
图8的文本辨识器114从指导表TA1中注册的所述多个注册文本X中辨识与发音文本L相似并且通过语音分析器112按照与第一实施例的方式相同的方式被分析的注册文本X。此外,当注册文本X是包括插入节段TK的特定注册文本X时,根据第二实施例的文本辨识器114从在待插入短语表TA2中注册的多个待插入短语Y中辨识与发音文本L的目标部分LK相似的待插入短语Y。如图7所示,发音文本L的目标部分LK是发音文本L中的、等同于与特定注册文本X的插入节段TK对应的待插入短语的部分。图11是示出根据第二实施例的文本辨识器114的操作的示图。当语音分析器112辨识发音文本L时,开始图11所示的处理。
文本辨识器114从指导表TA1中的所述多个注册文本X中选择与发音文本L相似的注册文本X(SB1)。注意,特定注册文本X的插入节段TK和发音文本L的目标部分LK不匹配。然而,由于发音文本L中的除插入节段TK以外的固定短语与注册文本X中的除插入节段TK以外的固定短语相似或相同,因此即使使用与根据第一实施例的相似性指数相似的相似性指数的构造,特定注册文本X的相似性指数将对应于操作员OP说出的指导语音V的可能性也会很高并且被最大化。结果,文本辨识器114可辨识特定注册文本X。然而,从减少特定注册文本X的插入节段TK与发音文本L的目标部分LK之间的差别的影响的立场来看,优选的替代性的构造是关于特定注册文本X的插入节段TK和发音文本L的目标部分LK而降低了权重(相似性指数反映的程度)之后计算特定注册文本X与发音文本L之间的相似性指数的构造。也就是说,特定注册文本X与发音文本L中的固定短语是否彼此相似主要由相似性指数反映,并且降低了特定注册文本X的插入节段TK与发音文本L的目标部分LK是否彼此相似的影响。因此,当操作员OP说出作为特定注册文本X与任何待插入短语Y的组合的指导语音V时,可合适地辨识特定注册文本X。
文本辨识器114判断根据指导表TA1辨识的注册文本X是否是特定注册文本X(即,是否存在插入节段TK)(SB2)。当注册文本X不包括插入节段TK时(SB2:否),文本辨识器114将注册文本X的辨识信息DX作为分布信息D按照与第一实施例中的方式相同的方式从通信器130发送至语音指导系统100(SB3)。利用声音通信按照与第一实施例中的方式相同的方式从语音指导系统100的声音输出器26将分布信息D发送至终端装置30。
当根据指导表TA1辨识的注册文本X是特定注册文本X时(SB2:是),通过文本辨识器114从待插入短语表TA2中辨识与发音文本L的目标部分LK相似的待插入短语Y(SB4)。更具体地说,文本辨识器114从发音文本L中提取与特定注册文本X的插入节段TK对应的目标部分LK。然后,文本辨识器114针对在待插入短语表TA2中注册的所述多个待插入短语Y中的每一个来计算指示与目标部分LK的相似性的相似性指数。计算相似性指数的方法与第一实施例中的相同。然后,文本辨识器114辨识相似性指数指示的相似性的程度最大的单个待插入短语Y(即,与发音文本L中的目标部分LK最相似的待插入短语Y)。
文本辨识器114将分布信息D从通信器130发送至语音指导系统100(SB5),分布信息D包括在步骤SB1中辨识的特定注册文本X的辨识信息DX和在步骤SB4辨识的待插入短语Y的辨识信息DY。利用声音通信将分布信息D从语音指导系统100的声音输出器26发送至终端装置30。从以上说明中将理解的是,根据第二实施例的声音输出器26将指示与发音文本L和待插入短语Y相似的特定注册文本X的分布信息D发送至终端装置30。
图12是根据第二实施例的终端装置30的框图。如图12所示,指导表TB1和待插入短语表TB2在根据第二实施例的终端装置30的存储单元330中。指导表TB1是多个注册文本X按照与管理装置10中的指导表TA1相同的方式各自与对应的辨识信息DX关联的数据表。与管理装置10的待插入短语表TB2相似,待插入短语表TB2是可插入至特定注册文本X中的多个待插入短语Y各自与对应的一条辨识信息DY关联的数据表。
信息管理器324产生指导信息G,其对应于信息提取器322从语音指导系统100输出的声音中提取的分布信息D。更具体地说,在分布信息D包括特定注册文本的辨识信息DX和待插入短语Y的辨识信息DY的情况下,信息管理器324向提供器340指示通过将特定注册文本X和待插入短语Y组合而获得的文本作为指导信息G。更具体地说,信息管理器324从指导表TB1中选择与辨识信息DX对应的特定注册文本X,并且从待插入短语表TB2中选择与辨识信息DY对应的待插入短语Y以产生通过将待插入短语Y插入特定注册文本X的插入节段TK获得的指导信息G。换句话说,信息管理器324是产生待插入短语Y插入到插入节段TK的指导信息G的指导信息产生器,待插入短语Y是存储在存储单元300中的多个待插入短语Y中的、由分布信息D(辨识信息DY)指示的短语,并且插入节段TK在已提取的分布信息D(辨识信息DX)指示的注册文本X中,已提取的分布信息D由信息提取器322从存储在存储单元330中的多个注册文本X中提取。另一方面,在分布信息D不包括待插入短语Y的辨识信息DY的情况下(即,当文本辨识器114辨识了不包括插入节段TK的注册文本X时),信息管理器324从指导表TB1中选择由分布信息D(辨识信息DX)指示的注册文本X作为指导信息G,并且将其指示给提供器340。
通过第二实施例也实现了与通过第一实施例实现的效果相同的效果。此外,根据第二实施例,从可插入至特定注册文本X的插入节段TK中的多个待插入短语Y中辨识与发音文本L的目标部分LK相似的待插入短语Y,并且将指示特定注册文本X和待插入短语Y的分布信息D发送至终端装置30。因此,在说出了固定语句中插入了不同的待插入短语的多个指导语音V的情况下,可向终端装置30的用户呈现与其待插入短语Y彼此不同的各指导语音V对应的多条指导信息G中的合适的一条,而不需要针对各个指导语音V另外准备注册文本X。
根据第二实施例的终端装置30从存储在存储单元330中的多个注册文本X和多个待插入短语Y中产生由分布信息D指示的待插入短语Y插入至由分布信息D指示的注册文本X中的指导信息G,因此,终端装置30不需要经通信网络200执行通信,以获取指导信息G。
第三实施例
根据第二实施例,从在待插入短语表TB2中注册的多个待插入短语Y中选择与发音文本L中的目标部分LK相似的待插入短语Y。根据第三实施例,除了基于发音文本L的目标部分LK与待插入短语Y之间的相似性之外,还基于将在其上提供指导的车厢C的状态(例如,轨道/巴士状态)来插入待插入短语Y。
图13是根据第三实施例的语音指导系统100和管理装置10的框图。如图13所示,除了包括与第一实施例中包括的元件相同的元件(即,控制器210和通信器220)之外,根据第三实施例的语音指导系统100的分布式终端20还包括信息获取器230。信息获取器230产生指示车厢C的状态的状态信息Q。例如,信息获取器230被构造为包括定位车厢C的定位装置(例如全球定位系统(GPS)),并且产生指示车厢C的地点的地点信息作为状态信息Q。从通信器220将信息获取器230获取的状态信息Q发送至管理装置10。
根据第三实施例的文本辨识器114按照与第二实施例中的方式相同的方式选择用于特定注册文本X的待插入短语Y。然而,应该注意,关于根据第三实施例选择待插入短语Y,除了考虑发音文本L与待插入短语Y之间的相似性以外,还考虑通过分布式终端20从通信器130接收到的状态信息Q。更具体地说,文本辨识器114首先从在待插入短语表TB2中注册的多个待插入短语Y中辨识与发音文本L的目标部分LK相似的两个或更多个待插入短语(下文中,候选的待插入短语)Y。例如,作为候选的待插入短语Y,当所述多个待插入短语Y根据显示它们与目标部分LK的相似程度的相似性指数按照降序列出时,两个或更多个待插入短语Y在次序上位于高位。可替换地,可选择其相似性指数超过特定阈的两个或更多个待插入短语Y。然后,文本辨识器114从多个候选的待插入短语Y中选择与状态信息Q对应的单个短语。更具体地说,文本辨识器114从多个候选的待插入短语Y中选择指示与状态信息Q指示的车厢C的地点最接近的站的名称的候选的待插入短语Y。也就是说,从所述多个候选的待插入短语Y中,选择被认为是在车厢C的当前状态下操作员OP最可能说出的待插入短语Y。该处理可表达为利用状态信息Q对多个候选的待插入短语Y进行过滤。在以上说明中,在根据示出候选的待插入短语Y与发音文本L的相似程度的它们的相似性指数执行对待插入短语Y的选择之后执行利用状态信息Q对待插入短语Y的确定。可替换地,可利用状态信息Q对候选的待插入短语Y进行过滤,然后可根据示出其与发音文本L的相似程度的其相似性指数选择待插入短语Y。
通过第三实施例可实现与通过第一实施例实现的相同的效果。此外,根据第三实施例,由于根据指示指导语音V的对象(即,车厢C)的状态的状态信息Q来选择待插入短语Y,因此可向终端装置30的用户U呈现考虑了指导目标的实际状态(即,轨道/巴士状态)的正确指导信息G。
同时,状态信息Q的内容不限于车厢C的地点。例如,文本辨识器114可获取就在车厢C前方的站名和车站所在的路线作为状态信息Q。文本辨识器114从多个候选的待插入短语Y中选择状态信息Q指示的路线上的、指示就在车厢C前方或者刚才停靠的车站之后并且由状态信息Q指示的站名(即,从对基于车厢C刚才停靠的车站的判断中,操作员OP最可能说出的示出的站名)的候选短语。在指示时间的待插入短语Y的注册文本X(例如,“现在是hh:mm。”或者“列车将在下午hh到达。”)被插入到插入节段TK的情况下,可优选地使用指示当前时间或车厢C的工作计划表的状态信息Q。
文本辨识器114从中获取状态信息Q的系统不限于语音指导系统100。例如,可采用这样的构造:文本辨识器114从按照统一方式管理多个车厢C的操作的操作管理系统中获取状态信息Q。另一可能构造是管理装置10管理各个车厢C的操作的构造。
变型
可按照各种方式修改上述实施例。下面例示了特定的变型。下面呈现的示例中的任何两个或更多个可进行组合,只要它们彼此不矛盾。
(1)在上面描述的实施例中,注册文本X作为指导信息G呈现给终端装置30的用户U。然而,指导信息G的内容不限于这些示例。例如,可将翻译为另一语言的注册文本X作为指导信息G呈现给终端装置30的用户U。更具体地说,在图4的指导表TB中存储注册文本X的翻译,作为不同的指导信息G(G1、G2、…)。根据该构造,由于在播放指导语音V之后将指导语音V的翻译呈现给用户U,因此尤其对于不理解指导信息V说出的语言的外国人很有帮助。可替换地,可向用户U呈现涉及由注册文本X提供的指导的信息(例如,预期停靠站周围区域的旅游信息)作为指导信息G。
在先前呈现的实施例中,提供器340显示指导信息G。然而,将指导信息G呈现给用户U的装置不限于该示例(显示器)。例如,可使用输出指导信息G的声音的扬声器或头戴式耳机作为提供器340。在这种情况下,信息管理器324可通过对作为文本存储在存储单元330中的指导信息G进行语音合成来获取指导信息G的声音。可替换地,指示指导信息G的声音的语音信息本身可预先存储在存储单元330中。
(2)可存在指导语音V的发音文本L与指导表TA中的任何注册文本X都不相似的情况。在发音文本L与任何文本X都不相似的这种情况下,可将语音分析器112已经分析的发音文本L(或者发音文本L的翻译)从管理装置10经通信网络200发送至终端装置30。在发音文本L与多个注册文本X中的任何一个都不相似的这种示例中,可省略将分布信息D传输至终端装置30。
(3)在第一实施例中,将注册文本X的辨识信息作为分布信息D发送至终端装置30。在第二实施例和第三实施例中,将注册文本X的辨识信息DX和待插入短语Y的辨识信息DY作为分布信息D发送至终端装置30。然而,分布信息D的内容不限于这些示例。例如,注册文本X本身(或者通过将待插入短语Y插入至特定注册文本X中获得的文本)可作为分布信息D被发送至终端装置30。
(4)在上述实施例中,文本辨识器114辨识与发音文本L相似的单个注册文本X。然而,可假设多个注册文本X与发音文本L相似(其相似性指数彼此接近)的情况。将以上情况纳入考虑,可根据操作员OP输入至语音指导系统100(例如,分布式终端20)中的指令优选地选择与发音文本L相似的所述多个注册文本X中的任一个。换句话说,操作员OP可从与发音文本L相似的所述多个注册文本X中选择他/她说出的单个注册文本X。在该示例中,重点集中在注册文本X上,但是可采用操作员OP选择与发音文本L中的目标部分LK相似的多个待插入短语Y中的任一个的构造。
(5)在第三实施例中,提供了文本辨识器114根据状态信息Q从多个候选的待插入短语Y中选择单个待插入短语Y的示例构造。这也可应用于注册文本X,并且可采用根据状态信息Q从多个注册文本X中选择单个注册文本X的构造。例如,文本辨识器114首先从在指导表TB1中注册的多个注册文本X中辨识与发音文本L相似的两个或更多个候选的注册文本X。例如,可选择当所述多个注册文本X根据示出它们与发音文本L的相似程度的它们的相似性指数按照降序列出时在次序上位于高位的两个或更多个注册文本X作为候选。另一示例可为选择它们的相似性指数超过阈的两个或更多个注册文本X作为候选的示例。
然后,文本辨识器114根据状态信息Q从所述多个注册文本X中选择单个注册文本X。根据该构造,从多个注册文本X中选择在车厢C的当前状态下被认为是操作员OP很可能说出的注册文本X。按照这种方式,例如,可适当地从状态信息Q中排除不可能被假设的注册文本X。更具体地说,例如,当基于车厢C正在运动的状态信息Q确定时,可从候选中排除注册文本X“请不要冲进列车。”。
(6)在先前呈现的实施例中,信息提供系统1由彼此分离地设置的管理装置10和语音指导系统100构成。然而,语音指导系统100的构造不限于这种构造。例如,管理装置10的功能的一部分或全部可设置在语音指导系统100中(例如,分布式终端20中)。即,作为根据不同的实施例的信息提供处理的执行器的计算机系统不一定是包括管理系统10和语音指导系统100的信息提供系统1,但是作为替代可仅为语音指导系统100。
(7)在上述实施例中,向用户U选择性地呈现存储在终端装置30的存储单元330中的多条指导信息G。然而,用于向用户U呈现对应于分布信息D的指导信息G的构造不限于该示例。例如,可将包括从语音指导系统100获取的分布信息D在内的分布请求从终端装置30发送至保留多条指导信息G的分布装置,随后分布装置可将所述多条指导信息G中的与分布请求辨识的分布信息D对应的指导信息G发送至已经请求指导信息G的终端装置30。该构造的优点在于,终端装置30不必在存储单元330中保留多条指导信息G。相反,根据向用户U呈现存储在终端装置30的存储单元330中的指导信息G的构造,如在上述实施例中那样,获得了不必在终端装置30与分布装置之间经通信网络执行通信的优点。
(8)在上面描述的实施例中,在终端装置30的存储单元330中预先存储指导表TB。然而,可采用在预定时间从连接至通信网络200的单独的分布装置的管理装置10(下文中,管理装置10,等)中通过终端装置30获取指导表TB的另一构造。预定时间可为例如其中假设用户U已乘坐在车厢C中的时间点。更具体地说,可假设指示车厢C的位置的GPS位置信息与用户U的终端装置30的GPS位置信息匹配的情况或者用户U的终端装置30接收发送至车厢C内的通信装置的短距离无线电信号(例如信标信号)的情况。此外,例如,可假设用户U通过使终端装置30读取张贴在车厢C中的信息图像(例如,QR码(注册商标))将他/她的位置信息注册在管理装置10等中的情况。预定时间的其它示例有:终端装置30从管理装置10等下载根据该实施例的指导程序的时间;或者终端装置30接收包括指导表TB的分布信息的声音信号的时间。应该注意,除指导表TB之外,还可从管理装置10等中获取待插入短语表TB2。
当至少获取指导表TB或待插入短语表TB2时,可获取包括在这些表中的信息的一部分。例如,在指导表TB包括与不同的语言对应的信息的情况下,可获取与期望的语言的对应一部分信息(例如,与德语注册文本X对应的一部分信息)。其它构造可包括将指导表TB或者待插入短语表TB2中的至少一个周期性地更新为新表的构造,或者发现与分布信息对应的注册文本未被存储在指导表TB中的情况下将指导表TB或待插入短语表TB2中的至少一个更新为新表的构造。另外,可采用以下构造:当启动(执行)指导程序时参照管理装置10等确定是否存在更新的指导表TB或者待插入短语表TB2,并且如果存在更新的表,则将其获取。
(9)在先前呈现的实施例中,通过使用声音作为传输介质的声音通信将分布信息发送至终端装置30。然而,从语音指导系统100将分布信息D发送至终端装置30的通信方法不限于声音通信。例如,可通过利用诸如电波和红外线等的磁波的无线电通信将分布信息D从语音指导系统100发送至终端装置30。从上面可以理解,发送分布信息D的优选方法是不需要通信网络200的短距离无线电通信。使用声音音作为传输介质的声音通信和使用磁波作为传输介质的无线电通信是这种短距离无线电通信的示例。
(10)在上述实施例中,语音指导系统100的声音输出器26通过声音通信将分布信息D发送至终端装置30。然而,将分布信息D发送至终端装置30的构造不限于此。例如,管理装置10的通信器130可经通信网络200将分布信息D发送(例如,推送)至终端装置30。
从上面应该理解,可将“信息发送器”完全表达为将分布信息D发送至终端装置30的元件,分布信息D指示注册文本X或者特定注册文本X和由文本辨识器114辨识的一个或多个待插入短语Y。根据不同的实施例,“信息发送器”的概念还包括将分布信息D经通信网络200发送至终端装置30的发送器130以及声音输出器26。
(11)在前面描述的实施例中,操作员OP说出的指导语音V的声音信号SG和包括分布信息D的音频信号SD通过在分布式终端20以外设置的加法器24相加。然而,声音信号SG和音频信号SD可通过分布式终端20相加。例如,如图14所示,可省略从声音接收器22至声音输出器26的路径。分布式终端20的信号处理器214将分布信息D的音频信号SD加至通过语音获取器212从声音接收器22获取的指导语音V的声音信号SG。所得音频信号S1被供应至声音输出器26。在图14所示的构造中,例如,分布式终端20可保留声音信号SG,在产生分布信息D之后,可将分布信息D的音频信号SD与保留的声音信号SG相加,以供应至声音输出器26(因此,相对于操作员OP说出指导语音V的时间点延迟地从声音输出器26输出指导语音V)。
(12)根据上述实施例的信息提供系统可实现为专用电子电路系统,或者可通过诸如CPU的通用算术处理单元与程序之间的协作实现。根据本发明的程序可按照存储在计算机可读记录介质中的格式设置并且安装在计算机中。记录介质是例如非临时性记录介质,并且其优选的示例可为诸如CD-ROM的光学记录介质(光盘),但是还可包括公知的自由选择的格式的记录介质,诸如半导体记录介质或磁记录介质。应该注意,根据本说明书的“非临时性”记录介质包括除临时、传播中的信号之外的所有计算机可读记录介质,并且不排除易失性记录介质。例如,本发明的程序可按照经通信网络分布的格式设置并且安装在计算机中。此外,还可将本发明认为是根据先前呈现的实施例中的任一个的信息提供系统的操作方法(信息提供方法)。
标号说明:
1:信息提供系统
10:管理装置
30:终端装置
100:语音指导系统
110:控制器
112:语音分析器
114:文本辨识器
120:存储单元
130:通信器
20:分布式终端
22:声音接收器
24:加法器
26:声音输出器
210:控制器
212:语音获取器
214:信号处理器
220:通信器
310:声音接收器
320:控制器
322:信息提取器
324:信息管理器
330:存储单元
340:提供器
Claims (13)
1.一种信息提供系统,包括:
声音接收器,其被构造为接收指导语音并产生声音信号;
文本辨识器,其被构造为从表示不同指导语音的发音的内容的多个注册文本当中辨识与表示所述指导语音之一的发音的内容的发音文本相似的注册文本,所述发音文本通过使用语音识别分析所述声音信号而获得;以及
信息发送器,其被构造为将指示由所述文本辨识器辨识的注册文本的分布信息发送至终端装置,其中,所述终端装置被构造为向用户呈现与各自的指导语音对应的多条指导信息当中的与所述分布信息对应的指导信息。
2.根据权利要求1所述的信息提供系统,还包括:信号处理器,其被构造为产生包括所述分布信息在内的声音的音频信号,
其中,所述信息发送器包括:声音输出器,其被构造为输出由所述声音接收器接收的指导语音和由所述信号处理器产生的音频信号的声音。
3.根据权利要求1或2所述的信息提供系统,
其中,所述终端装置包括:
存储单元,其被构造为存储所述多条指导信息;以及
提供器,其被构造为向所述用户呈现所述多条指导信息当中的与从所述信息发送器发送的分布信息对应的指导信息。
4.根据权利要求1或2所述的信息提供系统,
其中,所述文本辨识器从所述多个注册文本当中辨识与所述发音文本相似的注册文本,并且还从被插入所述注册文本中设置的插入节段中的多个待插入短语当中辨识与所述发音文本中的插入节段所对应的部分类似的待插入短语,并且
其中,所述信息发送器将指示由所述文本辨识器辨识的所述注册文本和待插入短语的分布信息发送至所述终端装置。
5.根据权利要求4所述的信息提供系统,
其中,所述终端装置包括:
存储单元,其被构造为存储所述多个注册文本和所述多个待插入短语;
指导信息产生器,其被构造为产生指导信息,通过将存储在所述存储单元中的所述多个待插入短语当中的由分布信息指示的待插入短语进行插入来获得所述指导信息,所述短语被插入至存储在所述存储单元中的所述多个注册文本当中的由从所述信息发送器发送的分布信息指示的注册文本中的插入节段中;以及
提供器,其被构造为向用户呈现由所述指导信息产生器产生的指导信息。
6.根据权利要求4或5所述的信息提供系统,
其中,所述文本辨识器通过参照表示所述指导语音要提供指导的对象的状态的状态信息来选择待插入短语。
7.根据权利要求4至6中的任一项所述的信息提供系统,
其中,所述文本辨识器通过参照表示所述指导语音要提供指导的对象的状态的状态信息来选择所述注册文本。
8.一种计算机系统中的信息提供方法,包括:
接收指导语音并产生声音信号;
从表示不同指导语音的发音的内容的多个注册文本当中辨识与表示指导语音之一的发音的内容的发音文本相似的注册文本,所述发音文本通过使用语音识别分析所述声音信号而获得;以及
将指示由所述文本辨识器辨识的注册文本的分布信息发送至终端装置,其中,所述终端装置被构造为向用户呈现与各自的指导语音对应的多条指导信息当中的与所述分布信息对应的指导信息。
9.根据权利要求8所述的信息提供方法,包括:
产生包括所述分布信息在内的声音的音频信号;以及
输出指导语音和音频信号的声音。
10.根据权利要求8或9所述的信息提供方法,包括:
在辨识注册文本时,从所述多个注册文本当中辨识与所述发音文本相似的注册文本,并且还从被插入至所述注册文本中设置的插入节段中的多个短语当中辨识待插入至所述发音文本中的插入节段中的短语,以及
将指示由所述文本辨识器辨识的注册文本和待插入短语的分布信息而不是指示辨识的注册文本的分布信息发送至所述终端装置。
11.根据权利要求10所述的信息提供方法,包括:
在辨识待插入短语时,通过参照表示所述指导语音指导的对象的状态的状态信息来选择待插入短语。
12.根据权利要求10或11所述的信息提供方法,包括:
在辨识注册文本时,通过参照表示所述指导语音指导的对象的状态的状态信息来选择注册文本。
13.一种计算机可读记录介质,其中记录有程序,所述程序使得计算机执行:
声音接收处理,接收指导语音以产生声音信号;
文本辨识处理,从表示不同指导语音的发音的内容的多个注册文本当中辨识与表示指导语音之一的发音的内容的发音文本相似的注册文本,所述发音文本通过使用语音识别分析所述声音信号而获得;以及
信息传输处理,将指示由所述文本辨识器辨识的注册文本的分布信息发送至终端装置,其中,所述终端装置被构造为向用户呈现与各自的指导语音对应的多条指导信息当中的与所述分布信息对应的指导信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015126736A JP6033927B1 (ja) | 2015-06-24 | 2015-06-24 | 情報提供システムおよび情報提供方法 |
JP2015-126736 | 2015-06-24 | ||
PCT/JP2016/066660 WO2016208366A1 (ja) | 2015-06-24 | 2016-06-03 | 情報提供システム、情報提供方法、およびコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107710322A true CN107710322A (zh) | 2018-02-16 |
CN107710322B CN107710322B (zh) | 2021-04-30 |
Family
ID=57419872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680037071.6A Active CN107710322B (zh) | 2015-06-24 | 2016-06-03 | 信息提供系统、信息提供方法和计算机可读记录介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10621997B2 (zh) |
EP (1) | EP3316254B1 (zh) |
JP (1) | JP6033927B1 (zh) |
CN (1) | CN107710322B (zh) |
WO (1) | WO2016208366A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140384A (zh) * | 2015-10-15 | 2018-06-08 | 雅马哈株式会社 | 信息管理系统和信息管理方法 |
CN112399943A (zh) * | 2018-06-12 | 2021-02-23 | 西门子交通有限公司 | 用于记录与轨道车辆相关的信息的方法和设备 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7192948B2 (ja) * | 2017-03-15 | 2022-12-20 | ヤマハ株式会社 | 情報提供方法、情報提供システムおよびプログラム |
JP6984769B2 (ja) * | 2017-03-15 | 2021-12-22 | ヤマハ株式会社 | 情報提供方法および情報提供システム |
JP6915357B2 (ja) * | 2017-04-14 | 2021-08-04 | ヤマハ株式会社 | 情報提供方法および情報提供システム |
JP6984259B2 (ja) * | 2017-09-13 | 2021-12-17 | ヤマハ株式会社 | 信号処理方法、信号処理装置、および情報提供システム |
US20210269073A1 (en) * | 2018-06-21 | 2021-09-02 | Siemens Mobility GmbH | Method and device for controlling a rail vehicle |
FR3087608B1 (fr) * | 2018-10-17 | 2021-11-19 | Akoustic Arts | Enceinte acoustique et procede de modulation pour une enceinte acoustique |
JP2020127131A (ja) * | 2019-02-05 | 2020-08-20 | オムロン株式会社 | 携帯端末、放送システム、表示装置、データ受信方法、およびデータ受信プログラム |
JP7259445B2 (ja) * | 2019-03-20 | 2023-04-18 | 株式会社リコー | 音波発信装置、音波発信プログラム、および音波発信方法 |
EP3798090A1 (de) * | 2019-09-27 | 2021-03-31 | Siemens Mobility GmbH | Verfahren zum überwachen einer gesprochenen kommunikation im zugverkehr und zugehöriges zugleitsystem |
JP6786005B1 (ja) * | 2020-04-09 | 2020-11-18 | 日鉄エンジニアリング株式会社 | 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法 |
JP6786001B1 (ja) * | 2020-04-09 | 2020-11-18 | 日鉄エンジニアリング株式会社 | 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010053977A1 (en) * | 2000-06-19 | 2001-12-20 | Realperson, Inc. | System and method for responding to email and self help requests |
US20040006547A1 (en) * | 2002-07-03 | 2004-01-08 | Dehlinger Peter J. | Text-processing database |
CN102436808A (zh) * | 2011-11-09 | 2012-05-02 | 武汉安通科技产业发展有限公司 | 数字双向智能语音讲解系统及其方法 |
CN102866824A (zh) * | 2011-06-07 | 2013-01-09 | 三星电子株式会社 | 执行链接的显示设备和方法及其识别语音的方法 |
CN103189912A (zh) * | 2010-10-21 | 2013-07-03 | 雅马哈株式会社 | 声音处理设备和声音处理方法 |
CN107004416A (zh) * | 2014-11-20 | 2017-08-01 | 雅马哈株式会社 | 信息发送装置、信息发送方法、引导系统和通信系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2701492B2 (ja) | 1989-12-05 | 1998-01-21 | ソニー株式会社 | 地図表示装置 |
JPH09146585A (ja) * | 1995-11-27 | 1997-06-06 | Hitachi Ltd | 音声認識翻訳システム |
JP2001272246A (ja) | 2000-03-23 | 2001-10-05 | Honda Motor Co Ltd | 道路交通情報通知装置 |
JP3937348B2 (ja) | 2004-05-21 | 2007-06-27 | 埼玉日本電気株式会社 | 携帯端末の事故防止付加機能動作システム及び方法 |
JP2006039382A (ja) | 2004-07-29 | 2006-02-09 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006240826A (ja) | 2005-03-03 | 2006-09-14 | Mitsubishi Electric Corp | エレベータかご内表示装置 |
JP2007140200A (ja) * | 2005-11-18 | 2007-06-07 | Yamaha Corp | 語学学習装置およびプログラム |
JP4512549B2 (ja) | 2005-12-06 | 2010-07-28 | 財団法人鉄道総合技術研究所 | 放送内容送信システム |
EP2312763A4 (en) * | 2008-08-08 | 2015-12-23 | Yamaha Corp | MODULATION DEVICE AND DEMODULATION DEVICE |
JP2010083378A (ja) | 2008-09-30 | 2010-04-15 | Toshiba Corp | 携帯型経路案内装置 |
JP2012063611A (ja) * | 2010-09-16 | 2012-03-29 | Nec Corp | 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム |
JP2014075067A (ja) * | 2012-10-05 | 2014-04-24 | Zenrin Datacom Co Ltd | 交通機関案内メッセージ提供システム、交通機関案内メッセージ提供装置、携帯通信端末および交通機関案内メッセージ提供方法 |
US9514129B2 (en) * | 2014-07-18 | 2016-12-06 | Intel Corporation | Technologies for providing textual information and systems and methods using the same |
US9558747B2 (en) * | 2014-12-10 | 2017-01-31 | Honeywell International Inc. | High intelligibility voice announcement system |
-
2015
- 2015-06-24 JP JP2015126736A patent/JP6033927B1/ja active Active
-
2016
- 2016-06-03 CN CN201680037071.6A patent/CN107710322B/zh active Active
- 2016-06-03 WO PCT/JP2016/066660 patent/WO2016208366A1/ja active Application Filing
- 2016-06-03 EP EP16814137.2A patent/EP3316254B1/en active Active
-
2017
- 2017-11-30 US US15/827,615 patent/US10621997B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010053977A1 (en) * | 2000-06-19 | 2001-12-20 | Realperson, Inc. | System and method for responding to email and self help requests |
US20040006547A1 (en) * | 2002-07-03 | 2004-01-08 | Dehlinger Peter J. | Text-processing database |
CN103189912A (zh) * | 2010-10-21 | 2013-07-03 | 雅马哈株式会社 | 声音处理设备和声音处理方法 |
CN102866824A (zh) * | 2011-06-07 | 2013-01-09 | 三星电子株式会社 | 执行链接的显示设备和方法及其识别语音的方法 |
CN102436808A (zh) * | 2011-11-09 | 2012-05-02 | 武汉安通科技产业发展有限公司 | 数字双向智能语音讲解系统及其方法 |
CN107004416A (zh) * | 2014-11-20 | 2017-08-01 | 雅马哈株式会社 | 信息发送装置、信息发送方法、引导系统和通信系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140384A (zh) * | 2015-10-15 | 2018-06-08 | 雅马哈株式会社 | 信息管理系统和信息管理方法 |
CN112399943A (zh) * | 2018-06-12 | 2021-02-23 | 西门子交通有限公司 | 用于记录与轨道车辆相关的信息的方法和设备 |
US11631396B2 (en) | 2018-06-12 | 2023-04-18 | Siemens Mobility GmbH | Method and device for logging an item of information relating to a rail vehicle |
Also Published As
Publication number | Publication date |
---|---|
CN107710322B (zh) | 2021-04-30 |
JP6033927B1 (ja) | 2016-11-30 |
US20180082697A1 (en) | 2018-03-22 |
EP3316254A1 (en) | 2018-05-02 |
EP3316254A4 (en) | 2019-01-23 |
WO2016208366A1 (ja) | 2016-12-29 |
JP2017009862A (ja) | 2017-01-12 |
US10621997B2 (en) | 2020-04-14 |
EP3316254B1 (en) | 2019-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107710322A (zh) | 信息提供系统、信息提供方法和计算机可读记录介质 | |
CN102006373B (zh) | 基于语音命令控制的车载服务系统及方法 | |
US8775181B2 (en) | Mobile speech-to-speech interpretation system | |
CN109036374B (zh) | 数据处理方法和装置 | |
CN109257659A (zh) | 字幕添加方法、装置、电子设备及计算机可读存储介质 | |
CN106537496A (zh) | 终端装置、信息提供系统、信息呈现方法和信息提供方法 | |
CN109637525B (zh) | 用于生成车载声学模型的方法和装置 | |
JP2005275925A (ja) | サーバシステム | |
JP2009175630A (ja) | 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN112242143A (zh) | 一种语音交互方法、装置、终端设备及存储介质 | |
EP3364409A1 (en) | Information management system and information management method | |
CN109147791A (zh) | 一种速记系统和方法 | |
EP3223275B1 (en) | Information transmission device, information transmission method, guide system, and communication system | |
US20220208190A1 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
CN107251121B (zh) | 信息提供装置、终端装置、信息提供系统以及信息提供方法 | |
CN112201225B (zh) | 一种语料获取的方法、装置、可读存储介质和电子设备 | |
CN107316644A (zh) | 用于信息交互的方法及装置 | |
JP4292846B2 (ja) | 音声対話装置及び音声対話代行装置並びにそれらのプログラム | |
JP2020190756A (ja) | 管理装置およびプログラム | |
US20170352269A1 (en) | Information provision device, terminal device, information provision system, and information provision method | |
KR101883365B1 (ko) | 전문가 교정이 가능한 발음 학습 시스템 | |
KR101982501B1 (ko) | 정간보 악보 변환 장치, 그리고 이를 이용한 정간보 악보 관리 시스템 및 방법 | |
CN110880326A (zh) | 语音交互系统及方法 | |
CN113470624B (zh) | 声音检测方法 | |
JP2017016163A (ja) | 管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |