CN1328321A - 通过语音提供信息的装置和方法 - Google Patents
通过语音提供信息的装置和方法 Download PDFInfo
- Publication number
- CN1328321A CN1328321A CN01123183.1A CN01123183A CN1328321A CN 1328321 A CN1328321 A CN 1328321A CN 01123183 A CN01123183 A CN 01123183A CN 1328321 A CN1328321 A CN 1328321A
- Authority
- CN
- China
- Prior art keywords
- speech
- standard
- language
- sentence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 50
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 71
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 69
- 238000004458 analytical method Methods 0.000 claims description 100
- 230000014509 gene expression Effects 0.000 claims description 77
- 230000004044 response Effects 0.000 claims description 73
- 239000000284 extract Substances 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 53
- 230000000694 effects Effects 0.000 claims description 32
- 230000008676 import Effects 0.000 claims description 31
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 230000002269 spontaneous effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 239000003550 marker Substances 0.000 description 44
- 238000003909 pattern recognition Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 13
- 230000007423 decrease Effects 0.000 description 10
- 230000001105 regulatory effect Effects 0.000 description 9
- 241000345998 Calamus manan Species 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 235000012950 rattan cane Nutrition 0.000 description 8
- 230000019771 cognition Effects 0.000 description 7
- 244000299461 Theobroma cacao Species 0.000 description 6
- 235000009470 Theobroma cacao Nutrition 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000005945 translocation Effects 0.000 description 5
- 241001544487 Macromiidae Species 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001846 repelling effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003760 hair shine Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012567 pattern recognition method Methods 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
一种通过语音提供信息的装置,具有分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,并且利用相对应的词来替换全部或部分所选择标准句型中的标准词;和语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成;其中所说相关信息是指与标准词相关的词和预定标准词是有关的。
Description
本发明涉及一种通过语音提供信息的装置,一种通过语音提供信息的方法和一种程序,该程序用于分析输入信号或类似的输入文本、语音、图象等等,将其转换为语音,并输出语音。
作为第一个通过语音提供信息的传统装置,已知该装置在假设输入完整的和语法正确的句子时,执行包括对输入句子进行语法分析的语言处理,并且基于语言处理的结果而进行语音合成。
除该装置外,作为第二个通过语音提供信息的传统装置,已知在已公开的NO.H08-63187号日本专利申请的语音合成装置,用作通过自然和容易捕捉的语音来读出例如交通信息或天气条件等用铅版印刷的句子的语音服务。
第二个装置将信息分成与全部合成信息所共有固定信息的铅版印刷部分,和在信息中变化的非铅版印刷部分,并且将储存在数据库中的语音信息应用到用铅版印刷部分,并且将通过合成所获得的语音信息应用到非铅版印刷部分,因此产生提供信息的语音。
这里,储存在数据库的语音信息是例如应用到用铅版印刷部分的音位持续时间和基频模式的语调信息;并且通过合成所获得的语音信息是例如应用到非铅版印刷部分的音位持续时间和基频模式的语调信息,其中根据句子中每个非铅版印刷部分位置的音节数和重音类型对信息进行分类和储存。连接所有的基频,并且在信息的基础上产生语音波形。
如上所述,通过语音的传统信息提供是,类似第一个装置,在假设输入完整的和语法正确的句子时,执行包括对输入句子进行语法分析的语言处理,并且基于语言处理的结果而执行语音合成;或者是类似第二个装置,相应于例如交通信息和天气条件等限制范围的信息,输入固定格式的信号并且通过它唯一确定铅版印刷句子而应用到铅版印刷句子来执行语音合成。
但是,在第一个装置中,需要输入完整的和语法正确的句子,并且不能处理包括如印刷错误或省略词等输入错误的句子。因此,当存在输入错误时,输入句子就不能转换为听众所能理解的语音。
此外,在第一个装置中,难以创建语音合成中所使用的语调信息。因此,难以通过自然语音提供信息。
此外,在第二个装置中,由于句子中非铅版印刷部分的位置是预定的,因此容易创建语调信息,并因此可以通过自然语音提供信息。但是,将固定格式书写的输入句子转换为铅版印刷句子是必需的。此外,不能处理包括例如印刷错误或省略词等格式错误的句子。因此,当存在格式错误时,输入句子就不能转换为听众所能理解的语音。
也就是说,根据通过语音的传统信息、提供,来通过自然语音提供信息、,需要输入固定格式的句子。
此外,根据通过语音的传统信息提供,需要输入是完整的和语法正确的句子或是固定格式,并且当存在例如印刷错误或省略词等输入错误或格式错误时,输入句子就不能转换为听众所能理解的语音。
此外,不能将例如词的列举、图象、温度和压力等非语言表达的输入转换为所能理解的语音。
考虑到上述问题,本发明的目的是,提供一种通过语音提供信息的装置,一种通过语音提供信息的方法和一种能够接受任意输入并且通过自然语音提供信息的程序。
考虑到上述问题,本发明的另一个目的是,提供一种通过语音提供信息的装置,一种通过语音提供信息的方法和一种能够接受任意输入并且即使存在输入错误时也能输出听众能理解语音的程序。
考虑到上述问题,本发明的另一个目的是,提供一种通过语音提供信息的装置,一种通过语音提供信息的方法和一种能够将例如语音、图象或声音等非语言表达输入转换为能理解语音的程序。
本发明的第一个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,并且利用相对应的词来替换全部或部分所选择标准句型中的标准词;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与标准词相关的词和预定标准词是有关的。
根据第一个发明点,本发明的第二个发明点是一种通过语音提供信息的装置,其中所说预定标准是在相关信息中出现的词选择。
本发明的第三个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,并且通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对所选择的标准句型进行语音合成;
其中所说预定标准是指与预备标准句型中所注册的任一词一致的词的选择。
本发明的第四个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第二语言的标准词来替换所提取的第一语言的词,通过使用第二语言的标准词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型,并且利用相应于与第二语言标准词相对应的第一语言词的第二语言词来替换所选择第二语言标准句型中的全部或部分第二语言的标准词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与第二语言标准词相关的第一语言词和第二语言的预定标准词是有关的。
本发明的第五个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关言息用第一语言的标准词来替换所提取的第一语言的词,通过使用第一语言的标准词从多个第一语言的预备标准句型中选择与输入句子最相关的第一语言的标准句型,识别与所选择的第一语言标准句型有关的第二语言预备标准句型,并且利用第二语言词来替换所识别第二语言标准句型中的全部或部分第二语言的标准词,其中第二语言词相当于与相应于第二语言标准词的第一语言标准词相对应的第一语言输入词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与第一语言标准词相关的第一语言词和第一语言的预定标准词是有关的。
根据第四个或第五个发明点,本发明的第六个发明点是一种通过语音提供信息的装置,其中所说预定标准是在相关关系中出现的第一语言词选择。
本发明的第七个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,并且通过使用与所提取的第一语言词相对应的第二语言词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对所选择的第二语言标准句型进行语音合成;
其中所说预定标准是指与第二语言预备标准句型中所注册的任一第二语言词相符的第一语言词的选择。
本发明的第八个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用所提取的第一语言词从多个第一语言的预备标准句型中选择与第一语言输入句子最相关的第一语言的标准句型,并且识别与所选择的第一语言标准句型相对应的第二语言预备标准句型;和
语音合成装置,通过使用至少预先为所识别第二语言标准句型指定的语调信息,对所识别的第二语言标准句型执行语音合成;
其中所说预定标准是指与第一语言的预备标准句型中所注册的任一第一语言词相符的第一语言词的选择。
本发明的第九个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,识别与所选择标准句型相对应的预定响应标准句型,并且利用相对应的词来替换全部或部分所识别响应标准句型中的标准词;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与标准词相关的词和预定的标准词是有关的。
根据第九个发明点,本发明的第十个发明点是一种通过语音提供信息的装置,其中所说预定标准是在相关信息中出现的词选择。
本发明的第十一个发明点是一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型,并且识别与所选择标准句型相对应的预定响应标准句型;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对所识别的响应标准句型进行语音合成;
其中所说预定标准是指与预备标准句型中所注册词相同的词选择。
根据本发明的第一个、第二个、第四个、和第五个到第十个发明点中的任一个,本发明的第十二个发明点是一种通过语音提供信息的装置,其中当利用词替换所选择标准句型的标准词时,所说分析装置离开所选择标准句型的标准词,标准词不再与词相对应,或者利用预定词来替换不再与词相对应的标准词。
根据本发明的第一个到第十一个发明点中的任一个,本发明的第十三个发明点是一种通过语音提供信息的装置,其中全部或部分预备标准句型的每一个都与预定操作和/或图象数据有联系。
根据本发明的第十三个发明点,本发明的第十四个发明点是一种通过语音提供信息的装置,其中全部或部分预备标准句型的每一个都与预定操作有关,并且当选择或识别标准句型时,所说分析装置还识别识别相应于标准句型的操作,并且当所说语音合成装置输出语音合成结果时进行识别操作。
根据本发明的第十三个发明点,本发明的第十五个发明点是一种通过语音提供信息的装置,其中全部或部分预备标准句型的每一个都与预定图象有关,并且当选择或识别标准句型时,所说分析装置还识别相应于标准句型的图象,并且当所说语音合成装置输出语音合成结果时显示所识别的图象。
根据本发明的第一个到第十一个发明点中的任一个,本发明的第十六个发明点是一种通过语音提供信息的装置,包括分析输入信号并根据分析结果产生一个词或多个词的信号分析装置,
其中使所说输入句子一个或多个词。
根据本发明的第十六个发明点,本发明的第十七个发明点是一种通过语音提供信息的装置,其中所说输入信号至少是语音、声音、图象、振动、加速度、温度和张力中的一个。
根据本发明的第十七个发明点,本发明的第十八个发明点是一种通过语音提供信息的装置,其中所说输入信号至少是语音,并且所说信号处理装置执行输入语音的语音识别并且根据语音识别结果产生一个词或多个词。
根据本发明的第十七个发明点,本发明的第十九个发明点是一种通过语音提供信息的装置,其中所说输入信号至少是声音,并且所说信号处理装置识别输入声音的声源并且根据声源的识别结果产生一个词或多个词。
根据本发明的第十七个发明点,本发明的第二十个发明点是一种通过语音提供信息的装置,其中所说输入信号至少是图象,并且所说信号处理装置分析输入图象并且根据分析结果产生一个词或多个词。
根据本发明的第一个到第十一个发明点中的任一个,本发明的第二十一个发明点是一种通过语音提供信息的装置,其中可以输入不完整的句子。
根据本发明的第二十一个发明点,本发明的第二十二个发明点是一种通过语音提供信息的装置,其中可以存在输入句子是不完整的情况,这是一种可以省略全部或部分输入句子的情况,是一种可以用不相关句子来替换全部或部分输入句子的情况,或者是一种可以在输入句子中插入不相关句子的情况。
根据本发明的第二十二个发明点,本发明的第二十三个发明点是一种通过语音提供信息的装置,其中当所说分析装置由于省略了所有的输入句子或用不相关句子替换了所有输入句子而不能选择标准句型,所说语音合成装置就不能进行语音合成。
根据本发明的第二十一个发明点,本发明的第二十四个发明点是一种通过语音提供信息的装置,其中可以存在输入句子是不完整的情况,这是一种输入句子是包括口语表达的合乎语法的不完整句子的情况,是一种输入句子是词的列举的情况,是一种输入句子包括印刷错误或省略词的情况,或者是一种输入句子不但是句子而且是包括符号和词的表达。
根据本发明的第二十一个发明点,本发明的第二十五个发明点是一种通过语音提供信息的装置,其中当输入句子是作为语音识别结果的结果所产生的句子时,就存在输入句子是不完整的可能,这是一种存在语音识别结果包括识别错误可能情况,或者是一种存在这样可能性的情况:语音识别是失败的,从而使得相应于全部或部分输入句子的识别结果不作为语音识别结果输出,其中在相应于全部或部分输入句子的识别结果上进行语音识别。
根据本发明的第一个发明点到第十一个发明点,本发明的第二十六个发明点是一种通过语音提供信息的装置,其中所说语调信息是通过记录自然产生的指定了语调信息的标准句型语音而获得的语音波形。
根据本发明的第一个发明点到第十一个发明点,本发明的第二十七个发明点是一种通过语音提供信息的装置,其中所说语调信息是从自然产生的指定了语调信息的标准句型语音中所提取的信息。
根据本发明的第二十七个发明点,本发明的第二十八个发明点是一种通过语音提供信息的装置,其中所说提取的信息至少包括语音的基频模式、强度模式、音位持续时间模式和语速中的一个。
根据本发明的第一个发明点到第十一个发明点,本发明的第二十九个发明点是一种通过语音提供信息的装置,其中所说语调信息至少与下面条件中的一个有关:音位字符串;音素(morae)数;音节数;重音;句子中的位置;具有或没有暂停以及紧随暂停前后的持续时间;紧随重音短语前后的重音类型;起伏度;句子成分字符串;词组(bunsetsu)属性;以及相关关系。
根据本发明的第一个发明点到第十一个发明点,本发明的第三十个发明点是一种通过语音提供信息的装置,其中所说语调信息储存在语调产生单元中,并且所说语调产生单元是重音短语、短语、词和段落中的任一个。
本发明的第三十一个发明点是一种通过语音提供信息的方法,包括步骤:
基于预定标准从输入句子中提取全部或部分词,并且通过使用预定的相关信息用标准词来替换所提取的词;
通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型;
利用相对应的词替换所选择标准句型的全部和部分标准词;和
通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与标准词相关的词和预定的标准词是有关的。
本发明的第三十二个发明点是一种通过语音提供信息的方法,包括步骤:
基于预定标准从输入句子中提取全部或部分词,并且通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型;和
通过使用至少预先为所选择标准句型指定的语调信息,对所选择的标准句型进行语音合成;
其中所说预定标准是指与预备标准句型中所注册的任一词相符的词的选择。
本发明的第三十三个发明点是一种程序,用于使计算机的作用与下面根据第一个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备的标准句型中选择与输入句子最相关的标准句型,并且利用相对应的词来替换全部或部分所选择标准句型中的标准词;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
本发明的第三十四个发明点是一种程序,用于使计算机的作用与下面根据第三个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,并且通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对所选择的标准句型进行语音合成。
本发明的第三十五个发明点是一种程序,用于使计算机的作用与下面根据第四个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第二语言的标准词来替换所提取的第一语言的词,通过使用第二语言的标准词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型,并且利用相应于与第二语言标准词相对应的第一语言词的第二语言词来替换所选择第二语言标准句型中的全部或部分第二语言的标准词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
本发明的第三十六个发明点是一种程序,用于使计算机的作用与下面根据第五个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第一语言的标准词来替换所提取的第一语言的词,通过使用第一语言的标准词从多个第一语言的预备标准句型中选择与输入句子最相关的第一语言的标准句型,识别与所选择的第一语言标准句型有关的第二语言预定标准句型,并且利用第二语言的词来替换所识别第二语言标准句型中的全部或部分第二语言的标准词,其中第二语言的词相当于与相应于第二语言标准词的第一语言标准词相对应的第一语言输入词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
本发明的第三十七个发明点是一种程序,用于使计算机的作用与下面根据第七个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,并且通过使用与所提取的第一语言词相对应的第二语言词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对所选择的第二语言标准句型执行语音合成。
本发明的第三十八个发明点是一种程序,用于使计算机的作用与下面根据第八个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用所提取的第一语言词从多个第一语言的预备标准句型中选择与第一语言输入句子最相关的第一语言的标准句型,并且识别与所选择的第一语言标准句型相对应的第二语言预备标准句型;和
语音合成装置,通过使用至少预先为所识别第二语言标准句型指定的语调信息,对所识别的第二语言标准句型进行语音合成。
本发明的第三十九个发明点是一种程序,用于使计算机的作用与下面根据第九个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,识别与所选择标准句型相对应的预定响应标准句型,并且利用相对应的词来替换所识别响应标准句型中的全部或部分标准词;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
本发明的第四十个发明点是一种程序,用于使计算机的作用与下面根据第十一个发明点通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型,并且识别与所选择标准句型相应的预定响应标准句型;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对所识别的响应标准句型进行语音合成。
图1是根据本发明第一和第五实施例通过语音提供信息的系统方框图;
图2是本发明第一实施例操作的流程图;
图3(a)是表示与本发明第一实施例中方法关连的语调信息示例的图;
图3(b)是表示与本发明第一实施例中方法关连的另一语调信息示例的图;
图4是表示本发明第一实施例中处理的具体示例图;
图5是表示本发明第一实施例中关键词信息指定词典的示例图;
图6是表示本发明第一实施例中含意类别数据库示例的图;
图7(a)是表示本发明第一实施例中标准句型数据库示例的图;
图7(b)是表示本发明第一实施例中相关关系数据库示例的图;
图8是表示本发明第一实施例中另一个处理的具体示例图;
图9是根据本发明第二实施例通过语音提供信息的系统方框图;
图10是本发明第二实施例操作的流程图;
图11是表示本发明第二实施例中处理的具体示例图;
图12是表示本发明第二实施例中英语关键词信息、指定词典的示例图;
图13是表示本发明第二实施例中英语含意类别数据库示例的图;
图14(a)是表示本发明第二实施例中日语标准句型数据库示例的图;
图14(b)是表示本发明第二实施例中英语相关关系数据库示例的图;
图15是根据本发明第三实施例通过语音提供信息的系统方框图;
图16是本发明第三实施例操作的流程图;
图17(a)到图17(e)是表示本发明第三实施例中处理的具体示例图;
图18是根据本发明第四实施例通过语音提供信息的系统方框图;
图19是本发明第四实施例操作的流程图;
图20是本发明第五实施例操作的流程图;
图21是表示本发明第五实施例中处理的具体示例图;
图22(a)是表示本发明第五实施例中标准句型数据库示例的图;
图22(b)是表示本发明第五实施例中相关关系数据库示例的图;
图23是根据本发明第六实施例通过语音提供信息的系统方框图;
图24是本发明第六实施例操作的流程图;
图25是表示本发明第六实施例中处理的具体示例图;
图26是根据本发明第一实施例改进通过语音提供信息的系统方框图;
图27是本发明第一实施例改进的操作流程图;
图28是表示本发明第一实施例的改进中标准句型数据库示例的图。
在下文中,将参照附图来描述本发明的实施例。
(第一实施例)
图1是表示根据本发明第一实施例通过语音提供信息的系统结构的功能方框图。图2是根据本发明第一实施例通过语音提供信息的系统操作流程图。
在图1中,附图标记110表示用于输入文本的文本输入部分。附图标记120表示关键词信息指定词典,其中储存例如书写形式、发音、句子成分以及类似需要词素分析的信息,并且为作为关键词处理的词素指定关键词标记。附图标记121表示含意类别数据库,其中储存与关键词信息指定词典120中的关键词相应的含意标记。附图标记130表示关键词提取部分,用于参照关键词信息指定词典120在输入文本上执行词素分析,从输入文本中提取关键词,并且为每一个所提取的关键词指定含意标记。附图标记140表示标准句型数据库,其中储存每个标准句型、铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数。附图标记122表示相关关系数据库,其中储存通过彼此相关含意标记的组合而形成的含意标记组。在标准句型数据库140中储存相应于每个含意标记组的标准句型数据。附图标记132表示相关关系分析部分,用于计算从关键词提取部分130中输出的含意标记字符串和储存在相关关系数据库122中每个含意标记组之间的相合度(the degree of coincidence)。附图标记150表示标准句型搜索部分,在所计算的相合度基础上搜索标准句型数据库。附图标记160表示非铅版印刷部分产生部分,产生相应于输入非铅版印刷部分的音标字符串。
附图标记170表示语音合成部分。附图标记180表示用于输出语音波形的输出部分。语音合成部分170包括:非铅版印刷部分语调数据库171,其中储存了音位字符串、音素(morae)数、重音、句子中的位置、具有或没有暂停以及紧随暂停前后的持续时间、紧随重音短语前后的重音类型以及语调信息;语调控制部分172,用于参照非铅版印刷部分语调数据库171而提取非铅版印刷部分的语调信息,并将所提取的语调信息连接到由标准句型搜索部分150所提取的铅版印刷部分语调信息上;和波形产生部分174,在语调控制部分172输出语调信息的基础上通过使用音位条数据库173来产生语音波形,其中在音位条数据库173中储存波形产生单元和音位条。上述语调信息是从指定了语调信息标准句型自然产生语音所指定语音信息中提取的信息,并且至少包括语音的基频模式、强度模式、音位持续时间模式中的一个。
将参照附图2来描述如上所述构建的通过语音提供信息的系统操作。
在根据该实施例通过语音提供信息的系统中,在通过语音提供信息之前,需要预备关键词信息指定词典120、含意类别数据库121、相关关系数据库122和标准句型数据库140。
为了这样做,首先,开发者手工确定表示每个输入句子含意意图的关键词。在此,句子含意是一个或多个表示相同意图的不同句子的一个单元。此外,另一种方法是,可以这样来半自动确定关键词,通过开发者指定表示语言资料库每个句子的句子意图的含意标记,通过把相同含意标记所指定的句子当作一个句子含意来进行语言资料库句子的分类,将与句子含意所共有的词选作候选关键词,并且检查候选关键词。
开发者根据含意对这样所确定的关键词进行分类,并确定每一类别的含意标记。
图5表示的是关键词信息指定词典120的示例。在键词信息指定词典120中,储存例如书写形式、发音、句子成分和类似的需要分析词素的信息,并且将作为关键词处理的词素指定为关键词标记。图5中相对于“救急車(kyukyusha,救急车)”,发音是“きゅぅきゅぅしゃ(kyukyusha)”,并且句子成分是名词。当进行词素分析时使用这些条信息。此外,“救急車(kyukyusha,救急车)”的关键词标记是1,也就是说,为“救急車(kyukyusha,救急车)”指定了关键词标记。因此,“救急車(kyukyusha,救急车)”是关键词。与之相反的是,图5中相对于“は(wa)”,发音是“は(wa)”并且句子成分是词尾。此外,“は(wa)”的关键词标记是0,也就是说,没有为“は(wa)”指定关键词标记。因此,“は(wa)”不是关键词。
图6表示的是含意类别数据库121的示例。在含意类别数据库121中,为每个关键词指定表示关键词属性类别的含意标记。例如,将“救急車(kyukyusha,救急车)”的含意标记指定为“車兩(sharyo,车辆)”,并且“自動車(jidosha,汽车)”和“ダンプカ-(danpukaa,自动倾卸卡车)”的含意标记也指定为“車兩(sharyo,车辆)”。此外,“サィレ ン(sairen,汽笛)”的含意标记指定为“音響(onkyo,声音)·警告(keikoku,警告)”,并且“鳴らす(narasu,尖啸)”的含意标记指定为“音出力(otoshutsuryoku,声音输出)”。
也就是说,如词典所示,在上位概念、句子成分、词组(bunsetsu)属性和类似信息基础上将从输入文本中所提取的词或语音识别结果分成表示类别的含意标记。在此,词组(bunsetsu)是目语的一种语言单元。当日本人自然划分句子时,它是最小的单元。如上所述,含意标记并不局限于预置的固定信息,但可以在后述相关关系分析部分132输出结果的基础上根据使用环境而进行改变(导致进行学习)。根据使用环境改变含意标记是指,改进含意类别数据库的分类方法,以使在当通过使用根据该实施例的通过语音提供信息的系统使语音从输入文本中输出时而出现不能正常输出语音等问题的情况中,即使当输入同样的文本时也可以正常输出语音。不需要使含意类别数据库121是独立的数据库,但是数据库121可以包含于关键词信息指定词典120中。
图7(a)表示的是标准句型数据库140的示例。在标准句型数据库140中,储存多个标准句型。例如,第一个标准句型是“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语]”。含意标记“車兩(sharyo,车辆)”是标准句型的主语,含意标记“音響(onkyo,声音)·警告(keikoku,警告)”是标准句型的宾语,并且含意标记“音出力(otoshutsuryoku,声音输出)”是标准句型的谓语。第三个标准句型是“[車兩(sharyo,车辆):主语]が(ga)[転回(tenkai,转向)·右(migi,右):谓语1]て(te)[停止(teishi,停止):谓语2]”。含意标记“車兩(sharyo,车辆)”是标准句型的主语,含意标记“転回(tenkai,转向)·右(migi,右)”是标准句型的第一个谓语,并且含意标记停止(teishi,停止)是标准句型的第二个谓语。在标准句型数据库140中,储存例如铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数等语调信息,以使与标准句型有关。在语音合成中使用这些条信息。
图7(b)表示的是相关关系数据库122的示例。在相关关系数据库122中,储存含意标记组,其每一个都包括标准句型数据库140中每个标准句型的一组含意标记。在图7(b)中,“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告)),(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))”是一个含意标记组。后面有例如数1的含意标记组表示相应于含意标记组的标准句型数据库140中的标准句型。例如,后面有数1的含意标记组“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告)),(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))”相应于标准句型数据库140中的第一个标准句型“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语]”。
在含意标记组中,类似“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告)),(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))”的含意标记成对。含意标记对表示标准句型中含意标记的搭配关系,并且由开发者预先确定。相应于含意标记组的标准句型储存在标准句型数据库140中。
假设预备了如上所述的关键词信息指定词典120、含意类别数据库121、相关关系数据库122和标准句型数据库140。
接下来,将描述通过语音提供信息的操作。
首先,文本输入部分110接受待处理的文本数据(步骤10)。然后,关键词提取部分130通过使用关键词信息指定词典120对输入文本数据进行词素分析,以指定例如发音和句子成分的语言信息,并且进行语法分析以为每个语法单位指定含意标记(步骤20)。
特别的是,假设输入到文本输入部分110的文本是如图4所示的输入文本700。也就是说,假设文本“救急車がサィレンを鳴らした。(kyukyusha ga sairen o narashita,一辆救护车拉响了它的汽笛)”输入到文本输入部分110。
然后,关键词提取部分130通过使用关键词信息指定词典120对输入文本700进行词素分析,以指定例如发音和句子成分的语言信息。此外,关键词提取部分130提取输入文本700的词素,任意将关键词信息指定词典120中的关键词标记指定为关键词。图4的关键词提取结果701是以这种方式所提取的关键词。
然后,关键词提取部分130参照含意类别数据库121利用含意标记来替换所提取的关键词。此外通过指定例如句子成分的语言信息,从而获得图4的含意标记指定结果702。
也就是说,利用含意标记“車兩(sharyo,车辆)”来替换关键词“救急車(kyukyusha,救急车)”,并且指定例如“一般名词”的信息和作为例如句子成分信息的“主语”。利用含意标记“音響(onkyo,声音)·警告(keikoku,警告)”来替换关键词“サィレン(sairen,汽笛)”,并且指定例如“一般名词”的信息和例如作为句子成分信息的“宾语”。利用含意标记“音出力(otoshutsuryoku,声音输出)”来替换关键词“鳴らす(narasu,尖啸)”,并且指定例如“动词”的信息、和例如作为句子成分信息的“谓语”。
然后,相关关系分析部分132计算由关键词提取部分130所提取的每个语法单元的含意标记字符串和相关关系数据库中每个含意标记组之间的相合度。然后,标准句型搜索部分150从标准句型数据库中搜索相应于含意标记组的标准句型,该含意标记组具有由相关关系分析部分132所计算出的最高相合度(步骤30)。
特别的是,相关关系分析部分132通过任意与含意标记指定结果702的含意标记结合而形成含意标记对,含意标记指定结果702是由关键词提取部分130所提取的含意标记字符串。也就是说,如含意标记组合703所示,从含意标记指定结果702形成三个含意标记对車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告),音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出)和音出力(otoshutsuryoku,声音输出)→車兩(sharyo,车辆)。然后,相关关系分析部分132比较所形成的含意标记组合703和相关关系数据库122中的含意标记组,并且计算符合含意标记对的数。在图7(b)的示例中,相对于含意标记组“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告))(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))”,两个含意标记对与相关关系分析部分132所形成含意标记组合703的含意标记对一致。在这种情况中,含意标记组的相合度是2。
关于含意标记组“(車兩(sharyo,车辆)→移動(ido,运动)”,由于其与相关关系分析部分132所形成含意标记组合703含意标记对中任一个都不一致,该含意标记组的相合度为0。此外,在图7(b)的实施例中,相关关系分析部分132将其它含意标记组的相合度计算为0。
每次计算含意标记组的相合度时,相关关系分析部分132向标准句型搜索部分150通报所计算的相合度和与所计算相合度的含意标记组相对应标准句型数据库中的标准句型数。
由于通过相关关系分析部分132通报所计算的相合度和相应于所计算相合度含意标记组的标准句型数据库140中的标准句型数,标准句型搜索部分150从标准句型数据库140中选择与具有最高相合度的含意标记组对应的标准句型。在图7(b)的实施例中,具有最高相合度的含意标记组是“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告)),(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))”。因此,相应于含意标记组“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o),[音出力(otoshutsuryoku,声音输出):谓语]”的标准句型从图7(a)所示的标准句型数据库140中选择,如所选择标准句型704所示。
然后,标准句型搜索部分150提取所选择标准句型铅版印刷部分的音位字符串和语调信息。
特别的是,标准句型搜索部分150提取所选择标准句型铅版印刷部分“が(ga)”和“を(o)”的音位字符串和语调信息。在标准句型数据库140中储存音位字符串和语调信息,以使其与所选标准句型有关。
然后,非铅版印刷部分产生部分160比较步骤40所选择标准句型非铅版印刷部分的属性和步骤20所指定语言信息,并且从输入文本产生相应于非铅版印刷部分的词(步骤50)。
特别的是,相应于所选择标准句型704部分例如“車兩(sharyo,车辆)”含意标记的非铅版印刷部分、以及相应于含意标记的输入文本关键词可以根据输入文本而改变。非铅版印刷部分的属性是所选择标准句型704的含意标记“車兩(sharyo,车辆)”是主语,“音響(onkyo,声音)·警告(keikoku,警告)”是宾语并且“音出力(otoshutsuryoku,声音输出)”是谓语。步骤20中所指定的语言信息是,如关键词提取结果701和含意标记指定结果702中所示,信息为,救急車(kyukyusha,救急车)”是普通名词并是主语,“サィレ ン(sairen,汽笛)”是普通名词并是宾语,并且“鳴らす(narasu,尖啸)”是动词并是谓语。
因此,由于含意标记“車兩(sharyo,车辆)”的属性是主语并且“救急車(kyukyusha,救急车)”的语言信息是主语,因此非铅版印刷部分产生部分160就认为它们相互一致,并且产生非铅版印刷部分“車兩(sharyo,车辆)”的词“救急車(kyukyusha,救急车)”。同样地,对于含意标记“音響(onkyo,声音)·警告(keikoku,警告)”,非铅版印刷部分产生部分160产生词“サィレン(sairen,汽笛)”。对于含意标记“音出力(otoshutsuryoku,声音输出)”,非铅版印刷部分产生部分160产生“鳴らす(narasu,尖啸)”。照这样将非铅版印刷部分的词应用到标准句型中就获得句子“救急車がサィレ ンを鳴らした。(kyukyusha ga sairen o narashita,一辆救护车拉响了它的汽笛)”,如所示应用到标准句型705中。
虽然在该实施例中,非铅版印刷部分产生部分160比较步骤40所选择标准句型非铅版印刷部分的属性和步骤20所指定语言信息,并且从输入文本产生相应于非铅版印刷部分的词(步骤50),当在步骤20中为每个关键词指定了含意标记时就可以保持关键词和含意标记之间的相应,因此就可以通过使用相应关系代替比较语言信息来产生相应于非铅版印刷部分的词。
语调控制部分172通过使用步骤50中所产生非铅版印刷部分的音位字符串、音素(morea)数、重音、句子中非铅版印刷部分的位置、具有或没有暂停以及非铅版印刷部分和铅版印刷部分之间暂停的持续时间、以及毗连非铅版印刷部分的铅版印刷部分的重音类型中的至少一个来搜索非铅版印刷部分语调数据库(步骤60),并且提取重音短语单元中非铅版印刷部分的语调信息(步骤70)。
然后,语调控制部分172基于步骤40所映射标准句型的非铅版印刷部分语调调节参数来调节步骤60中所提取非铅版印刷部分的语调信息,并且将所调节的语调信息与步骤40中所提取的铅版印刷部分语调信息连接。例如,如图3(a)或3(b)所示,进行调节(步骤80)。
图3(a)表示的是仅在非铅版印刷部分的一侧存在铅版印刷部分的情况。在这种情况中,首先,获得铅版印刷部分中重音短语语调信息最高值的衰退直线和铅版印刷部分中重音短语语调信息最低值的衰退直线。然后,调节非铅版印刷部分中重音短语的语调信息,以使在最高值的衰退直线和最低值的衰退直线之间存在非铅版印刷部分中重音短语的语调信息。
图3(b)表示的是在非铅版印刷部分的每一侧都存在铅版印刷部分的情况。首先,类似于图3(a)的情况,获得铅版印刷部分中重音短语语调信息最高值的衰退直线和铅版印刷部分中重音短语语调信息最低值的衰退直线。在这种情况中,但是,由于考虑是在非铅版印刷部分的两侧上存在铅版印刷部分而获得最高值的衰退直线和最低值的衰退直线。然后,调节非铅版印刷部分中重音短语的语调信息,以使在最高值的衰退直线和最低值的衰退直线之间存在非铅版印刷部分中重音短语的语调信息。
基于步骤40中所提取的铅版印刷部分音位字符串、步骤50中所产生的非铅版印刷部分音位字符串和步骤80中所产生的语调信息,波形产生部分174通过使用储存在音位条数据库173中的音位条来产生语音波形(步骤90)。
在步骤90所产生的语音波形作为输出部分180的语音输出(步骤100)。
如上所述,根据通过该实施例语音提供信息的系统,通过使用语音合成部分来实现具有高自然度的合成语音,通过使用由提取输入文本含意所给出文本的铅版印刷部分,将其转换为具有相同含意的标准句型并合成语音,可以通过自然语音准确地提供信息。
此外,即使当输入所给出文本时,可以通过自然语音准确地提供信息。
图8所示的是一种不同于上述任一个中的示例。图8表示的情况是在步骤20中,输入文本是输入文本400“A氏ぃゎく,「藝術は爆發た」(Eishi iwaku,“geijutsu wa bakuhatsuda”,A先生说“艺术是一种爆发”)”。通过在该文本数据上进行词素分析,从而获得词素分析结果401。然后,为每个词素指定例如发音和句子成分等语言信息。例如,对于词素“A”,发音是“ぇぃ(ei)”并且句子成分是名词,并且对于“氏(Mr.)”,发音是“シ(shi)”并且句子成分是后缀。然后,对指定了语言信息的词素分析结果401进行语法分析,并且对每个语法单元指定含意标记,从而获得含意标记指定结果402。在该实施例中,类似于上述实施例将词组(bunsetsu)用作合成单元。也就是说,指定“A氏(eisbi,Mr.A)”为含意标记“人物(jinbutsu,人)”并且指定“ぃゎく(iwaku,说)”为含意标记“言ぅ(iu,说)”。把引用部分当作一个词组(bunsetsu),并且将“「藝術は爆發だ」(geijutsu wa bakuhatsuda,艺术是一种爆发)”指定为“引用(inyo,引用)”。
然后,当假设在步骤30中所选择的标准句型是“[人物(jinbutsu,人):主语]が(ga)[引用(inyo,引用):宾语]と(to)[言ぅ(iu,说):谓语]”,以类似于上述步骤的方法将非铅版印刷部分应用到标准句型的结果是“<A氏(eishi,Mr.A)>が(ga)、<「藝術は爆發だ」(geijutsu wa bakuhatsuda,艺术是一种爆发)>と(to)<ぃゎく(iwaku,说)>”。如上所述,当以语音提供输入文本时,词序有时就根据标准句型而倒置,并且即使在这种情况中,可以通过输入文本含意所映射的自然语音来提供信息。
该实施例中的关键词提取部分130、相关关系分析部分132、标准句型搜索部分150和非铅版印刷部分产生部分160是本发明分析装置的示例。该实施例中的语音合成部分170是本发明语音合成装置的示例。该实施例的输入文本是本发明输入句子的示例。该实施例中的关键词信息指定词典120和含意类别数据库121是本发明相关信息的示例。在该实施例中提取关键词是本发明提取全部或部分词的示例。在该实施例中提取如关键词标记所指定的关键词词素是本发明中基于预定标准提取全部或部分词的示例。该实施例中的含意标记是本发明中标准词的示例。该实施例中非铅版印刷部分产生部分160比较步骤40所选择标准句型非铅版印刷部分的属性和步骤20所指定语言信息、并且从输入文本产生相应于非铅版印刷部分的词(步骤50)是利用相对应的词来替换所选择标准句型的全部或部分标准词的示例。
虽然在该实施例中,如词典所示,基于上位概念、句子成分和词组(bunsetsu)属性或类似信息对与关键词含意标记有关的类别进行分类,它们可以与关键词的概念或同类的概念相关。此外,在该实施例中,含意标记数据库并不局限于图6所示的示例,还可以是确定与关键词含意标记相关的规则的任意数据库。总之,本发明的相关信息可以是任意信息,其中预定标准词与相关于标准词的词有关。
虽然在该实施例中,在图5所示的示例中,从输入文本700中提取关键词作为关键词信息指定词典120中指定了词素的关键词标记并且为所有内容字指定关键词标记,通过仅向在特定情况中经常使用的词指定关键词标记,例如人在车辆上的情况,可以通过语音有效地提供特定情况的信息。在这种情况中,并不是将输入文本700中出现的所有词素指定为关键词指定词典120中的关键词标记。因此,在这种情况中,该情况为并不是将输入文本700中所有的词素提取为关键词而是仅将它们中的一些提取为关键词。
本发明的分析装置并不局限于一个类似该实施例中非铅版印刷部分产生部分160的部分,其产生相应于标准句型非铅版印刷部分的含意标记的所有词。当相应于标准句型非铅版印刷部分含意标记的关键词是与含意标记相同的词时,就不需要产生相应于含意标记的词。此外,当输入文本有错误时,该情况就是找不到相应于标准句型非铅版印刷部分含意标记的关键词。在这种情况中,并不总是需要非铅版印刷部分产生部分160来产生相应于含意标记的关键词。将在后述的实施例中详细描述输入文本包括错误的情况。总之,仅需要本发明的分析装置利用相对应的词来替换所选择标准句型的全部或部分标准词。
虽然该实施例的关键词提取部分130通过使用含意类别数据库121来替换利用含意标记所提取的关键词,但并不总需要使用含意类别数据库121。也就是说,关键词提取部分130可以使用如原来那样的所提取的关键词。在这种情况中,相关关系分析部分132形成代替含意标记组合的关键词组合。在相关关系数据库122中,储存关键词组,在该标准句型中通过关键词来替换含意标记组的含意标记部分。因此,相关关系分析部分132计算关键词组合和关键词组之间的相合度。在标准句型数据库140中,储存标准句型,其中利用代替含意标记的关键词来替换标准句型的非铅版印刷部分。由于不能用含意标记来替换关键词,因此非铅版印刷部分产生部分160就不是必需的。在这种情况中,当将用于决定输入文本词素的的标准选择为关键词时,就将标准句型数据库140中所储存标准句型包括的词选做关键词。因此,对于关键词指定词典120中的词,仅将满足该标准的词指定为关键词标记。如上所述,当标准句型仅由铅版印刷部分组成时,也可以进行通过语音的信息提供。
虽然在该实施例中,相关关系分析部分132通过确定这些含意标记对是否相互一致来计算图4含意标记组合703和图7(b)含意标记组之间的相合度,但本发明并不局限于此。可以通过普通的计算公式来计算相合度,如下面的公式1所示:
[公式1]
在此,d是相合度,1----i----m是设定相关关系的维数(属性),1----j---n是一种相关关系,W是含意标记对的权,C是一致的含意标记对,并且得出下面的两个值:当含意标记对一致时是1;当其不一致时是0。通过在公式1的基础上计算相合度,可以较高精度获得相合度。
虽然在该实施例中将音位持续时间模式用作语调信息,但可以用语速(语音速度)来替换音位持续时间模式。
虽然通过图2步骤60到80所示的方法来控制语调,还可以通过除了这种方法外的方法来控制语调。在下文中,关于这种改进,将描述与上述实施例的主要不同点。
图26是表示根据该改进通过语音提供信息的系统结构的功能方框图。图26与图1的不同点在于,通过图26中的标准句型数据库140a来替换图1的标准句型数据库140,通过图26中的语调数据库171a来替换图1的非铅版印刷部分语调数据库171,以及通过图26中的关键词信息和重音短语信息指定词典120a来替换图1的关键词信息指定词典120。
也就是说,虽然在上述实施例中使用图7(a)所示的标准句型数据库140,但在该改进中,将使用图28所示的标准句型数据库140a来代替。也就是说,在图7(a)所示的标准句型数据库140中,储存例如铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数等语调信息,以使其与例如“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语]”的每个标准句型有关。与之相反的是,在图26所示的标准句型数据库140a中,语调控制信息预先与每个标准句型的每个含意标记单元有关。在此,含意标记单元是在每个含意标记中将标准句型所划分的单元。也就是说,一个含意标记包括,标准句型、一个含意标记以及除在含意标记和下一个含意标记中存在的含意标记外的词。每个含意标记单元与用于控制含意标记单元作为语调信息的语调控制信息有关。
例如,在图28的示例中,第一个标准句型是“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语]”有三个含意标记单元“[車兩(sharyo,车辆):主语]が(ga)”、“[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)”和“[音出力(otoshutsuryoku,声音输出):谓语]”。
含意标记单元“[車兩(sharyo,车辆):主语]が(ga)”与语调控制信息有关,该语调信息的最高基频(基频的最高值)是360赫兹,其最高强度(声压的最高值)是70分贝并且其语速(语音的速度)是每秒7.5个音素(morae)。含意标记单元“[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)”与语调控制信息有关,该语调信息的最高基频是280赫兹,其最高强度是67分贝并且其语速是每秒8.5个音素(morae)。含意标记单元“[音出力(otoshutsuryoku,声音输出):谓语]”与语调控制信息有关,该语调信息的最高基频是150赫兹,其最高强度是62分贝并且其语速是每秒7个音素(morae)。在图27的第二个和随后的标准句型中,同样为含意标记单元指定语调控制信息。
如上所述,与上述实施例不同的是,在标准句型数据库140a中,没有将语调信息分为铅版印刷部分和非铅版印刷部分,并且每个含意标记单元与作为语调信息的语调控制信息有关。
在上述实施例的非铅版印刷部分语调数据库171中,储存例如音位字符串、音素(morae)数、重音、句子中的位置、具有或没有暂停以及紧随暂停前后的持续时间(无声条件)、紧随重音短语前后的重音类型以及类似的每个非铅版印刷部分语调信息。与之相反的是,在该改进的语调数据库171a中,根据音素(morae)数、重音类型、重音短语的位置、紧随重音短语前后的重音类型以及类似信息对重音短语的语调模式进行分类。还可以根据具有或没有暂停以及紧随重音短语前后暂停的持续时间对非铅版印刷部分语调数据库171a中的语调模式进行分类。因此,通过指定音素(morae)数、重音类型、重音短语的位置以及紧随重音短语前后重音短语的重音类型为检索关健字,就可以从储存在语调数据库171a的语调模式中识别相应于所指定音素(morae)数、重音类型、重音短语的位置以及重音短语前后重音短语的重音类型的语调模式,并且可以提取所识别的语调模式。这种情况中的语调模式是,例如,预先从自然所产生的语音中提取例如语音的基频模式、强度模式和音位持续时间模式的语调信息。语调数据库171a是如上所述的数据库。
在下文中,将描述该改进的操作。
图27是该改进操作的流程图。
步骤10、20、和30的操作类似于上述实施例的操作。当完成步骤30的操作时,类似于上述实施例,从图26的标准句型数据库140a中选择如图4所示的标准句型704“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语]”。
然后,在步骤50,类似于上述实施例,通过将非铅版印刷部分的词应用标准句型,获得如图4标准句型705应用所示的句子“<救急車(kyukyusha,救急车)>が(ga)<サィレン(sairen,汽笛)>を(o)<鳴らした(narashita,拉响)>”。在此时,基于从关键词信息和重音信息指定词典120a为每个关键词所提取的发音和重音信息,产生句子“<救急車(kyukyusha,救急车)>が(ga)<サィレン(sairen,汽笛)>を(o)<鳴らした(narashita,拉响)>”的每个重音短语的音素(morae)数和重音类型。此外,例如句子中重音短语位置、具有或没有暂停以及在重音短语和紧随重音短语前后重音短语的重音类型之间暂停的持续时间的信息也从产生的句子中获得。
将描述重音短语。例如,在句子“救急車と消防車とパトカ-とが(kyukyusha to shobosha to patoka toga,一辆救急车、一辆消防车和一辆巡逻车)”,“救急車と(kyukyusha ga,一辆救急车)”、“消防車と(shobosha to,一辆消防车)”和“パトカ-とが(patoka toga,和一辆巡逻车)”的每一个都是重音短语。此外,例如,“救急車がサィレンを鳴らした。(kyukyusha ga sairen o narashita,一辆救护车拉响了它的汽笛)”具有三个重音短语“救急車が(kyukyusha ga,一辆救急车)”、“サィレ ンを(sairen o,它的汽笛)”和“鳴らした(narashito,拉响)”。如上所述,重音短语是音位字符串,该音位字符串包括一个或多个音素(morae)并在语音合成中用作控制语调的单元。
说明重音短语“救急車が(kyukyusha ga,一辆救急车)”,由于重音短语“救急車が(kyukyusha ga,一辆救急车)”包括六个音素(morae)“きゅ(kyu)”、“ぅ(u)”、“きゅ(kyu)”、“ぅ(u)”、“しゃ(sha)”和“が(ga)”。音素(morae)数是6。此外,由于重音在第三个音素(morae)“きゅ(kyu)”上,因此重音类型是具有重音在第三个音素(morae)的类型(在下文中,具有重音在第N个音素(morae)上的重音短语称做N型)。因此,对于重音短语“救急車が(kyukyusha ga,一辆救急车)”,音素(morae)数是六个并且重音类型是3型。如上所述,当在步骤50获得句子“<救急車(kyukyusha,救急车)>が(ga)<サィレ ン(sairen,汽笛)>を(o)<鳴らした(narashita,拉响)>”时,还产生表示句子“<救急車(kyukyusha,救急车)>が(ga)<サィレ ン(sairen,汽笛)>を(o)<鳴らした(narashita,拉响)>”每个重音短语的音位字符串、音素(morae)数和重音类型的信息。
然后,通过使用作为检索关键字的音素(morae)数、重音短语的重音类型、重音短语的位置、紧随重音短语前后重音短语的重音类型中的至少一个,语调信息控制部分172为每个重音短语的语调模式而搜索语调数据库171a,并且提取与检索关键字相符的语调模式(步骤61)。
例如,对于重音短语“救急車が(kyukyusha ga,一辆救急车)”,如上所述音素(morae)数是六个并且重音类型是3型。此外,重音短语的位置在句首。此外,在该重音短语前不会立即存在重音短语,紧随其后的重音短语是サィレンを(sairen o,它的汽笛)。由于重音短语サィレンを(sairen o,它的汽笛)包括五个音素(morae)“サ(sa)”、“ィ(i)”、“レ(re)”、“ン(n)”和“を(o)”,音素(morae)数是五个。由于重音在第一个音素(morae)“サ(sa)”上,因此重音类型是1型。因此,对于紧随重音短语“救急車が(kyukyusha ga,一辆救急车)”前后的重音短语的重音类型,在该重音短语前不会立即存在重音短语,紧随其后的重音短语的重音类型是1型。因此,对于相应于重音短语“救急車が(kyukyusha ga,一辆救急车)”的语调模式,例如提取作为语调模式的语音基频模式、强度模式和音位持续时间模式等语调信息,在这种情况中音素(morae)数是六个,重音类型是3型,重音短语在句首,并且紧随其后重音短语的重音类型是1型。
然后,语调控制部分172为每个含意标记单元连接步骤61中所提取的语调模式,并且产生每个含意标记单元的语调模式(步骤63)。
也就是说,相应于重音短语“救急車が(kyukyusha ga,一辆救急车)”的含意标记单元是“[車兩(sharyo,车辆):主语]が(ga)”,并且在这种情况中,由于重音短语和含意标记单元是彼此一一对应的,就没有必要连接重音短语。但是,例如,相应于含意标记单元“[車兩(sharyo,车辆):主语]が(ga)”的部分是句子“救急車と消防車とパトカ-とが(kyukyusha to shobosha to patoka toga,一辆救急车、一辆消防车和一辆巡逻车)”,三个重音短语“救急車と(kyukyusha ga,一辆救急车)”、“消防車と(shobosha to,一辆消防车)”和“パトカ-とが(patoka toga,和一辆巡逻车)”相应于含意标记“[車兩(sharyo,车辆):主语]が(ga)”。因此,在这种情况中,连接这三个重音短语的语调模式以产生含意标记单元的语调模式。
然后,语调控制部分172根据储存在标准句型数据库中每个含意标记单元的语调控制信息来改变每个含意标记单元的语调模式(步骤63)。
例如,标准句型“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语]”含意标记单元“[車兩(sharyo,车辆):主语]が(ga)”的语调控制信息是,如图28所示最高基频是360赫兹,最高强度是70分贝并且语速是每秒8音素(morae)。因此,改变步骤63中所产生含意标记单元的语调模式,使其与这种语调控制信息相符。也就是说,如图28所示使得语调模式的语音基频模式的最高值为360赫兹,使语调模式的强度模式的最高值为70分贝并使语调模式的音位持续时间模式为每秒8音素。对含意标记单元“[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)”的语调模式和含意标记单元“[音出力(otoshutsuryoku,声音输出):谓语]”的语调模式进行类似处理。
然后,语调控制部分172连接含意标记单元所改变的语调模式(步骤81)。也就是说,含意标记单元“[車兩(sharyo,车辆):主语]が(ga)”的语调模式、含意标记单元“[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)”的语调模式和含意标记单元“[音出力(otoshutsuryoku,声音输出):谓语]”的语调模式以这种顺序连接。照这样产生句子“救急車がサィレンを鳴らした。(kyukyusha ga sairen o narashita,一辆救护车拉响了它的汽笛)”的语调模式。
然后,波形产生部分173从音位条数据库173中读取音位条,根据所产生的语调模式来改变所读取的音位条,并且连接它们,因此产生语音波形(步骤90)。
然后,输出部分180向外输出所产生的语音波形(步骤100)。同样可以输出语音“救急車がサィレンを鳴らした。(kyukyusha ga sairen o narashita,一辆救护车拉响了它的汽笛)”。
虽然在上述改进的重音短语中提取语调模式,也可以在词组(bunsetsu)或词单元中提取语调模式。当在词组(bunsetsu)单元中提取语调模式时,每个词组(bunsetsu)的语调模式预先储存在语调数据库171a中。类似上述改进为每个含意标记单元连接所提取的语调模式。当在词单元中提取语调模式时,每个词的语调模式预先储存在语调数据库171a中。类似上述改进为每个含意标记单元连接所提取的语调模式。
此外,虽然在上述改进中,为图26的标准句型数据库140a中的含意标记单元指定了例如最高基频(基频的最高值)、最高强度(声压的最高值)以及语速(语音的速度)等语调控制信息,但本发明并不局限于此。也可以指定例如最低基频(基频的最低值)和最低强度(声压的最低值)等语调信息。此外,可以指定例如音位持续时间的语调控制信息。
虽然在上述改进中使用语速,但本发明并不局限于此。可以用音位持续时间模式来代替语速。此外,语速和音位持续时间模式都可以使用。
虽然在该实施例中使用音素(morae),但本发明并不局限于此。可以用音节来代替音素(morae)。在这种情况中,当在该实施例中使用音素(morae)数时,可以用音节数来代替。
应该注意的是,这种改进不仅适用于上述实施例,而且还适用于第二和随后的实施例。
本发明的语调信息包括例如在该实施例中通过搜索语调数据库171a所提取的每个重音短语的语音基频模式、强度模式和音位持续时间模式等语调模式。此外,本发明的语调信息包括为标准句型数据库中每个含意标记单元所指定的语调控制信息,也就是,每个重音短语的最高基频(基频的最高值)、最高强度(声压的最高值)以及语速(语音的速度)。
此外,虽然将本发明的语调信息描述为与例如重音短语的音素(morae)数和重音类型、重音短语的位置以及紧随重音短语前后的重音短语的重音类型等条件有关的语调模式,但本发明并不局限于此。仅要求本发明的语调信息至少与下面条件中的一个有关:音位字符串;音素(morae)数;音节数;重音;句子中的位置;具有或没有暂停以及紧随暂停前后的持续时间;紧随重音短语前后的重音类型;起伏度;句子成分字符串;词组(bunsetsu)属性;以及相关关系。
此外,该实施例中为每个含意标记单元所指定的语调控制信息至少是本发明中所选择标准句型所预先指定的语调信息的示例。该实施例中为铅版印刷部分所指定的语调信息至少是本发明中所选择标准句型所预先指定的语调信息的示例。在该实施例,通过使用在步骤50产生的音位字符串、非铅版印刷部分音素(morae)数和重音、句子中非铅版印刷部分的位置、在非铅版印刷部分和铅版印刷部分具有和没有暂停以及暂停持续时间、以及毗邻非铅版印刷部分的铅版印刷部分的重音类型,搜索非铅版印刷部分语调数据库171(步骤60),作为搜索结果而提取的非铅版印刷部分语调信息至少是本发明中所选择标准句型所预先指定的语调信息的示例。
(第二实施例)
图9是表示根据本发明第二实施例通过语音提供信息的系统结构的功能方框图。图10是根据本发明第二实施例通过语音提供信息的系统操作的流程图。
在图9中,和图1相同的部分和元件用同样的附图标记来指定并且将不再描述,并且仅描述不同的部分和元件。在根据第二实施例图9的通过语音提供信息的系统中,通过用于英语语言处理的英语关键词信息指定词典220来代替图1构成中的关键词信息指定词典120,通过作为用英语的含意类别数据库的英语含意类别数据库221来代替含意类别数据库121,通过作为用英语的相关关系数据库的英语相关关系数据库222来代替相关关系数据库122,并且通过作为用日语的标准句型数据库的日语标准句型数据库240来代替标准句型数据库140。
此外,通过用语音输入语音的语音输入部分210来代替图1构成中的文本输入部分110;并且通过语音识别和关键词提取部分230来代替关键词提取部分130,其用于识别输入语音并且参照英语关键词信息指定词典220来指定含意标记。此外,增加日语词典225,在该词典中储存了含意标记以及相应于含意标记的日语词;通过非铅版印刷部分日语产生部分260来代替非铅版印刷部分产生部分160,参照日语词典225来产生相应于非铅版印刷部分的日语词。除这些外,其结构与第一实施例的相同。
将参照图10来描述如上所述构建的通过语音提供信息的系统操作。
在根据该实施例通过语音提供信息的系统中,类似于第一实施例,在通过语音提供信息之前,需要预备英语关键词信息指定词典220、英语含意类别数据库221、英语相关关系数据库222和日语标准句型数据库240。
图12表示的是英语关键词信息指定词典220的示例。在英语关键词信息指定词典220中,储存例如书写形式、发音、句子成分以及英语句子的类似需要词素分析的信息,并且将作为关键词处理的英语词素指定为关键词标记。对于图12中的“救急车”,通过音标来表示发音,并且句子成分是名词。这些条信息在词素分析中所使用。关键词标记的含意与第一实施例的相同。
图13表示的是英语含意类别数据库221。在英语含意类别数据库221中,为每个关键词指定表示关键词属性类别的含意标记。例如,将“救急车”的含意标记指定为“车辆”,并且将“汽车”的含意标记也指定为“车辆”。除不仅处理日语而且还处理英语外,其它都与第一实施例的相同。
图14(a)表示的是日语标准句型数据库240的示例。在日语标准句型数据库240中,储存多个标准句型。例如,第一个标准句型是“[车辆:主语]が(ga)[声音·警告:宾词を(o)[声音输出:谓语]”。含意标记“车辆”是标准句型的主语,含意标记“声音·警告”是标准句型的宾语,并且含意标记“声音输出”是标准句型的谓语。在日语标准句型数据库240的每个标准句型中,类似于第一实施例,储存铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数。在语音合成中使用这些信息。
图14(b)表示的是英语相关关系数据库222。在英语相关关系数据库222中,储存为日语标准句型数据库240的中标准句型指定的含意标记组。在图14(b)中,“(车辆→声音·警告),(声音·警告→声音输出)”是一个含意标记组。后面有例如数1的含意标记组的含意与第一实施例的相同。
假设预备了如上所述的英语关键词信息指定词典220、英语含意类别数据库221、英语相关关系数据库222和日语标准句型数据库240。
接下来,将描述通过语音提供信息的操作。
语音输入部分210接受处理过的英语语音波形(步骤110),并且语音识别和关键词提取部分230识别输入语音,并且将其转换为英语词的字符串(步骤115)。然后,语音识别和关键词提取部分230对语音识别结果进行词素分析,以指定例如句子成分的语言信息,并且进行语法分析以为每个语法单位指定含意标记(步骤120)。
在步骤120,执行类似于第一实施例中参照图8所描述操作示例的操作。
特别的是,假设识别输入到语音输入部分210的语音并将其转换为英语词字符串的结果是如图11所示的输入文本720。也就是说,假设相应于文本“一辆救护车拉响了它的汽笛”的语音输入到语音输入部分210。
然后,语音识别和关键词提取部分230识别输入语音,将其转换为英语词字符串,通过使用英语关键词信息指定词典220对输入文本720进行词素分析,以指定例如发音和句子成分等语言信息。此外,语音识别和关键词提取部分230从输入文本720提取英语关键词信息指定词典220中关键词标记所指定的词素为关键词。图11的关键词提取结果721是以这种方式所提取的关键词。
然后,语音识别和关键词提取部分230参照英语含意类别数据库221利用含意标记来替换所提取的关键词。此外通过指定例如句子成分等语言信息,从而获得图11的含意标记指定结果722。
然后,相关关系分析部分132计算由语音识别和关键词提取部分230输出的每个语法单元的含意标记字符串和英语相关关系数据库中每个含意标记组之间的相合度。然后,标准句型搜索部分150从日语标准句型数据库240中搜索相应于含意标记组的日语标准句型,该含意标记组具有由相关关系分析部分132所计算出的最高相合度(步骤130)。
特别的是,相关关系分析部分132通过含意标记结果722含意标记的任意结合而形成含意标记对,含意标记结果722是由语音识别和关键词提取部分230所提取的含意标记字符串。也就是说,如含意标记组合723所示,从含意标记结果722形成三个含意标记对(车辆→输出—声音),(输出—声音→声音·警告)和(声音·警告→车辆)。然后,相关关系分析部分132比较所形成的含意标记组合723和相关关系数据库122中的含意标记组,并且计算符合含意标记对的数。在图14(b)的示例中,对于含意标记组“(车辆→声音·警告)和(声音·警告→输出—声音)”,两个含意标记对与相关关系分析部分132所形成含意标记组合723的含意标记对一致。在这种情况中,该含意标记组的相合度是2。
关于含意标记组“(车辆→运动)”,由于其与相关关系分析部分132所形成含意标记组合703含意标记对中任一个都不一致,该含意标记组的相合度为0。此外,在图14(b)的实施例中,相关关系分析部分132将其它含意标记组的相合度计算为0。
每次计算含意标记组的相合度时,相关关系分析部分132向标准句型搜索部分150通报所计算的相合度和与所计算相合度的含意标记组相应的日语标准句型数据库240中标准句型数。
由于通过相关关系分析部分132通报所计算的相合度和与所计算相合度的含意标记组相应的日语标准句型数据库240中标准句型数,标准句型搜索部分150从日语标准句型数据库240中选择相应于具有最高相合度的含意标记组。在图14(b)的实施例中,具有最高相合度的含意标记组是“(车辆→声音·警告)和(声音·警告→输出—声音)”。因此,相应于含意标记组“[车辆:主语]が(ga)[声音·警告:宾语]を(o)[声音一输出:谓语]”的标准句型从图14(a)所示的日语标准句型数据库240中选择,如所选择标准句型724所示。
然后,标准句型搜索部分150提取以这种方式所选择标准句型铅版印刷部分的音位字符串和语调信息(步骤140)。
然后,非铅版印刷部分日语产生部分260比较步骤140所选择标准句型非铅版印刷部分的属性和步骤120相应于从日语词典255中所指定含意标记的日语词,并且产生相应于非铅版印刷部分的日语词(步骤150)。
特别的是,与第一实施例类似,非铅版印刷部分日语产生部分260确认与所选择标准句型724的部分“[车辆:主语]”相应的“救急车”,从而参照日语词典225获得相应于“救急车”的日语词“救急車(kyukyusha,救急车)”,并且将“救急車(kyukyusha,救急车)”用到“[车辆:主语]”部分。可以对其它含意标记进行类似处理,也就是,非铅版印刷部分,以及作为其结果,就可以获得如图11所示标准句型725应用所示的日语句子。
在随后的步骤60到100中,执行类似第一实施例中参照附图所描述的那些操作,以输出日语语音。
如上所述,根据该实施例通过语音提供信息的系统,通过使用语音合成部分来实现具有高自然度的合成语音,通过使用由提取输入英语语音含意所给出文本的铅版印刷部分,将其转换为具有相同含意的日语标准句型并合成语音,可以通过自然语音容易地提供翻译信息。
该实施例中的语音识别和关键词提取部分230、相关关系分析部分132、标准句型搜索部分150和非铅版印刷部分日语产生部分260是本发明分析装置的示例。该实施例中的语音合成部分170是本发明语音合成装置的示例。该实施例中的英语关键词信息指定词典220和英语含意类别数据库221是本发明相关信息的示例。该实施例中提取关键词是本发明中提取第一语言全部或部分词的示例。在该实施例中提取如关键词标记所指定的关键词词素是本发明中基于预定标准提取第一语言全部或部分词的示例。该实施例中例如作为语音识别结果所产生的文本英语输入文本720是本发明第一语言输入句子的示例。该实施例中的含意标记是本发明中标准词的示例。该实施例中储存在英语相关关系数据库222中的含意标记组是本发明第一语言标准句型的示例。该实施例中储存在日语标准句型数据库240中的标准句型是本发明第二语言标准句型的示例。
虽然在该实施例中,描述了输入英语语音并且通过日语语音提供信息的情况,但本发明并不局限于此。本发明能够适用于输入任一语音并且通过其它任一语音提供信息的情况,例如输入日语语音并且通过汉语语音提供言息的情况
虽然在该实施例中,在图12所示的示例中,提取在英语关键词信息指定词典220中指定了词素的关键词标记作为来自输入文本720的关键词并且为所有内容字指定关键词标记,通过仅向在例如人在车辆上的特定情况中经常使用的词指定关键词标记,可以通过语音有效地提供特定情况的信息。在这种情况中,并不是将输入文本720中出现的所有词素指定为英语关键词指定词典120中的关键词标记。因此,在这种情况中,该情况并不是将输入文本720中所有词素提取为关键词而是仅将它们中的一些提取为关键词。
虽然在该实施例中,通过使用英语含意类别数据库221利用含意标记来替换所提取的关键词,但并不总需要使用含意类别数据库121。在这种情况中,作为选择关键词的标准,选择与包括在日语标准句型数据库140中标准句型的词相当的英语词为关键词。因此,对于英语关键词信息指定词典220中的词,仅为满足该标准的词指定关键词标记。在日语标准句型数据库240中,储存标准句型,在该标准句型中通过相当于关键词的日语词来代替含意标记对标准句型的非铅版印刷部分进行描述。在英语相关关系数据库222中,储存其中用关键词来替换含意标记组部分含意的关键词组。相关关系分析部分132从所提取的关键词中形成关键词组合来代替含意标记组合,并且选择关键词组合和储存在英语相关关系数据库222中的关键词组之间的相合度。在这种情况中,由于不用含意标记来替换关键词,非铅版印刷部分日语产生部分260就不是必需的。如上所述,当标准句型仅由铅版印刷部分组成时,也可以执行通过语音的信息提供。
虽然在该实施例中,利用英语含意标记来替换从输入文本720中所提取的英语关键词,但本发明并不仅局限于此。可以通过使用日语词典将所提取的英语关键词进行翻译而获得日语关键词并且利用日语含意标记来替换所获得日语关键词。在这种情况中,在相关关系数据库中,与该实施例不同的是储存日语含意标记组。在英语含意类别数据库221中,将描述日语词类别。代替英语关键词词典220的是,提供其中描述日语词的日语关键词词典。相关关系分析部分132从所获得的日语含意标记中形成日语含意标记组合,并且计算日语含意标记组合和储存在相关关系数据库222中的目语含意标记组之间的相合度。在计算结果的基础上,标准句型搜索部分150选择最相关的日语含意标记组,并且选择相应于所选择含意标记组的日语标准句型。通过利用日语词来替换标准句型非铅版印刷部分的日语含意标记组,其中日语词与相应于日语含意标记组的英语关键词相对应,因此可以获得标准句型725的应用。
此外,代替如上所述通过使用日语词典将所提取的英语关键词进行翻译而获得日语关键词并且利用日语含意标记来替换所获得日语关键词的是,可以按原样使用所获得的日语关键词。也就是说,可以使用不用英语含意类别数据库221的结构。在这种情况中,在相关关系数据库222中,储存其中利用日语关键词替换含意标记组含意标记的日语关键词组,来代替该实施例的含意标记组。代替英语关键词词典220的是,提供其中描述日语词的日语关键词词典。在这种情况中,通过使用日语词典将通过语音识别和关键词提取部分230所提取的英语关键词翻译为日语词,从而获得日语关键词;并且相关关系分析部分132形成日语关键词组合来代替该实施例的含意标记组合,其中在含意标记组合的部分含意标记中描述日语关键词。然后,选择与所形成日语关键词组合最相关的日语关键词组,并且选择与所选日语关键词组相对应的目语标准句型。在这种情况中,由于不使用含意标记,因此非铅版印刷部分日语产生部分260就不是必需的。
(第三实施例)
图15是表示根据本发明第三实施例通过语音提供信息的系统结构的功能方框图。图16是根据本发明第三实施例通过语音提供信息的系统操作的流程图。
在图15中,和图1相同的部分和元件用同样的附图标记来指定并且将不再描述,并且仅描述不同的部分和元件。
附图标记911表示照相机,用于对车辆行驶道路情况进行摄象。附图标记910表示图象识别部分,用于在识别模型数据库912的基础上识别通过照相机911输出的所拍摄图象。附图标记930表示含意标记产生部分,用于在图象识别结果上进行分析而产生多个词并且通过从使用含意标记产生规则931所产生词中产生含意标记字符串。附图标记932表示相关关系分析部分,用于计算所产生含意标记字符串和储存在标准句型指定相关关系数据库940中的含意标记组之间的相合度。附图标记950表示标准句型搜索部分,用于在相关关系分析部分932所计算相合度的基础上,选择与具有最高相合度的含意标记组相对应的标准句型。
将参照图16来描述如上所述构建的通过语音提供信息的系统操作。
每隔预定的时间间隔,照相机911对不同时间拍下的图象进行拍摄,并且向图象识别部分910输出所拍摄的图象。然后,图象识别部分910输入在不同时间拍下的两个图象(步骤900)。
然后,图象识别部分910通过使用识别模型数据库912对输入图象进行图象识别。
特别的是,图17(a)表示的是,作为输入图象949,是输入到图象识别部分910的图象示例。输入图象949是两个图象,一个是在时间t1拍摄,另一个是在时间t2拍摄。
然后,图象识别部分930通过使用识别模型数据库912对输入图象949进行图象识别,并且识别图17(b)所示识别结果951的信息。也就是说,在识别结果951中,将为例如四轮车或两轮车等运动物体描述下文:表示在时间t1所摄图象中运动物体的道路位置的坐标;表示在时间t2所摄图象中运动物体的道路位置的坐标;以及运动物体的种类(运动物体是四轮车还是两轮车)。
在识别模型数据库912中,例如,将描述如下:基础数据,在其基础上识别输入图象949中的运动物体,并获得表示在时间t1和t2所识别运动物体道路位置的坐标;以及规则和算法,用于识别运动物体是四轮车还是两轮车。基础数据的示例包括表示照相机911和道路之间位置关系的数据。通过使用该数据,就可以从图象中运动物体的位置中得到识别为四轮车或两轮车的运动物体的准确道路位置。规则和算法的示例包括,在夜间的情况中,算法是用于探测例如输入图象949中四轮车或两轮车的运动物体具有多个前灯或一个前灯,并且规则是用于从所探测的多个前灯或一个前灯来确定运动物体是四轮车还是两轮车;并且在白天的情况中,算法是从输入图象949探测运动物体,并且规则是用于识别所探测的运动物体是四轮车还是两轮车。还将描述夜间所使用的图象识别方法和白天所使用的图象识别方法的每个在适当情况中使用的规则。识别模型数据库912可以使用不同于上述的算法和规则。
图象识别部分910通过使用识别模型数据库912中所描述的规则、算法和基础数据来输出识别结果951。
然后,含意标记产生部分930通过使用含意标记产生规则931从图象识别部分910的识别结果中产生含意标记(步骤902)。
特别的是,含意标记产生部分930从识别结果951中计算例如四轮车和两轮车的运动物体的速度,以作为如图17(c)所示的分析中间结果952。然后,从分析中间结果952中计算输入图象949中的运动物体数和运动物体的平均速度,以作为分析结果953。在分析结果953中,在道路上行驶的n个运动物体的平均速度是1.7千米/小时。
含意标记产生规则931包括用于根据分析结果953产生词的规则和类似第一实施例的含意类别数据库121用于联系词和含意标记的规则。
含意标记产生部分930通过使用含意标记产生规则931从分析结果953中产生类似所产生词954的词。然后,含意标记产生部分930通过使用含意标记产生规则931产生相应于所产生词954的含意标记955。
然后,含意标记产生部分930检查所产生含意标记的错误(步骤903)。当产生矛盾的含意标记并且该矛盾不能解决时,就输出不能通过语音提供信息的警告(步骤904)。
输出警告情况的示例包括两种情况,在一种情况中输入图象950的图象识别是失败的,其中分析结果953是不可能的结果,因此运动物体数是100并且平均速度是300公里/小时,并且不能产生所产生的词954;在另一种情况中,尽管产生所产生的词954,所产生词954产生例如“涉滞(jutai,交通堵塞),顺調に通行(juncho ni tsuko,顺畅地通行)”等矛盾的含意标记。
然后,相关关系分析部分932从含意标记产生部分930所产生的含意标记中形成含意标记组合,并且计算含意标记组合和储存在标准句型指定相关关系数据库940中的含意标记组之间的相合度。在计算结果的基础上,标准句型搜索部分950从标准句型指定相关关系数据库940中选择与具有最高相合度的含意标记组相对应的标准句型(步骤905)。
特别的是,类似于第一实施例,通过组合图17的含意标记955而形成含意标记组合。在图17的示例中,由于含意标记955的数目是2,可能的含意标记组合只有一对“([涉滞(jutai,交通堵塞)]→[速度(sokudo,速度)])”。
在标准句型指定相关关系数据库940中,储存如图17所示含意标记组956的含意标记组和如所示相应标准句型957的标准句型,并且每个含意标记组与一个标准句型有关。
相关关系分析部分932计算含意标记组合“([涉滞(jutai,交通堵塞)]→[速度(sokudo,速度)])”和每个含意标记组之间的相合度。在图17的示例中,含意标记组“([涉滞(jutai,交通堵塞)]→[速度(sokudo,速度)])”具有最高的相合度。
因此,标准句型搜索部分950选择相应标准句型957“[速度(sokudo,速度)]運転の(unten no,驱动)[涉滞(jutai,交通堵塞)]中です(chu desu)”,其是相应于含意标记组“([涉滞(jutai,交通堵塞)]→[速度(sokudo,速度)])”的标准句型。
步骤906类似第一实施例的步骤40。
然后,非铅版印刷部分产生部分160产生与所选择标准句型非铅版印刷部分相对应的词(步骤907)。
也就是说,将所产生的词954应用到所选择标准句型“[速度(sokudo,速度)]運転の(unten no,驱动)[涉滞(jutai,交通堵塞)]中です(chu desu)”的部分含意标记组中。
随后的步骤将不再描述,因为它们类似于第一实施例中的步骤。
如上所述,根据该实施例,通过输入由拍摄路况而获得的图象,并且分析图象,就可以通过语音提供例如“のろのろ運転の涉滞中です(noronoro unten no jutai chu desu,车辆运行缓慢的地方交通堵塞)”的道路信息。
该实施例中的图象识别部分910和含意标记产生部分930是本发明信号处理装置的示例。该实施例中的含意标记产生部分930、相关关系分析部分932、标准句型搜索部分950和非铅版印刷部分产生部分160是本发明分析装置的示例。该实施例中语音合成部分170是本发明语音合成装置的示例。在该实施例中通过进行图象识别和分析识别结果所产生的例如所产生词954的词是本发明一个或多个词的示例。该实施例中的关键词信息指定词典120和含意类别数据库121是本发明相关信息的示例。该实施例中提取关键词是本发明提取全部或部分词的示例。在该实施例中提取如关键词标记所指定的关键词词素是本发明中基于预定标准提取全部或部分词的示例。该实施例中的含意标记是本发明中标准词的示例。
虽然在该实施例中,含意标记产生部分930从每个所产生的词954中产生含意标记955,但本发明并不局限于此。可以将所产生的词954用作和原来一样。也就是说,相关关系分析部分932将所产生的词954处理为关键词,并且形成上述关键词组合。此外,代替含意标记组956的是,提供上述关键词组。然后,相关关系分析部分932计算关键词组合和关键词组之间的相合度,并且标准句型搜索部分950选择与具有最高相合度的关键词组相对应的标准句型。然后,通过使用语调信息对标准句型进行语音合成。在这种情况中,由于标准句型不包括含意标记组,类似于上述的改进,非铅版印刷部分产生部分160就不是必须的。
虽然在该实施例中,图象识别部分910输入两个在不同时间拍摄的图象,但本发明并不局限于此。图象识别部分910可以输入两个或更多个在不同时间拍摄的图象。此外,可以使照相机拍摄运动图象并且使图象识别部分910输入运动图象。
(第四实施例)
图18是表示根据本发明第四实施例通过语音提供信息的系统结构的功能方框图。图19是根据本发明第四实施例通过语音提供信息的系统操作的流程图。
在图18中,和图1和15相同的部分和元件用同样的附图标记来指定并且将不再描述,并且仅描述不同的部分和元件。
图18第四实施例通过语音提供信息的系统的附图标记311表示用于输入语音的语音输入部分。附图标记312表示用于输入图象的图象输入部分。附图标记320是关键词信息指定词典,其中储存语音的特征数和含意标记。附图标记961表示语音识别和关键词提取部分,在来自语音输入部分311语音输入的基础上参照关键词信息指定词典320来进行语音识别,提取关键词并且指定关键词的含意标记。图象识别部分910是图象识别部分,其在来自图象输入部分312图象输入的基础上参照识别模型数据库912来进行图象识别。附图标记930表示含意标记产生部分,用于参照含意标记产生规则从图象识别结果中产生含意标记。附图标记962表示相关关系分析部分,用于从所产生的含意标记字符串中形成含意标记组合并且计算含意标记组合和相关关系数据库中的含意标记组之间的相合度。附图标记322表示标准句型数据库,其中储存下面的内容:响应标准句型,是与输入语音和图象相对应的响应标准句型;每个响应标准句型响应语音的铅版印刷部分信息;以及响应图象标记,其是响应图象与响应标准句型有关的标记。附图标记350表示响应表达搜索部分,用于通过使用含意标记字符串从标准响应数据库340搜索和提取相对应的响应标准句型。附图标记381表示用于输出语音的语音输出部分。附图标记382表示用于输出图象的图象输出部分。附图标记371表示储存响应图象的图象数据库。附图标记370表示图象产生部分,用于在由响应表达搜索部分350从标准响应数据库340所提取的图象标记的基础上产生图象数据。附图标记380表示定时控制部分,用于调节语音输出和图象输出的定时。
将参照图24来描述如上所述构建的通过语音提信息的系统操作。
语音输入部分311接收待处理的语音波形,图象输入部分312接收与待处理的语音同步的图象数据(步骤210),并且语音识别和关键词提取部分330以类似于第二实施例的语音识别和关键词提取部分230的方法来识别输入语音并将其转换为词字符串。图象识别部分910以类似于第三实施例图象识别部分910的方法进行图象识别来产生识别结果。含意标记产生部分930从图象识别结果中产生包括一个或多个词的词字符串(步骤215)。语音识别和关键词提取部分961在词字符串上进行词素分析,指定例如句子成分的语言信息,进行语法分析并指定每个语法单元的含意标记。含意标记产生部分930从所产生的词字符串中产生含意标记(步骤220)。在此,语音输入部分311以及语音识别和关键词提取部分961的操作类似于第二实施例的操作,并且图象输入部分312、图象识别部分910和含意标记产生部分930的操作类似于第三实施例的操作。
相关关系分析部分962形成所产生含意标记的组合。在形成含意标记组合中,分别形成语音识别和关键词提取部分961所产生含意标记的组合以及含意标记产生部分930所产生的含意标记的组合。因此,当同时将语音和图象输入到语音输入部分311和图象输入部分312时,分别形成与输入语音相对应的含意标记的组合以及与输入图象相对应的含意标记的组合。在这种情况中,以类似于第二实施例的方法来进行与输入语音相对应的含意标记组合和相关关系数据库322之间相合度的计算,并且以类似于第三实施例的方法来进行与输入图象相对应的含意标记组合和相关关系数据库322之间相合度的计算。
响应表达搜索部分350从标准响应数据库340中选择相应于含意标记组的响应标准句型,该含意标记组具有与相关关系分析部分962所通报含意标记组合最高的相合度(步骤230)。当同时输入图象和语音时,响应表达搜索部分350选择相应于输入图象的响应标准句型以及相应于输入语音的响应标准句型。
此外,响应表达搜索部分350提取所选择响应标准句型铅版印刷部分的音位字符串和语调信息(步骤240)。类似于第一实施例,预先使响应标准句型、铅版印刷部分的音位字符串和语调信息有联系,并且将这些与响应标准句型一起储存在标准响应数据库中。
此外,响应图象标记与所选择的响应标准句型相对应并且提取图象和标准响应句型之间同步的信息(步骤340)。
当在标准响应句型中存在非铅版印刷部分时,非铅版印刷部分产生部分160从关键词信息指定词典320和含意标记产生部分931中提取步骤240所选择响应标准句型非铅版印刷部分的属性以及相应于步骤220所指定含意标记的词或短语,并且产生非铅版印刷部分(步骤250)。
在随后的步骤60到90中,执行类似于第一实施例中参照图2所描述的操作来输出语音波形。
图象产生部分370通过使用步骤230所选择响应标准句型的响应图象标记从图象数据库371中提取响应图象(步骤360),并且在与标准响应句型同步的信息基础上产生图象(步骤380)。
定时控制部分380在与步骤340所提取标准响应句型同步的响应图象和信息的基础上,使步骤90中所产生的语音波形和步骤380中所产生的图象同步,并且从语音输出部分381和图象输出部分382输出响应语音和响应图象。
如上所述,根据该实施例的交互系统,通过提取输入语音和图象的含意,和基于相应于含意的标准响应句型而合成响应语音并且产生响应图象,对于所给出的输入,可以不考虑词序和表达的变化而有效地产生响应句子,并且通过使用语音合成部分来利用铅版印刷句子实现具有高自然度的合成语音,通过自然语音可以产生交互响应。
该实施例中的语音识别和关键词提取部分961、相关关系分析部分962、响应表达搜索部分350、图象识别部分910、含意标记产生部分930和非铅版印刷部分产生部分160是本发明分析装置的示例。该实施例中的语音合成部分170是本发明语音合成装置的示例。该实施例中通过语音识别产生的文本是本发明输入句子的示例。该实施例中通过分析图象识别结果产生的一个或多个词是本发明输入句子的示例。该实施例中的关键词信息指定词典120和含意类别数据库121是本发明相关信息的示例。该实施例中提取关键词是本发明中提取全部或部分词的示例。在该实施例中提取如关键词标记所指定的关键词词素是本发明中基于预定标准提取全部或部分词的示例。该实施例中的含意标记是本发明中标准词的示例。
虽然在该实施例中使用含意类别数据库121,但并不总需要使用含意类别数据库121。在这种情况中,从通过分析由语音识别和图象识别结果所产生文本而产生的一个或多个词中选择关键词。在选择关键词中,只选择包括于储存在标准响应数据库340的标准句型中的关键词。但是,在这种情况中,在标准响应数据库340的标准响应数据库中,描述关键词来代替标准响应句型的部分含意标记。选择相应于关键词组的标准响应句型,该关键词组具有与关键词组合最高的相合度。在同样选择的标准响应句型中,通过使用与标准响应句型有关的语调信息来执行语音合成。关键词组合和关键词组类似于如上所述的。
虽然在第一到第四实施例中通过连接音位条来执行语音合成,但也可通过除该方法外的其它方法来进行。
虽然在第一到第四实施例中,铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数储存在标准句型数据库、标准句型指定相关关系数据库和标准响应数据库中,代替铅版印刷部分音位字符串和铅版印刷部分语调模式的是,可以储存录音。
虽然在第一到第四实施例中,铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数储存在标准句型数据库、标准句型指定相关关系数据库和标准响应数据库中,代替铅版印刷部分音位字符串和铅版印刷部分语调模式的是,可以储存例如符合语音合成部分170合成方法的共振峰信息等参数。
虽然在第一到第四实施例中,音位字符串、音素(morae)数、重音、句子中的位置、具有或没有暂停以及紧随暂停前后的持续时间、紧随重音短语前后的重音类型和语调信息储存在非铅版印刷部分语调数据库171中,除这些之外,可以储存句子成分字符串、词组(bunsetsu)属性、相关性、起伏度等类似的信息,或者除语调信息外仅需储存上述条件的至少一个。
虽然在第一到第三实施例中输入是单个信号,但类似于第四实施例可以接收多个输入信号。
虽然在第四实施例中输入的是多个信号,但可以接收单个输入信号。
虽然在第一实施例中输入是文本,但除文本外输入可以是语音、声音、图象、振动、加速度、温度和张力和类似输入中的一个或它们的组合。
虽然第二实施例中的输入是语音,但输入可以是文本或语音和文本的组合。
虽然第三实施例中的输入是图象,但除图象外输入可以是声音、振动、加速度、温度和张力和类似输入中的一个或它们的组合。
虽然第四实施例中的输入是语音和图象,但除语音和图象外输入可以是声音、振动、加速度、温度和张力和类似输入中的一个或它们的组合
虽然在第二实施例中将英语转换为日语,但语言也可以是其它语言。
虽然第二实施例中输入语音的语言是单个语言,但可以在多个语言中自动或通过用户选择来进行转换。
虽然第二实施例中输出语音的语言是单个语言,但可以在多个语言中通过用户选择来进行转换。
如上所述,根据该实施例,对于例如文本、语音或图象的任意输入,通过分析输入信号的含意并且通过标准句型将其转换为语言表达,可以进行从媒体和形态的宽范围到语音和语言的转换,并且可以通过高质量的语音提供信息。
(第五实施例)
图1是表示根据本发明第五实施例通过语音提供信息的系统结构的功能方框图。图20是根据本发明第五实施例通过语音提供信息的系统操作的流程图。
根据第五实施例通过语音提供信息的系统结构类似于第一实施例的系统结构。也就是说,在图1中,附图标记110表示用于输入文本的文本输入部分。附图标记120表示表示关键词信息指定词典,其中储存例如书写形式、句子成分等需要词素分析的信息,并且为作为关键词处理的词素指定关键词标记和含意标记。附图标记121表示含意类别数据库,其中储存与关键词信息指定词典120中的关键词相对应的含意标记。附图标记130表示关键词提取部分,用于在输入文本上执行词素分析,并且参照关键词信息指定词典120从输入文本中提取关键词,并且为每一个所提取的关键词指定含意标记。附图标记122表示相关关系数据库,其中储存通过彼此相关含意标记的组合而形成的含意标记组。在标准句型数据库140中储存相应于每个含意标记组的标准句型数据。附图标记132表示相关关系分析部分,用于计算从关键词提取部分130中输出的含意标记字符串和储存在相关关系数据库122中每个含意标记组之间的相合度。附图标记140表示标准句型数据库,其中储存每个标准句型的含意标记字符串、铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数。附图标记150表示标准句型搜索部分,通过使用含意标记字符串来搜索标准句型数据库。附图标记160表示非铅版印刷部分产生部分,用于产生相应于输入的非铅版印刷部分的音标字符串。附图标记170表示语音合成部分。附图标记180表示用于输出语音波形的输出部分。语音合成部分170包括:非铅版印刷部分语调数据库171,其中储存了例如音位字符串、音素(morae)数和重音、以及语调信息等重音短语的属性;语调控制部分172,参考非铅版印刷部分语调数据库171而提取非铅版印刷部分的语调信息,并将所提取的语调信息连接到由标准句型搜索部分150所提取的铅版印刷部分语调信息上;和波形产生部分174,基于从语调控制部分172输出的语调信息通过使用音位条数据库173来产生语音波形,其中在音位条数据库173中储存了波形产生单元和音位条。
将参照附图20来描述如上所述构建的通过语音提供信息的系统操作。
在根据该实施例通过语音提供信息的系统中,类似于第一实施例,在通过语音提供信息之前,预备好关键词信息指定词典120、含意类别数据库121、相关关系数据库122和标准句型数据库140。
图5表示的是关键词信息指定词典120的示例。图6表示的是含意类别数据库121的示例。这些都已在第一实施例中详细描述过。图22(a)表示的是相关关系数据库122的示例。图22(a)所示的标准句型数据库140不同于第一实施例中所描述的第一个标准句型。图22(b)所示的相关关系数据库122不同于第一实施例中所描述的第一个含意标记组。除这些之外,它们都类似于第一实施例。
假设如上所述预备好关键词信息指定词典120、含意类别数据库121、相关关系数据库122和标准句型数据库140。
接下来,将描述通过语音提供信息的操作。
文本输入部分110接收待处理的文本数据(步骤301)。然后,关键词提取部分130参照关键词信息指定词典120在输入文本数据上进行词素分析,提取关键词标记所指定的词素,并且为每个语法单元指定含意标记和例如发音和句子成分等语言信息(步骤302)。
将参照图21描述这种步骤302的操作。假设输入文本是输入文本500,也就是,“救急車がサィレンを鳴らして通貨してぃつた(kyukyusha ga sairen o narashi te tsuuka shiteitta,当拉响它的汽笛时,一辆救护车“金钱”)”。在输入文本500中,应该写为“通过(tsuuka,通过)”的部分由于输入错误而写为“通貨(tsuuka,钱)”。对该文本数据进行词素分析,指定例如发音和和句子成分等语言信息,并且提取关键词信息指定词典120中关键词所指定的词素为关键词。图21中的关键词提取结果501是以这种方法所提取的关键词。
然后,关键词提取部分130通过使用含意类别数据库121在对由词素分析所获得的语法信息、的基础上利用含意标记来替换包括关键词的语法单元。作为如上所述的这种指定语言信息和利用含意标记替换语法单元的结果是,获得含意标记指定结果502。在该实施例中,将词组(bunsetsu)用作语法单元。也就是说,将“救急車が(kyukyusha ga,一辆救急车)”的语言信息和含意标记指定为“普通名词:車兩(sharyo,车辆):主语”,将“サィレンを(saireno,它的汽笛)”的语言信息和含意标记指定为“普通名词:音響(onkyo,声音)·警告(keikoku,警告):谓语”,将“鳴らして(narashite,当拉响)”的语言信息和含意标记指定为“动词:音出力(otoshutsuryoku,声音输出):谓语”,将“通貨(tsuuka,钱)”的语言信息和含意标记指定为“普通名词:金錢(kinsen,金钱),宾语”,并且将してぃつた(shiteitta,做)的语言信息和含意标记指定为“动词:一般(ippan),谓语”。
然后,相关关系分析部分132分析所提取关键词中的关系(步骤303)。此外,相关关系分析部分132确定是否可以分析关键词中的关系(步骤304)。当不能分析关键词中的关系并且不能排斥矛盾的关键词时,就向用户输出警告并且终止程序(步骤313)。当在步骤304中不能确定与其它关键词无关或矛盾的关键词为输入错误而不能将其排除在外时,相关关系分析部分132输出含意标记组,可以利用其来搜索代表输入含意的标准句型。
将参照图21来描述这种步骤303和304的操作。通过分析,确定关键词提取结果501的“救急車(kyukyusha,救急车)”和“サィレン(sairen,汽笛)”、以及“サィレン(sairen,汽笛)和鳴らす(narasu,尖啸)”每个都相互高度相关,确定“する(suru,做)”与救急車(kyukyusha,救急车)”“サィレン(sairen,汽笛)”和“通貨(tsuuka,钱)”的全部稍微有点相关,并且确定“通貨(tsuuka,钱)”与“救急車(kyukyusha,救急车)”、“サィレン(sairen,汽笛)”和“鳴らす(narasu,尖啸)”的全部不相关。根据这些分析结果,“通貨(tsuuka,钱)”作为识别整个输入文本含意中不适当部分而排除,并且输出可以用于搜索标准句型的类似含意标记组503的含意标记。在关键词含意和关键词中间关系的基础上进行输入错误的排除,例如,通过No.2001-65637号日本专利申请的方法。
标准句型搜索部分150通过使用从相关关系分析部分输出的含意标记组来搜索标准句型数据库140(步骤305),将输入文本映入到特定的标准句型中,并且提取所映射标准句型铅版印刷部分的音位字符串和语调信息(步骤306)。
将参照图21来描述这种步骤305和306的操作。搜索包括与包含在含意标记组合503中那些所共有的含意标记的标准句型,其中的含意标记组合503通过相关关系分析部分132而形成,并且作为搜索结果是,选择类似所选标准句型504的标准句型。例如,通过日本专利申请No.2001-65637号的方法将含意标记组映入到标准句型中。
也就是说,当通过日本专利申请No.2001-65637号的方法来执行时,步骤303到306的操作如下所述。在2001年3月8日递交的包括说明书、权利要求、附图和摘要的No.2001—65637号日本专利申请的整个公开在这里参照其整体而合并。
首先,相关关系分析部分1 32组合含意标记指定结果502的两个含意标记而形成如含意标记组合503所示的含意标记组合。含意标记指定结果502包括五个含意标记,并且五个含意标记组合的可能总数是10。含意标记组合503包括10个含意标记组合。通过形成包括于含意标记指定结果502中所有可能的含意标记组合,而获得含意标记组合503。
然后,相关关系分析部分132计算含意标记组合503和相关关系数据库122中含意标记组之间的相合度。在图22(b)的示例中,首先是含意标记组“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告))(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))(車兩(sharyo,车辆)→移動(ido,运动))”和含意标记组合503之间的相合度。
首先,检查含意标记组(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告))的第一个含意标记对。在含意标记组合503中存在符合第一个含意标记对的含意标记对。然后,检查含意标记组(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))的第二个含意标记对。在含意标记组合503中存在符合第二个含意标记对的含意标记对。然后,检查含意标记组(車兩(sharyo,车辆)→移動(ido,运动))的第三个含意标记对。在含意标记组合503中不存在符合第三个含意标记对的含意标记对。因此,第一个含意标记组的相合度是2。
同样地,检查第二个含意标记组(車兩(sharyo,车辆)→移動(ido,运动))的含意标记对。在含意标记组合503中不存在符合第一个含意标记对的含意标记对。因此,第二个含意标记组的相合度是0。同样地,图22(b)的第三和随后含意标记组的相合度也是0。相关关系分析部分132以这种方式计算相合度。
由相关关系分析部分132通报相合度,标准句型搜索部分150从标准句型数据库140中选择与具有相关关系数据库122中含意标记组最高相合度的含意标记组相对应的标准句型。在上述示例中,由于含意标记组“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告))(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))(車兩(sharyo,车辆)→移動(ido,运动))”具有最高相合度,所选标准句型504是与该含意标记组相对应的标准句型,也就是说,选择“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语1]て(te)[移動(ido,运动):谓语2]”。
然后,标准句型搜索部分150从标准句型504中排斥下面的含意标记:具有最高相合度的含意标记组“(車兩(sharyo,车辆)→音響(onkyo,声音)·警告(keikoku,警告))(音響(onkyo,声音)·警告(keikoku,警告)→音出力(otoshutsuryoku,声音输出))(車兩(sharyo,车辆)→移動(ido,运动))”的含意标记对,含意标记属于与含意标记组合503的含意标记对不一致的含意标记对,并且不包括在与含意标记组合503的含意标记对一致的含意标记对中。例如这种含意标记,排斥“移動(ido,运动)”。同样,排斥输入错误。
因此,从标准句型504中移走含意标记“移動(ido,运动)”,标准句型搜索部分150获得“[車兩(sharyo,车辆):主语]が(ga)[音響(onkyo,声音)·警告(keikoku,警告):宾语]を(o)[音出力(otoshutsuryoku,声音输出):谓语1]て(te)”,也就是,输入错误排斥标准句型504a。
然后,标准句型搜索部分150提取所选标准句型504铅版印刷部分的音位字符串和语调信息。
非铅版印刷部分产生部分160比较步骤305中所选标准句型504非铅版印刷部分的属性和步骤304中没有确定输入错误的关键词所指定的语言信息,并且从步骤302所提取的关键词中产生与非铅版印刷部分对应的词(步骤307)。
将参照图21来描述这种步骤307的操作。将在步骤304中没有排斥的关键词应用到标准句型搜索部分150所选的标准句型504非铅版印刷部分,并且将在标准句型中经常出现的词应用到没有关键词相对应的非铅版印刷部分。
也就是说,没有关键词与输入错误排斥标准句型504a中所排斥的含意标记“移動(ido,运动)”相对应,应用在含意标记“移動(ido,运动)”中经常出现的词“走ゐ(hashiru,行驶)”。同样,可以获得对标准句型505的应用。
语调控制部分172通过使用步骤307中所产生的非铅版印刷部分的音位字符串、音素(morae)数和重音、句子中非铅版印刷部分的位置、具有或没有暂停以及非铅版印刷部分和铅版印刷部分之间暂停的持续时间、以及毗邻非铅版印刷部分的铅版印刷部分的重音类型中至少一个来搜索非铅版印刷部分语调数据库171(步骤308),并且提取重音短语单元中非铅版印刷部分的语调信息(步骤309)。
然后,语调控制部分172在步骤306中所映射标准句型的非铅版印刷部分语调调节参数的基础上来调节步骤308中所提取非铅版印刷部分的语调信息,并且将所调节的语调信息与步骤306所提取铅版印刷部分的语调信息相连接。例如,如1No.2001—163807号日本专利申请中所描述的来执行调节(步骤310)。
波形产生部分174基于步骤306中所提取铅版印刷部分音位字符串、步骤307中所产生非铅版印刷部分音位字符串和步骤310中所产生的语调信息,通过使用储存在音位条数据库173中的音位条来产生语音波形(步骤311)。
步骤311中所产生的语音波形作为输出部分180的语音输出(步骤312)。
以这种方式,输出语音“救急車がサィレンを鳴らして走つた(kyukyusha ga sairen o narasite hashitta,一辆救护车当拉响了它的汽笛时而行驶。)”。
虽然在该实施例中,当排斥输入错误时,将经常出现的词应用到所排斥的含意标记,仅可以在输入错误排斥标准句型504a中所包括的铅版印刷部分和非铅版印刷部分上实行语音合成。当进行该操作时,在上述的示例中,输出语音“救急車がサィレンを鳴らして(kyukyusha ga sairen o narasite,一辆救护车当拉响了它的汽笛时。)”。
如上所述,根据该实施例通过语音提供信息的系统,通过在排斥输入错误之后提取输入文本的含意,将其转换为具有相同含意的标准句型并且合成语音;对于具有输入错误或省略部分或或包括词的列举的不完整文本,合成具有高自然度的语音可以在象句子一样完整的语言表达中实现,并且可以通过自然语音准确地提供信息。
(第六实施例)
图23是表示根据本发明第六实施例通过语音提供信息的系统结构的功能方框图。图24是根据本发明第六实施例通过语音提供信息的系统操作的流程图。
在图23中,和图1相同的部分和元件用同样的附图标记来指定并且将不再描述,并且仅描述不同的部分和元件。在第六实施例的图23中,其结构除下面结构外与第一实施例的结构相同,不同处在于,通过语音输入部分210来替换图1结构的文本输入部分110;通过语音识别和关键词提取部分230来替换关键词提取部分130,用于参照关键词信息指定词典120和特征量数据来识别输入语音并且输出作为关键词标记所指定词素字符串的识别结果。将参照图24来描述如上所述构建的通过语音提供信息的系统操作。
语音输入部分210接收待处理的语音波形(步骤321)。语音识别和关键词提取部分230参照关键词信息指定词典120和特征量数据来识别输入语音,在关键词提取的同时进行输入语音向词素字符串的转换,并且产生作为关键词标记所指定词素字符串的语音识别结果(步骤322)。然后,语音识别和关键词提取部分230通过使用例如句子成分的语言信息将词素字符串布置到语法单元中,并且指定例如发音和句子成分的含意标记和语言信息(步骤323)。
将参照图25来描述这种步骤322和323的操作。假设输入语音是输入语音600,也就是,“ココアを、ぇ-と、冷たぃのでぉ願ぃします(kokoa o etto tsumetainode onegaishimasu,请来一杯可可、嗯、要冰的)”。该语音数据的语音识别结果是类似语音识别结果601的词素字符串。假设关键词信息指定词典120中关键词标记所指定的词素是如关键词标记602中所示的“ココア(kokoa,可可)”“江藤(eto,江藤)”“冷たぃ(tsumetai,冷的)”和“ぉ願ぃ(onegai,请)”。参照含意类别数据库121为包括关键词的语法单元指定含意标记,从而获得含意标记指定结果603。在该实施例中,词组(bunsetsu)作为语法单元使用。也就是说,将“ココア(kokoa,可可)”的含意标记和语言信息指定为“普通名词:飲み物(nomimono,饮料),主语”,将“江藤(eto,江藤)”的含意标记和语言信息指定为“属性名词:姓(sei,姓),主语”,将“冷たぃ(tsumetai,冷的)”的含意标记和语言信息指定为“形容词:温度(ondo,温度),修饰动词原因”,并且将“ぉ願ぃ(onegai,请)”指定为“动词性名词:要求(yokyu,请求)·丁寧(teinei,礼貌的表示方式)”。
然后,相关关系分析部分132分析所提取关键词中的关系(步骤303)。此外,相关关系分析部分132确定是否可以分析关键词中的关系(步骤304)。
当不能分析关键词中的关系并且不能排斥矛盾的关键词时,就向用户输出警告并且终止程序(步骤313)。当在步骤304中不能确定与其它关键词无关或矛盾的关键词为识别错误或插入的多余词并且不能将其排除在外时,相关关系分析部分132输出可以利用其来搜索代表输入含意的标准句型的含意标记组。
将参照图25来描述这种步骤325和304的操作。通过分析,确定关键词标记602所指定的“ココア(kokoa,可可)和冷たぃ(tsumetai,冷的)”以及“ココア(kokoa,可可)和ぉ願ぃ(onegai,请)”每个都相互高度相关,确定“江藤(eto,江藤)”与“ココア(kokoa,可可)”和“冷たぃ(tsumetai,冷的)”无关,并且仅和“ぉ願ぃ(onegai,请)”稍微有点相关。根据这些分析结果,“江藤(eto,江藤)”作为识别整个输入文本含意中不适当部分而排除,并且输出可以用于搜索标准句型的类似含意标记组604的含意标记组。在关键词含意和关键词中间关系的基础上进行输入错误的排除,例如,通过No.2001-65637号日本专利申请的方法。也就是说,这些操作的细节类似于第五实施例中所描述的操作。
标准句型搜索部分150通过使用从相关关系分析部分132输出的含意标记组来搜索标准句型数据库140(步骤305),将输入文本映入到特定的标准句型中,并且提取所映射标准句型铅版印刷部分的音位字符串和语调信息(步骤306)。
将参照图25来描述这种步骤305和306的操作。搜索包括与包含在从相关关系分析部分132中所形成形成含意标记组合604中那些所共有的含意标记的标准句型,并且作为搜索结果是,选择类似所选标准句型605的标准句型。例如,通过No.2001-65637号日本专利申请中所描述的方法来执行从含意标记组中对标准句型的选择。也就是说,这些操作的细节类似于第五实施例中所描述的操作。
非铅版印刷部分产生部分160比较步骤305中所选标准句型非铅版印刷部分的属性和步骤304中没有确定输入错误的关键词所指定的语言信息,并且从步骤322所提取的关键词中产生与非铅版印刷部分相对应的词(步骤307)。
将参照图25来描述这种步骤307的操作。将在步骤304中没有排斥的关键词应用到标准句型搜索部分150所选的标准句型605非铅版印刷部分。
语调控制部分172通过使用步骤307中所产生的非铅版印刷部分的音位字符串、音素(morae)数和重音、句子中非铅版印刷部分的位置、具有或没有暂停以及非铅版印刷部分和铅版印刷部分之间暂停的持续时间、以及毗邻非铅版印刷部分的铅版印刷部分的重音类型中至少一个来搜索非铅版印刷部分语调数据库171(步骤308),并且提取每个重音短语单元中非铅版印刷部分的语调信息(步骤309)。
然后,语调控制部分172在步骤305中所选标准句型的非铅版印刷部分语调调节参数的基础上来调节步骤308中所提取的非铅版印刷部分的语调信息,并且将所调节的语调信息与步骤305所提取铅版印刷部分的语调信息相连。例如,以类似于上述实施例的方法来进行调节(步骤310)。
波形产生部分174基于步骤306中所提取铅版印刷部分音位字符串、步骤307中所产生非铅版印刷部分音位字符串和步骤310中所产生的语调信息,通过使用储存在音位条数据库173中的音位条来产生语音波形(步骤311)。
步骤311中所产生的语音波形作为输出部分180的语音输出(步骤312)。
如上所述,根据该实施例通过语音提供信息的系统,通过在排斥口语表达、所插入的不需要的词或语音识别错误之后提取输入语音的含意,将其转换为具有相同含意的标准句型并且合成语音;对于其中插入不需要的词、具有识别错误、省略部分或颠倒部分、或包括词的列举的不完整句子,合成具有高自然度的语音可以在象句子一样完整的语言表达中实现,并且可以通过自然语音准确地提供信息。
虽然在第五和第六实施例中通过连接音位条来执行语音合成,但也可通过除该方法外的其它方法来进行。
虽然在第五和第六实施例中,铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数储存在标准句型数据库中,代替铅版印刷部分音位字符串和铅版印刷部分语调模式的是,可以储存录音。
虽然在第五和第六实施例中,铅版印刷部分音位字符串、铅版印刷部分语调模式和非铅版印刷部分语调模式的调节参数储存在标准句型数据库中,代替铅版印刷部分音位字符串和铅版印刷部分语调模式的是,可以储存例如符合语音合成部分170合成方法的共振峰信息等参数。
虽然在第五和第六实施例中,音位字符串、音素(morae)数、重音、句子中的位置、具有或没有暂停以及紧随暂停前后的持续时间、紧随重音短语前后的重音类型和语调信息储存在非铅版印刷部分语调数据库171中,除这些之外,还可以储存句子成分字符串、从句属性、相关性、突出等类似的信息,或者除语调信息外仅需储存上述条件的至少一个。
如上所述,根据该实施例,不仅可以接收任意的输入文本,而且还可以接收例如语音、图象或声音等任意的输入信号,因此可以通过自然语音提供信息。
此外,根据该实施例,对于例如文本或语音等任意输入,通过分析输入信号的含意并且通过标准句型将其转换为语言表达,可以进行从媒体和形态的宽范围到语音和语言的转换,并且可以通过高质量的语音提供信息。
本发明是一种程序,用于使计算机实现根据本发明通过语音提供信息的系统的全部或部分装置(或器械、设备、电路、部件或类似)的功能,上述程序适合和计算机协同运行。
此外,本发明是一种程序,用于使计算机执行根据本发明通过语音提供信息的系统的全部或部分步骤(或程序、操作、工作或类似)的操作,上述程序适合和计算机协同运行。
本发明中的部分装置(或器械、设备、电路、部件或类似)和本发明中的部分步骤(或程序、操作、工作或类似)是分别指多个装置中的部分和多个步骤中的部分,或是分别指一个装置中的部分功能和一个步骤的部分操作。
此外,本发明中包括记录本发明程序的计算机可读取记录媒体。
此外,本发明程序的用法可以是使程序记录在计算机可读取记录媒体上并且与计算机协同运行。
此外,记录媒体的示例包括ROM,并且传输媒体的示例包括例如Internet、光、无线电波和声波。
此外,本发明的上述计算机并不局限于例如CPU的纯硬盘,还可以包括固件、OS、以及外围设备。
如上所述,本发明的结构即可实现为软件,也可以实现为硬件。
从上面所给出的描述中显而易见,本发明可以提供一种通过语音提供信息的装置、一种通过语音提供信息的方法和一种能够接收任意输入并且通过自然语音提供信息的程序。
此外,本发明可以提供一种通过语音提供信息的装置、一种通过语音提供信息的方法和一种能够接收任意输入并且即使当在输入中存在错误时也能输出听众可以理解的程序。
此外,本发明可以提供一种通过语音提供信息的装置、一种通过语音提供信息的方法和一种即使是例如语音、图象或声音等非语言的输入也能够转换为可以理解语音的程序。
Claims (41)
1.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,并且利用相对应的词来替换全部或部分所选择标准句型中的标准词;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与标准词相关的词和预定标准词是有关的。
2.根据权利要求1所述的通过语音提供信息的装置,其中所说预定标准是在相关信息中出现的词选择。
3.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,并且通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对所选择的标准句型进行语音合成;
其中所说预定标准是指与预备标准句型中所注册的任一词一致的词的选择。
4.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第二语言的标准词来替换所提取的第一语言的词,通过使用第二语言的标准词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型,并且利用相应于与第二语言标准词相对应的第一语言词的第二语言词来替换所选择第二语言标准句型中的全部或部分第二语言的标准词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对执行了词替换的句子进行语音合成;
其中所说相关信息是指与第二语言标准词相关的第一语言词和第二语言的预定标准词是有关的。
5.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第一语言的标准词来替换所提取的第一语言的词,通过使用第一语言的标准词从多个第一语言的预备标准句型中选择与输入句子最相关的第一语言的标准句型,识别与所选择的第一语言标准句型有关的第二语言预备标准句型,并且利用第二语言词来替换所识别第二语言标准句型中的全部或部分第二语言的标准词,其中第二语言词相当于与相应于第二语言标准词的第一语言标准词相对应的第一语言输入词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对执行了词替换的句子进行语音合成;
其中所说相关信息是指与第一语言标准词相关的第一语言词和第一语言的预定标准词是有关的。
6.根据权利要求4或5通过语音提供信息的装置,其中所说预定标准是在相关关系中出现的第一语言词选择。
7.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,并且通过使用与所提取的第一语言词相对应的第二语言词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对所选择的第二语言标准句型进行语音合成;
其中所说预定标准是指与第二语言预备标准句型中所注册的任一第二语言词相符的第一语言词的选择。
8.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用所提取的第一语言词从多个第一语言的预备标准句型中选择与第一语言输入句子最相关的第一语言的标准句型,并且识别与所选择的第一语言标准句型相对应的第二语言预备标准句型;和
语音合成装置,通过使用至少预先为所识别第二语言标准句型指定的语调信息,对所识别的第二语言标准句型执行语音合成;
其中所说预定标准是指与第一语言的预备标准句型中所注册的任一第一语言词相符的第一语言词的选择。
9.一种通过语音提供信息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,识别与所选择标准句型相对应的预定响应标准句型,并且利用相对应的词来替换全部或部分所识别响应标准句型中的标准词;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与标准词相关的词和预定的标准词是有关的。
10.一种根据权利要求9通过语音提供信息的装置,其中所说预定标准是在相关信息中出现的词选择。
11.一种通过语音提供信言息的装置,包括:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型,并且识别与所选择标准句型相对应的预定响应标准句型;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对所识别的响应标准句型进行语音合成;
其中所说预定标准是指与预备标准句型中所注册词相同的词选择。
12.一种根据权利要求1、2、4、和5到10中的任一个通过语音提供信息的装置,其中当利用词替换所选择标准句型的标准词时,所说分析装置离开所选择标准句型的标准词,标准词不再与词相对应,或者利用预定词来替换不再与词相对应的标准词。
13.一种根据权利要求1到11中的任一个通过语音提供信息的装置,其中全部或部分预备标准句型的每一个都与预定操作和/或图象数据有联系。
14.一种根据权利要求13通过语音提供信息的装置,其中全部或部分预备标准句型的每一个都与预定操作有关,并且当选择或识别标准句型时,所说分析装置还识别相应于标准句型的操作,并且当所说语音合成装置输出语音合成结果时进行识别操作。
15.一种根据权利要求13通过语音提供信息的装置,其中全部或部分预备标准句型的每一个都与预定图象有关,并且当选择或识别标准句型时,所说分析装置还识别相应于标准句型的图象,并且当所说语音合成装置输出语音合成结果时显示所识别的图象。
16.一种根据权利要求1到11中的任一个通过语音提供信息的装置,包括分析输入信号并根据分析结果产生一个词或多个词的信号分析装置,
其中使所说输入句子一个或多个词。
17.一种根据权利要求16通过语音提供信息的装置,其中所说输入信号至少是语音、声音、图象、振动、加速度、温度和张力中的一个。
18.一种根据权利要求17通过语音提供信息的装置,其中所说输入信号至少是语音,并且所说信号处理装置执行输入语音的语音识别并且根据语音识别结果产生一个词或多个词。
19.一种根据权利要求17通过语音提供信息的装置,通过语音提供信息的装置,其中所说输入信号至少是声音,并且所说信号处理装置识别输入声音的声源并且根据声源的识别结果产生一个词或多个词。
20.一种根据权利要求17通过语音提供信息的装置,通过语音提供信息的装置,其中所说输入信号至少是图象,并且所说信号处理装置分析输入图象并且根据分析结果产生一个词或多个词。
21.一种根据权利要求1到11中任一个的通过语音提供信息的装置,一种通过语音提供信息的装置,其中可以输入不完整的句子。
22.一种根据权利要求21通过语音提供信息的装置,通过语音提供信息的装置,其中可以存在输入句子是不完整的情况,这是一种可以省略全部或部分输入句子的情况,是一种可以用不相关句子来替换全部或部分输入句子的情况,或者是一种可以在输入句子中插入不相关句子的情况。
23.一种根据权利要求22通过语音提供信息的装置,通过语音提供信息的装置,其中当所说分析装置由于省略了全部或部分输入句子或用不相关句子替换了全部或部分输入句子而不能选择标准句型,所说语音合成装置就不能进行语音合成。
24.一种根据权利要求22或23的通过语音提供信息的装置,其中输入句子的一部分输入句子是句子、短语、词组(bunsetsu)、和词中的任一个。
25.一种根据权利要求21通过语音提供信息的装置,其中可以存在输入句子是不完整的情况,这是一种输入句子是包括口语表达的合乎语法的不完整句子的情况,是一种输入句子是词的列举的情况,是一种输入句子包括印刷错误或省略词的情况,或者是一种输入句子不但是句子而且是包括符号和词的表达。
26.一种根据权利要求21通过语音提供信息的装置,其中当输入句子是作为语音识别结果的结果所产生的句子时,就存在输入句子是不完整的可能,这是一种存在语音识别结果包括识别错误可能情况,或者是一种存在这样可能性的情况:语音识别是失败的,从而使得相应于全部或部分输入句子的识别结果不作为语音识别结果输出,其中在相应于全部或部分输入句子的识别结果上进行语音识别。
27.一种根据权利要求1到11中任一个的通过语音提供信息的装置,其中所说语调信息是通过记录自然产生的指定了语调信息的标准句型语音而获得的语音波形。
28.一种根据权利要求1到11中任一个的通过语音提供信息的装置,其中所说语调信息是从自然产生的指定了语调信息的标准句型语音中所提取的信息。
29.一种根据权利要求28通过语音提供信息的装置,其中所说提取的信息至少包括语音的基频模式、强度模式、音位持续时间模式和语速中的一个。
30.一种根据权利要求1到11中任一个的通过语音提供信息的装置,其中所说语调信息至少与下面条件中的一个有关:音位字符串;音素(morae)数;音节数;重音;句子中的位置;具有或没有暂停以及紧随暂停前后的持续时间;紧随重音短语前后的重音类型;起伏度;句子成分字符串;词组(bunsetsu)属性;以及相关关系。
31.一种根据权利要求1到11中任一个的通过语音提供信息的装置,其中所说语调信息储存在语调产生单元中,并且所说语调产生单元是重音短语、短语、词和从句中的任一个。
32.一种通过语音提供信息的方法,包括步骤:
基于预定标准从输入句子中提取全部或部分词,并且通过使用预定的相关信息用标准词来替换所提取的词;
通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型;
利用相对应的词替换所选择标准句型的全部和部分标准词;和
通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成;
其中所说相关信息是指与标准词相关的词和预定的标准词是有关的。
33.一种通过语音提供信息的方法,包括步骤:
基于预定标准从输入句子中提取全部或部分词,并且通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型;和
通过使用至少预先为所选择标准句型指定的语调信息,对所选择的标准句型进行语音合成;
其中所说预定标准是指与预备标准句型中所注册的任一词相符的词的选择。
34.一种程序,用于使计算机的作用与下面根据权利要求1通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备的标准句型中选择与输入句子最相关的标准句型,并且利用相对应的词来替换全部或部分所选择标准句型中的标准词;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
35.一种程序,用于使计算机的作用与下面根据权利要求3通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,并且通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型;和
语音合成装置,通过使用至少预先为所选择标准句型指定的语调信息,对所选择的标准句型进行语音合成。
36.一种程序,用于使计算机的作用与下面根据权利要求4通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第二语言的标准词来替换所提取的第一语言的词,通过使用第二语言的标准词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型,并且利用相应于与第二语言标准词相对应的第一语言词的第二语言词来替换所选择第二语言标准句型中的全部或部分第二语言的标准词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
37.一种程序,用于使计算机的作用与下面根据权利要求5通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用预定的相关信息用第一语言的标准词来替换所提取的第一语言的词,通过使用第一语言的标准词从多个第一语言的预备标准句型中选择与输入句子最相关的第一语言的标准句型,识别与所选择的第一语言标准句型有关的第二语言预定标准句型,并且利用第二语言的词来替换所识别第二语言标准句型中的全部或部分第二语言的标准词,其中第二语言的词相当于与相应于第二语言标准词的第一语言标准词相对应的第一语言输入词;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
38.一种程序,用于使计算机的作用与下面根据权利要求7通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,并且通过使用与所提取的第一语言词相对应的第二语言词从多个第二语言的预备标准句型中选择与输入句子最相关的第二语言的标准句型;和
语音合成装置,通过使用至少预先为所选择第二语言标准句型指定的语调信息,对所选择的第二语言标准句型执行语音合成。
39.一种程序,用于使计算机的作用与下面根据权利要求8通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从第一语言的输入句子中提取第一语言的全部或部分词,通过使用所提取的第一语言词从多个第一语言的预备标准句型中选择与第一语言输入句子最相关的第一语言的标准句型,并且识别与所选择的第一语言标准句型相对应的第二语言预备标准句型;和
语音合成装置,通过使用至少预先为所识别第二语言标准句型指定的语调信息,对所识别的第二语言标准句型进行语音合成。
40.一种程序,用于使计算机的作用与下面根据权利要求9通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用预定的相关信息用标准词来替换所提取的词,通过使用标准词从多个预备标准句型中选择与输入句子最相关的标准句型,识别与所选择标准句型相对应的预定响应标准句型,并且利用相对应的词来替换所识别响应标准句型中的全部或部分标准词;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对进行了词替换的句子进行语音合成。
41.一种程序,用于使计算机的作用与下面根据权利要求11通过语音提供信息的装置中的全部或部分装置的作用相同:
分析装置,基于预定标准从输入句子中提取全部或部分词,通过使用所提取的词从多个预备标准句型中选择与输入句子最相关的标准句型,并且识别与所选择标准句型相应的预定响应标准句型;和
语音合成装置,通过使用至少预先为所识别响应标准句型指定的语调信息,对所识别的响应标准句型进行语音合成。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000163807 | 2000-05-31 | ||
JP163807/2000 | 2000-05-31 | ||
JP300061/2000 | 2000-09-29 | ||
JP2000300061 | 2000-09-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1328321A true CN1328321A (zh) | 2001-12-26 |
Family
ID=26593128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN01123183.1A Pending CN1328321A (zh) | 2000-05-31 | 2001-05-31 | 通过语音提供信息的装置和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20020120451A1 (zh) |
CN (1) | CN1328321A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007051372A1 (fr) * | 2005-11-07 | 2007-05-10 | Wenxin Xu | Méthode d’analyse de langage à motif de phrase de référence d’inversion |
CN100454387C (zh) * | 2004-01-20 | 2009-01-21 | 联想(北京)有限公司 | 一种语音拨号的语音合成方法和系统 |
CN101236743B (zh) * | 2007-01-30 | 2011-07-06 | 纽昂斯通讯公司 | 生成高质量话音的系统和方法 |
CN101185115B (zh) * | 2005-05-27 | 2011-07-20 | 松下电器产业株式会社 | 语音编辑装置及方法和语音识别装置及方法 |
CN103365896A (zh) * | 2012-04-01 | 2013-10-23 | 北京百度网讯科技有限公司 | 一种确定目标字符序列对应的语调信息的方法与设备 |
CN104462027A (zh) * | 2015-01-04 | 2015-03-25 | 王美金 | 一种实时将陈述句进行半人工标准化处理的方法和系统 |
CN106233373A (zh) * | 2014-04-15 | 2016-12-14 | 三菱电机株式会社 | 信息提供装置及信息提供方法 |
WO2018209556A1 (en) * | 2017-05-16 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN115050349A (zh) * | 2022-06-14 | 2022-09-13 | 抖音视界(北京)有限公司 | 文本转换音频的方法、装置、设备和介质 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
KR100474252B1 (ko) * | 2002-10-11 | 2005-03-10 | 한국전자통신연구원 | 전자 프로그램 가이드 제공 시스템 및 그 방법 |
US10733976B2 (en) * | 2003-03-01 | 2020-08-04 | Robert E. Coifman | Method and apparatus for improving the transcription accuracy of speech recognition software |
CN1813285B (zh) * | 2003-06-05 | 2010-06-16 | 株式会社建伍 | 语音合成设备和方法 |
WO2005106846A2 (en) * | 2004-04-28 | 2005-11-10 | Otodio Limited | Conversion of a text document in text-to-speech data |
KR100590553B1 (ko) * | 2004-05-21 | 2006-06-19 | 삼성전자주식회사 | 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템 |
TWI293753B (en) * | 2004-12-31 | 2008-02-21 | Delta Electronics Inc | Method and apparatus of speech pattern selection for speech recognition |
US8977636B2 (en) * | 2005-08-19 | 2015-03-10 | International Business Machines Corporation | Synthesizing aggregate data of disparate data types into data of a uniform data type |
US20070061158A1 (en) * | 2005-09-09 | 2007-03-15 | Qwest Communications International Inc. | Compliance management using complexity factors |
US20070061157A1 (en) * | 2005-09-09 | 2007-03-15 | Qwest Communications International Inc. | Obligation assignment systems and methods |
US8799512B2 (en) * | 2005-10-19 | 2014-08-05 | Qwest Communications International Inc. | Cross-platform support for a variety of media types |
US8170189B2 (en) | 2005-11-02 | 2012-05-01 | Qwest Communications International Inc. | Cross-platform message notification |
US8694319B2 (en) * | 2005-11-03 | 2014-04-08 | International Business Machines Corporation | Dynamic prosody adjustment for voice-rendering synthesized data |
US20070143355A1 (en) * | 2005-12-13 | 2007-06-21 | Qwest Communications International Inc. | Regulatory compliance advisory request system |
US9135339B2 (en) | 2006-02-13 | 2015-09-15 | International Business Machines Corporation | Invoking an audio hyperlink |
US20070239895A1 (en) * | 2006-04-05 | 2007-10-11 | Qwest Communications International Inc. | Cross-platform push of various media types |
US20070239832A1 (en) * | 2006-04-05 | 2007-10-11 | Qwest Communications International Inc. | Communication presentation in a calendar perspective |
US9323821B2 (en) * | 2006-04-05 | 2016-04-26 | Qwest Communications International Inc. | Network repository auto sync wireless handset |
US8320535B2 (en) * | 2006-04-06 | 2012-11-27 | Qwest Communications International Inc. | Selectable greeting messages |
US20080091411A1 (en) * | 2006-10-12 | 2008-04-17 | Frank John Williams | Method for identifying a meaning of a word capable of identifying several meanings |
US9318100B2 (en) | 2007-01-03 | 2016-04-19 | International Business Machines Corporation | Supplementing audio recorded in a media file |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
WO2009063925A1 (ja) * | 2007-11-15 | 2009-05-22 | Nec Corporation | 文書管理・検索システムおよび文書の管理・検索方法 |
US8571849B2 (en) * | 2008-09-30 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
JP5269668B2 (ja) * | 2009-03-25 | 2013-08-21 | 株式会社東芝 | 音声合成装置、プログラム、及び方法 |
US9213776B1 (en) | 2009-07-17 | 2015-12-15 | Open Invention Network, Llc | Method and system for searching network resources to locate content |
US9645996B1 (en) * | 2010-03-25 | 2017-05-09 | Open Invention Network Llc | Method and device for automatically generating a tag from a conversation in a social networking website |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
RU2639684C2 (ru) * | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
EP3660699A1 (en) * | 2018-11-29 | 2020-06-03 | Tata Consultancy Services Limited | Method and system to extract domain concepts to create domain dictionaries and ontologies |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
-
2001
- 2001-05-31 US US09/871,283 patent/US20020120451A1/en not_active Abandoned
- 2001-05-31 CN CN01123183.1A patent/CN1328321A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100454387C (zh) * | 2004-01-20 | 2009-01-21 | 联想(北京)有限公司 | 一种语音拨号的语音合成方法和系统 |
CN101185115B (zh) * | 2005-05-27 | 2011-07-20 | 松下电器产业株式会社 | 语音编辑装置及方法和语音识别装置及方法 |
WO2007051372A1 (fr) * | 2005-11-07 | 2007-05-10 | Wenxin Xu | Méthode d’analyse de langage à motif de phrase de référence d’inversion |
CN101236743B (zh) * | 2007-01-30 | 2011-07-06 | 纽昂斯通讯公司 | 生成高质量话音的系统和方法 |
CN103365896B (zh) * | 2012-04-01 | 2018-02-16 | 北京百度网讯科技有限公司 | 一种确定目标字符序列对应的语调信息的方法与设备 |
CN103365896A (zh) * | 2012-04-01 | 2013-10-23 | 北京百度网讯科技有限公司 | 一种确定目标字符序列对应的语调信息的方法与设备 |
CN106233373A (zh) * | 2014-04-15 | 2016-12-14 | 三菱电机株式会社 | 信息提供装置及信息提供方法 |
CN106233373B (zh) * | 2014-04-15 | 2017-07-07 | 三菱电机株式会社 | 信息提供装置及信息提供方法 |
US9734818B2 (en) | 2014-04-15 | 2017-08-15 | Mitsubishi Electric Corporation | Information providing device and information providing method |
CN104462027A (zh) * | 2015-01-04 | 2015-03-25 | 王美金 | 一种实时将陈述句进行半人工标准化处理的方法和系统 |
WO2018209556A1 (en) * | 2017-05-16 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN115050349A (zh) * | 2022-06-14 | 2022-09-13 | 抖音视界(北京)有限公司 | 文本转换音频的方法、装置、设备和介质 |
CN115050349B (zh) * | 2022-06-14 | 2024-06-11 | 抖音视界有限公司 | 文本转换音频的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
US20020120451A1 (en) | 2002-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1328321A (zh) | 通过语音提供信息的装置和方法 | |
CN1119755C (zh) | 文本处理器 | |
CN1101032C (zh) | 相关词抽取设备和方法 | |
CN1303581C (zh) | 具有语音合成功能的信息处理装置及方法 | |
CN1109994C (zh) | 文件处理装置与记录媒体 | |
CN1158627C (zh) | 用于字符识别的方法和装置 | |
CN1879147A (zh) | 文本到语音转换方法和系统、及其计算机程序产品 | |
CN1083952A (zh) | 文件写作与翻译综合系统 | |
CN101079026A (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
CN1628298A (zh) | 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 | |
CN1271545C (zh) | 语言翻译系统 | |
CN1794231A (zh) | 具有替换格式的上下文无关的文档部分 | |
CN1842702A (zh) | 声音合成装置和声音合成方法 | |
CN1725295A (zh) | 语音处理装置、语音处理方法、程序、和记录介质 | |
CN1672149A (zh) | 词联想方法和装置 | |
CN1535433A (zh) | 基于分类的可扩展交互式文档检索系统 | |
CN1237738A (zh) | 特征文字序列抽取及相似文书检索方法和装置及存储媒体 | |
CN1862529A (zh) | 语言分析系统及方法 | |
CN1906660A (zh) | 语音合成装置 | |
CN1495639A (zh) | 文本语句比较装置 | |
CN1577229A (zh) | 输入音符串进入计算机及文句生产方法及其计算机与媒体 | |
CN1620659A (zh) | 多种语言的数据库创建系统和方法 | |
CN1755663A (zh) | 信息处理设备、信息处理方法和程序 | |
CN1813285A (zh) | 语音合成设备、语音合成方法和程序 | |
CN1266633C (zh) | 语音查询中的辨音方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
C20 | Patent right or utility model deemed to be abandoned or is abandoned |