JP2002175094A - Device and method for information provision by voice - Google Patents

Device and method for information provision by voice

Info

Publication number
JP2002175094A
JP2002175094A JP2001163151A JP2001163151A JP2002175094A JP 2002175094 A JP2002175094 A JP 2002175094A JP 2001163151 A JP2001163151 A JP 2001163151A JP 2001163151 A JP2001163151 A JP 2001163151A JP 2002175094 A JP2002175094 A JP 2002175094A
Authority
JP
Japan
Prior art keywords
standard
language
sentence
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001163151A
Other languages
Japanese (ja)
Inventor
Yumiko Kato
弓子 加藤
Yumi Wakita
由実 脇田
Original Assignee
Matsushita Electric Ind Co Ltd
松下電器産業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2000163807 priority Critical
Priority to JP2000300061 priority
Priority to JP2000-163807 priority
Priority to JP2000-300061 priority
Application filed by Matsushita Electric Ind Co Ltd, 松下電器産業株式会社 filed Critical Matsushita Electric Ind Co Ltd
Priority to JP2001163151A priority patent/JP2002175094A/en
Publication of JP2002175094A publication Critical patent/JP2002175094A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method and a device for providing information by voice, which can receive free input and provide information in natural voice, and to provide a related program. SOLUTION: This device is equipped with an important word extraction part 130, a dependent relation analysis part 132, a standard sentence pattern retrieval part 150, and an infinite pattern part generating part 160 which extract all or some of words from an inputted sentence according to specific standards, replace the extracted words with standard words by using related information prepared in advance, select a standard sentence pattern related most to the inputted sentence out of prepared standard sentence patterns by using the standard words, and replace all or some of the standard words of the selected standard sentence pattern with corresponding words, and a voice synthesis part 170 which synthesizes a voice of the sentence generated by the replacement, by using rhythm information previously given at least to the selected standard sentence pattern.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION
【0001】[0001]
【発明の属する技術分野】本発明は、入力されたテキス
トや、音声、画像等の入力信号などを解釈して音声に変
換して出力する音声による情報提供装置、音声による情
報提供方法、及びプログラムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech information providing apparatus which interprets input texts, speech, images, and other input signals and converts them into speech and outputs the speech, a speech information providing method, and a program. It is about.
【0002】[0002]
【従来の技術】従来の音声による情報提供を行う第1の
装置として、完結した、文法上正しい文が入力されるこ
とを前提として入力文の構文解析を含む言語処理を行
い、その結果に基づいて音声合成を行うものがある。
2. Description of the Related Art Conventionally, as a first apparatus for providing information by voice, language processing including syntax analysis of an input sentence is performed on the assumption that a completed, grammatically correct sentence is input, and based on the result, Some perform voice synthesis.
【0003】これとは別に従来の音声による情報提供を
行う第2の装置として、例えば交通情報や天気概況の音
声サービスのような定型文を聞き取りやすく自然な音声
で読み上げるための装置である特開平8−63187の
音声合成装置がある。
[0003] Apart from this, as a conventional second apparatus for providing information by voice, for example, Japanese Patent Laid-Open Publication No. HEI 9 (1998) -1995 is an apparatus for reading a fixed phrase such as a traffic service or a weather overview voice service in an easy-to-hear natural voice. There is a speech synthesizer of 8-63187.
【0004】この第2の装置は、合成すべき一群のメッ
セージのすべてに共通する固定情報である定型部とメッ
セージ毎に異なる非定型部とに分け、定型部にはデータ
ベース内に格納された音声情報を適用し、非定型部には
合成による音声情報を適用して情報を提供するための音
声を生成していた。
This second device divides a fixed portion, which is fixed information common to all of a group of messages to be synthesized, into an unfixed portion different for each message, and the fixed portion includes voices stored in a database. The information is applied, and the audio for providing the information is generated by applying the synthesized audio information to the atypical part.
【0005】ここで、データベース内に格納された音声
情報とは、定型部に適用するための音韻持続時間長及び
基本周波数パタンなどの韻律情報であり、合成による音
声情報とは、非定型部に適用するための、非定型部の文
中位置毎に音節数とアクセント型で分類、格納された音
韻持続時間長及び基本周波数パタンなどの韻律情報であ
る。そして、両者の基本周波数を接続し、それらの情報
に基づいて音声波形を生成していた。
[0005] Here, the speech information stored in the database is prosodic information such as a phoneme duration and a fundamental frequency pattern to be applied to a fixed part. Prosodic information such as phoneme duration and fundamental frequency pattern that are classified and stored according to the number of syllables and accent type for each position in the sentence of the atypical part to be applied. Then, the two fundamental frequencies are connected, and an audio waveform is generated based on the information.
【0006】このように従来の音声による情報提供は、
第1の装置のように完結した、文法上正しい文が入力さ
れることを前提として構文解析を含む言語処理を行い、
その結果に基づいて音声合成を行うか、あるいは第2の
装置のように交通情報や天気概況のような限定された範
囲の情報について、定型文が一意に決定できるような、
一定の書式で入力される信号を定型文に当てはめて音声
合成を行っていた。
[0006] Thus, the conventional information provision by voice,
Performs linguistic processing including parsing on the assumption that a complete, grammatically correct sentence is input as in the first device,
A speech synthesis is performed based on the result, or a fixed phrase can be uniquely determined for a limited range of information such as traffic information and weather conditions as in the second device.
Speech synthesis was performed by applying signals input in a fixed format to fixed phrases.
【0007】[0007]
【発明が解決しようとする課題】しかしながら、第1の
装置では、入力は完結した文法上正しい文である必要が
あり、誤字脱字等の入力誤りのある入力には対応でき
ず、入力誤りがある場合には、聴取者が理解可能な音声
に変換することは不可能であった。
However, in the first device, the input must be a complete grammatically correct sentence, and cannot respond to an input error such as an erroneous or misspelled character. In some cases, it was not possible to convert the sound into a sound that the listener could understand.
【0008】また、第1の装置では、音声合成の際に使
用する韻律情報を作成するのが難しく、従って自然な音
声で情報を提供するのが難しい。
In the first device, it is difficult to create prosody information to be used in speech synthesis, and thus it is difficult to provide information using natural speech.
【0009】また、第2の装置では、非定型部の文中で
の位置が予め決められているので、韻律情報を作成する
のが容易であり、従って自然な音声で情報を提供出来る
という利点があるが、入力は定型文に変換可能な一定の
書式で書かれたものである必要があり、また誤字脱字等
の書式に誤りのある入力に対応できず、書式誤りがある
場合には、聴取者が理解可能な音声に変換することは不
可能であった。
In the second device, since the position of the irregular portion in the sentence is determined in advance, it is easy to create prosody information, and therefore, the information can be provided by natural speech. However, the input must be written in a fixed format that can be converted to a fixed form, and if the input is not compatible with incorrect input such as typographical errors, if there is a format error, It was not possible to convert it into a sound that was understandable by the elderly.
【0010】すなわち、従来の音声による情報提供で
は、自然な音声で情報を提供するためには入力は決まっ
た書式で入力する必要があるという課題がある。
That is, in the conventional information provision by voice, there is a problem that in order to provide information by natural voice, it is necessary to input in a fixed format.
【0011】また、従来の音声による情報提供では、入
力は完結した文法上正しい文であるか決まった書式であ
る必要があり、誤字脱字などの入力誤りや書式に誤りの
ある場合には聴取者が理解可能な音声に変換することは
不可能であるという課題がある。
In conventional information provision by voice, the input must be in a fixed grammatical correct sentence or in a fixed format. If there is an input error such as typographical error or a format error, the listener is required to input the correct sentence. However, there is a problem that it is impossible to convert the voice into an understandable voice.
【0012】また、単語の羅列や、画像、温度、圧力等
の非言語的入力に対して、理解可能な音声に変換するこ
とは不可能であったという課題がある。
Another problem is that it is impossible to convert non-verbal input of words, images, temperature, pressure, etc. into understandable speech.
【0013】本発明は、上記課題を考慮し、自由な入力
を受け付けることが出来、しかも自然な音声で情報を提
供することが出来る音声による情報提供装置、音声によ
る情報提供方法、及びプログラムを提供することを目的
とするものである。
The present invention has been made in consideration of the above problems, and provides a voice information providing apparatus, a voice information providing method, and a program capable of accepting free input and providing information in a natural voice. It is intended to do so.
【0014】また、本発明は、上記課題を考慮し、自由
な入力を受け付けることが出来、その入力に誤りがあっ
たとしても、聴取者が理解可能な音声を出力することが
出来る音声による情報提供装置、音声による情報提供方
法、及びプログラムを提供することを目的とするもので
ある。
[0014] In addition, the present invention, in consideration of the above problems, can accept a free input, and can output a sound that can be understood by a listener even if there is an error in the input. It is an object of the present invention to provide a providing device, an information providing method by voice, and a program.
【0015】また、本発明は、上記課題を考慮し、音
声、画像、音響等の非言語的な入力に対しても理解可能
な音声に変換することが出来る音声による情報提供装
置、音声による情報提供方法、及びプログラムを提供す
ることを目的とするものである。
Further, the present invention has been made in consideration of the above-mentioned problems, and has been made in consideration of the above-described problems. It is intended to provide a providing method and a program.
【0016】[0016]
【課題を解決するための手段】上述した課題を解決する
ために、第1の本発明(請求項1に対応)は、入力され
てきた文から、所定の基準に基づいて全部または一部の
単語を抽出し、その抽出した単語を予め決められた関連
情報を利用して標準単語に入れ替え、前記標準単語を用
いて予め用意されている複数の標準文型の中から前記入
力された文と最も関連する標準文型を選択し、選択され
た前記標準文型の全部または一部の前記標準単語を対応
する前記単語に入れ替える解析手段と、少なくとも選択
された前記標準文型に予め付与されている韻律情報を利
用して、その入れ替えられた文の音声合成を行う音声合
成手段とを備え、前記関連情報とは、予め決められた前
記標準単語にその標準単語と関連性のある単語を関連つ
けたものである音声による情報提供装置である。
In order to solve the above-mentioned problems, a first aspect of the present invention (corresponding to claim 1) is to convert all or part of a sentence based on a predetermined criterion from a sentence. A word is extracted, the extracted word is replaced with a standard word by using predetermined related information, and the input sentence is most often extracted from a plurality of standard sentence patterns prepared in advance using the standard word. Analyzing means for selecting an associated standard sentence pattern, replacing all or a part of the standard words of the selected standard sentence pattern with the corresponding word, and at least prosodic information previously given to the selected standard sentence pattern A voice synthesizing unit for performing voice synthesis of the replaced sentence by using the related information, wherein the related information is obtained by associating a word related to the standard word with the predetermined standard word. A sound Is an information providing apparatus by.
【0017】また、第2の本発明(請求項2に対応)
は、前記所定の基準とは、前記関連情報に現れる単語を
選ぶことである第1の本発明に記載の音声による情報提
供装置である。
Further, the second invention (corresponding to claim 2)
Is the information providing apparatus by voice according to the first aspect of the present invention, wherein the predetermined criterion is to select a word appearing in the related information.
【0018】また、第3の本発明(請求項3に対応)
は、入力されてきた文から、所定の基準に基づいて全部
または一部の単語を抽出し、その抽出した単語を用いて
予め用意されている複数の標準文型の中から前記入力さ
れた文と最も関連する標準文型を選択する解析手段と、
少なくとも選択された前記標準文型に予め付与されてい
る韻律情報を利用して、選択された前記標準文型の音声
合成を行う音声合成手段とを備え、前記所定の基準と
は、複数の前記標準文型に登録されている単語のいずれ
かと一致する単語を選ぶことである音声による情報提供
装置である。
Further, the third invention (corresponding to claim 3)
Extracts all or some words from the input sentence based on a predetermined criterion, and uses the extracted sentence to select the input sentence from a plurality of standard sentence patterns prepared in advance. An analysis means for selecting the most relevant standard sentence pattern;
Speech synthesis means for performing speech synthesis of the selected standard sentence pattern using at least the prosodic information pre-assigned to the selected standard sentence pattern, wherein the predetermined reference is a plurality of the standard sentence patterns Is an information providing apparatus by voice, which is to select a word that matches any of the words registered in the information.
【0019】また、第4の本発明(請求項4に対応)
は、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語を予め決められた関連情報を利
用して第2言語の標準単語に入れ替え、前記第2言語の
標準単語を用いて予め用意されている複数の第2言語の
標準文型の中から前記入力された文と最も関連する第2
言語の標準文型を選択し、選択された前記第2言語の標
準文型の全部または一部の前記第2言語の標準単語をそ
の第2言語の標準単語に対応する前記第1言語の単語に
対応する前記第2言語の単語に入れ替える解析手段と、
少なくとも選択された前記第2言語の標準文型に予め付
与されている韻律情報を利用して、その入れ替えられた
文の音声合成を行う音声合成手段とを備え、前記関連情
報とは、予め決められた前記第2言語の標準単語にその
第2言語の標準単語と関連性のある第1言語の単語を関
連つけたものである音声による情報提供装置である。
The fourth invention (corresponding to claim 4)
Extracts all or a part of the first language words from a sentence of the first language based on a predetermined criterion, and uses the extracted first language words by using predetermined related information. Then, the standard sentence pattern of the second language is replaced with the standard sentence pattern of the second language which is most associated with the input sentence from a plurality of standard sentence patterns of the second language prepared in advance using the standard words of the second language.
A standard sentence pattern of a language is selected, and all or part of the selected standard sentence patterns of the second language correspond to the words of the first language corresponding to the standard words of the second language. Analyzing means for replacing the words in the second language with
Speech synthesis means for performing speech synthesis of the replaced sentence using at least the prosody information previously assigned to the selected standard sentence pattern of the second language, wherein the related information is determined in advance. Further, there is provided an information providing device by voice, wherein the standard word in the second language is associated with a word in the first language that is related to the standard word in the second language.
【0020】また、第5の本発明(請求項5に対応)
は、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語を予め決められた関連情報を利
用して第1言語の標準単語に入れ替え、前記第1言語の
標準単語を用いて予め用意されている複数の第1言語の
標準文型の中から前記入力された文と最も関連する第1
言語の標準文型を選択し、選択された前記第1言語の標
準文型に対応付けられている予め決められた第2言語の
標準文型を特定し、その特定された第2言語の標準文型
の全部または一部の前記第2言語の標準単語をその第2
言語の標準単語に対応する第1言語の標準単語に対応す
る入力された第1言語の単語を第2言語へ翻訳した単語
に入れ替える解析手段と、少なくとも選択された前記第
2言語の標準文型に予め付与されている韻律情報を利用
して、その入れ替えられた文の音声合成を行う音声合成
手段とを備え、前記関連情報とは、予め決められた前記
第1言語の標準単語にその第1言語の標準単語と関連性
のある第1言語の単語を関連つけたものである音声によ
る情報提供装置である。
Further, the fifth invention (corresponding to claim 5)
Extracts all or a part of the first language words from a sentence of the first language based on a predetermined criterion, and uses the extracted first language words by using predetermined related information. The standard sentence pattern of the first language is replaced with the standard sentence pattern of the first language, and the first sentence most relevant to the input sentence is selected from a plurality of standard sentence patterns of the first language prepared in advance using the standard words of the first language.
A standard sentence pattern of a language is selected, a predetermined standard sentence pattern of a second language associated with the selected standard sentence pattern of the first language is specified, and all of the specified standard sentence patterns of the second language are specified. Or a part of the standard words of the second language in its second
Analysis means for replacing an input word in the first language corresponding to a standard word in the first language corresponding to a standard word in the language with a word translated into a second language, and at least a selected standard sentence pattern in the second language Voice synthesis means for performing voice synthesis of the replaced sentence by using pre-assigned prosody information, wherein the related information includes a first standard word of the first language in the first language. This is an audio information providing device that associates words in the first language that are related to standard words in the language.
【0021】また、第6の本発明(請求項6に対応)
は、前記所定の基準とは、前記関連情報に現れる第1言
語の単語を選ぶことである第4または5の本名発明に記
載の音声による情報提供装置である。
The sixth invention (corresponding to claim 6)
Is the information providing apparatus by voice according to the fourth or fifth real name invention, wherein the predetermined criterion is to select a word in a first language appearing in the related information.
【0022】また、第7の本発明(請求項7に対応)
は、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語に対応する第2言語の単語を用
いて予め用意されている複数の第2言語の標準文型の中
から前記入力された文と最も関連する第2言語の標準文
型を選択する解析手段と、少なくとも選択された前記第
2言語の標準文型に予め付与されている韻律情報を利用
して、選択された前記第2言語の標準文型の音声合成を
行う音声合成手段とを備え、前記所定の基準とは、複数
の前記第2言語の標準文型に登録されている第2言語の
単語に対応する第1言語の単語を選ぶことである音声に
よる情報提供装置である。
A seventh aspect of the present invention (corresponding to claim 7)
Extracts all or part of the first language words from the input first language sentence based on a predetermined criterion, and extracts a second language word corresponding to the extracted first language words. Analyzing means for selecting a standard sentence pattern of the second language most relevant to the input sentence from a plurality of standard sentence patterns of the second language prepared in advance using the standard sentence pattern of at least the selected second language Speech synthesis means for performing speech synthesis of the selected standard sentence pattern of the second language using prosodic information given to the sentence pattern in advance, wherein the predetermined criterion is a plurality of the second languages. This is an information providing apparatus by voice, which is to select a word in a first language corresponding to a word in a second language registered in a standard sentence pattern.
【0023】また、第8の本発明(請求項8に対応)
は、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語を用いて予め用意されている複
数の第1言語の標準文型の中から前記入力された第1言
語の文と最も関連する第1言語の標準文型を選択し、そ
の選択された第1言語の標準文型に対応する予め決めら
れた第2言語の標準文型を特定する解析手段と、少なく
とも特定された前記第2言語の標準文型に予め付与され
ている韻律情報を利用して、特定された前記第2言語の
標準文型の音声合成を行う音声合成手段とを備え、前記
所定の基準とは、複数の前記第1言語の標準文型に登録
されている第1言語の単語のいずれかと一致する第1言
語の単語を選ぶことである音声による情報提供装置であ
る。
The eighth invention (corresponding to claim 8)
Extracts all or part of the first language words from the input first language sentence based on a predetermined criterion, and prepares a plurality of words prepared in advance using the extracted first language words. A standard sentence pattern of the first language most relevant to the input sentence of the first language is selected from among the standard sentence patterns of the first language, and a predetermined sentence pattern corresponding to the selected standard sentence pattern of the first language is selected. Analysis means for specifying the standard sentence pattern of the second language, and speech synthesis of the specified standard sentence pattern of the second language using at least prosodic information previously given to the specified standard sentence pattern of the second language. And the predetermined criterion is to select a word in the first language that matches one of the words in the first language registered in the plurality of standard sentence patterns of the first language. It is an information providing device by voice.
【0024】また、第9の本発明(請求項9に対応)
は、入力されてきた文から、所定の基準に基づいて全部
または一部の単語を抽出し、その抽出した単語を予め決
められた関連情報を利用して標準単語に入れ替え、前記
標準単語を用いて予め用意されている複数の標準文型の
中から前記入力された文と最も関連する標準文型を選択
し、選択された前記標準文型に対応する予め決められた
応答標準文型を特定し、特定された前記応答標準文型の
全部または一部の標準単語を対応する前記単語に入れ替
える解析手段と、少なくとも特定された前記応答標準文
型に予め付与されている韻律情報を利用して、その入れ
替えられた文の音声合成を行う音声合成手段とを備え、
前記関連情報とは、予め決められた前記標準単語にその
標準単語と関連性のある単語を関連つけたものである音
声による情報提供装置である。
The ninth invention (corresponding to claim 9)
Extracts all or some words from the input sentence based on a predetermined criterion, replaces the extracted words with standard words using predetermined related information, and uses the standard words. The standard sentence pattern most relevant to the input sentence is selected from a plurality of standard sentence patterns prepared in advance, and a predetermined response standard sentence pattern corresponding to the selected standard sentence pattern is specified. Analyzing means for replacing all or a part of the standard words of the response standard sentence pattern with the corresponding words, and the replaced sentence using at least the specified prosody information given to the specified response standard sentence pattern. Speech synthesis means for performing speech synthesis of
The related information is an audio information providing device that associates a word associated with the standard word with the predetermined standard word.
【0025】また、第10の本発明(請求項10に対
応)は、前記所定の基準とは、前記関連情報に現れる単
語を選ぶことである第9の本発明に記載の音声による情
報提供装置である。
According to a tenth aspect of the present invention (corresponding to claim 10), the information providing apparatus according to the ninth aspect of the present invention is characterized in that the predetermined criterion is to select a word appearing in the related information. It is.
【0026】また、第11の本発明(請求項11に対
応)は、入力されてきた文から、所定の基準に基づいて
全部または一部の単語を抽出し、その抽出した単語を用
いて予め用意されている複数の標準文型の中から前記入
力された文と最も関連する標準文型を選択し、選択され
た前記標準文型に対応する予め決められた応答標準文型
を特定する解析手段と、少なくとも特定された前記応答
標準文型に予め付与されている韻律情報を利用して、特
定された前記応答標準文型の音声合成を行う音声合成手
段とを備え、前記所定の基準とは、複数の前記標準文型
に登録されている単語と同一の単語を選ぶことである音
声による情報提供装置である。
According to an eleventh aspect of the present invention (corresponding to claim 11), all or some words are extracted from an input sentence based on a predetermined criterion, and the extracted words are used in advance. Analysis means for selecting a standard sentence pattern most relevant to the input sentence from a plurality of prepared standard sentence patterns, and identifying a predetermined response standard sentence pattern corresponding to the selected standard sentence pattern, at least Speech synthesis means for performing speech synthesis of the specified response standard sentence pattern using prosody information given in advance to the specified response standard sentence pattern, wherein the predetermined criterion is a plurality of the standard This is an audio information providing device that selects the same word as the word registered in the sentence pattern.
【0027】また、第12の本発明(請求項12に対
応)は、前記解析手段は、選択された前記標準文型の前
記標準単語を前記単語に入れ替える際、選択された前記
標準文型の前記標準単語のうち、前記単語に対応してい
ない標準単語については、そのまま残すまたは予め決め
られた単語に入れ替える第1、2、4、5〜10の本発
明のいずれかに記載の音声による情報提供装置である。
According to a twelfth aspect of the present invention (corresponding to claim 12), when the analysis unit replaces the standard word of the selected standard sentence pattern with the word, The information providing apparatus by voice according to any one of the first, second, fourth, fifth, and tenth aspects of the present invention, wherein, among words, a standard word that does not correspond to the word is left as it is or is replaced with a predetermined word. It is.
【0028】また、第13の本発明(請求項13に対
応)は、予め用意されている前記複数の標準文型の全部
または一部には、予め決められた動作及び/または画像
データが対応つけられている第1〜11の本発明のいず
れかに記載の音声による情報提供装置である。
According to a thirteenth aspect of the present invention (corresponding to claim 13), a predetermined operation and / or image data is associated with all or a part of the plurality of standard sentence patterns prepared in advance. An information providing apparatus by voice according to any one of the first to eleventh aspects of the present invention.
【0029】また、第14の本発明(請求項14に対
応)は、前記複数の標準文型の全部または一部に予め決
められた動作が対応付けられている場合であって、前記
解析手段は、前記標準文型を選択するまたは特定する
際、その標準文型に対応する動作をも特定し、、前記音
声合成手段が前記音声合成結果を出力する際、特定され
た前記動作が行われる第13の本発明に記載の音声によ
る情報提供装置である。
In a fourteenth aspect of the present invention (corresponding to claim 14), a predetermined operation is associated with all or a part of the plurality of standard sentence patterns. When selecting or specifying the standard sentence pattern, an operation corresponding to the standard sentence pattern is also specified, and the specified operation is performed when the speech synthesis unit outputs the speech synthesis result. It is an information providing device by voice according to the present invention.
【0030】また、第15の本発明(請求項15に対
応)は、前記複数の標準文型の全部または一部に予め決
められた画像が対応付けられている場合であって、前記
解析手段は、前記標準文型を選択するまたは特定する
際、その標準文型に対応する画像をも特定し、前記音声
合成手段が前記音声合成結果を出力する際、特定された
前記画像が表示される第13の本発明に記載の音声によ
る情報提供装置である。
According to a fifteenth aspect of the present invention (corresponding to claim 15), a predetermined image is associated with all or a part of the plurality of standard sentence patterns. When selecting or specifying the standard sentence pattern, an image corresponding to the standard sentence pattern is also specified, and the specified image is displayed when the speech synthesis means outputs the speech synthesis result. It is an information providing device by voice according to the present invention.
【0031】また、第16の本発明(請求項16に対
応)は、入力されてくる信号を解析し、その解析結果に
応じて一つまたは複数の単語を生成する信号処理手段を
備え、前記入力されてきた文とは、生成された前記一つ
または複数の単語である第1〜11の本発明のいずれか
に記載の音声による情報提供装置である。
The sixteenth invention (corresponding to claim 16) comprises signal processing means for analyzing an input signal and generating one or a plurality of words according to the result of the analysis. The input sentence is the speech information providing apparatus according to any one of the first to eleventh aspects of the present invention, which is the one or more generated words.
【0032】また、第17の本発明(請求項17に対
応)は、入力されてくる前記信号は、音声、音、画像、
振動、加速度、温度、張力の少なくとも一つ以上である
第16の本発明に記載の音声による情報提供装置であ
る。
According to a seventeenth aspect of the present invention (corresponding to claim 17), the input signal includes a sound, a sound, an image,
An audio information providing apparatus according to a sixteenth aspect of the present invention, which is at least one of vibration, acceleration, temperature, and tension.
【0033】また、第18の本発明(請求項18に対
応)は、入力されてくる前記信号が少なくとも音声であ
る場合であって、前記信号処理手段は、入力されてくる
前記音声の音声認識を行い、その音声認識結果に応じて
一つまたは複数の単語を生成する第17の本発明に記載
の音声による情報提供装置である。
According to an eighteenth aspect of the present invention (corresponding to claim 18), the input signal is at least voice, and the signal processing means performs voice recognition of the input voice. And the one or more words are generated in accordance with the result of the speech recognition.
【0034】また、第19の本発明(請求項19に対
応)は、入力されてくる前記信号が少なくとも音である
場合であって、前記信号処理手段は、入力されてくる前
記音の音源を認識し、その音源認識結果に応じて一つま
たは複数の単語を生成する第17の本発明に記載の音声
による情報提供装置である。
According to a nineteenth aspect of the present invention (corresponding to claim 19), the input signal is at least a sound, and the signal processing means determines a sound source of the input sound. A seventeenth aspect of the present invention is a speech information providing apparatus for recognizing and generating one or a plurality of words in accordance with a sound source recognition result.
【0035】また、第20の本発明(請求項20に対
応)は、入力されてくる前記信号が少なくとも画像であ
る場合であって、前記信号処理手段は、入力されてくる
前記画像を解析し、その解析結果に応じて一つまたは複
数の単語を生成する第17の本発明に記載の音声による
情報提供装置である。
According to a twentieth aspect of the present invention (corresponding to claim 20), the input signal is at least an image, and the signal processing means analyzes the input image. The seventeenth aspect of the present invention is an audio information providing apparatus that generates one or a plurality of words according to the analysis result.
【0036】また、第21の本発明(請求項21に対
応)は、入力されてきた文は、不完全である可能性があ
る第1〜11の本発明のいずれかに記載の音声による情
報提供装置である。
According to a twenty-first aspect of the present invention (corresponding to claim 21), an input sentence may have an incomplete sentence. Providing device.
【0037】また、第22の本発明(請求項22に対
応)は、前記不完全である可能性があるとは、入力され
てきた前記文の全部または一部が脱落している可能性が
ある場合、もしくは入力されてきた文の全部または一部
が無関係な文に置換されている可能性がある場合、もし
くは入力されてきた前記文の中に無関係な文が挿入され
ている可能性がある場合である第21の本発明に記載の
音声による情報提供装置である。
In the twenty-second aspect of the present invention (corresponding to claim 22), the possibility that the sentence is incomplete is defined as a possibility that all or part of the input sentence is missing. In some cases, there is a possibility that all or part of the input sentence has been replaced with an unrelated sentence, or there is a possibility that an unrelated sentence has been inserted in the input sentence. An information providing apparatus by voice according to the twenty-first aspect of the present invention, which is a certain case.
【0038】また、第23の本発明(請求項23に対
応)は、入力されてきた前記文の全部または一部が脱落
しているために、もしくは入力されてきた前記文の全部
または一部が無関係な文に置換されているために、前記
解析手段が前記標準文型の選択に失敗した場合には、前
記音声合成手段は、前記音声合成を行わない第22の本
発明に記載の音声による情報提供装置である。
In the twenty-third aspect of the present invention (corresponding to claim 23), all or a part of the input sentence is omitted, or all or a part of the input sentence is provided. Is replaced with an irrelevant sentence, and when the analysis means fails to select the standard sentence pattern, the speech synthesis means performs the speech synthesis according to the twenty-second aspect of the present invention which does not perform the speech synthesis. It is an information providing device.
【0039】また、第24の本発明(請求項24に対
応)は、入力されてきた前記分の一部とは、文、節、文
節、及び単語のいずれかである第22または23の本発
明に記載の音声による情報提供装置である。
According to a twenty-fourth aspect of the present invention (corresponding to claim 24), the inputted part is the 22nd or 23rd book which is one of a sentence, a clause, a clause, and a word. It is an information providing device by voice described in the invention.
【0040】また、第25の本発明(請求項25に対
応)は、前記不完全である可能性があるとは、口語表現
を含む文法的に完結しない文である可能性がある場合、
もしくは単語の羅列である可能性がある場合、もしくは
誤字脱字を含む可能性がある場合、もしくは記号と単語
により構成される文ではない表記である可能性がある場
合である第21の本発明に記載の音声による情報提供装
置である。
According to the twenty-fifth aspect of the present invention (corresponding to claim 25), the expression "possibly incomplete" means that there is a possibility that the sentence including a spoken expression is not grammatically complete.
In the twenty-first aspect of the present invention, there is a possibility that the word may be a list of words, a word may include a typo or a misspelling, or a word may not be a sentence composed of a symbol and a word. It is an information providing device by voice described.
【0041】また、第26の本発明(請求項26に対
応)は、入力されてきた前記文が音声認識結果の結果生
成された文である場合、前記不完全である可能性がある
とは、前記音声認識結果が認識誤りを含む可能性がある
場合、または前記音声認識結果が認識に失敗し音声認識
の対象となった入力音声の全部または一部に対応する認
識結果を出力していない可能性がある場合である第21
の本発明に記載の音声による情報提供装置である。
According to a twenty-sixth aspect of the present invention (corresponding to claim 26), when the input sentence is a sentence generated as a result of speech recognition, the sentence may be incomplete. When the voice recognition result may include a recognition error, or when the voice recognition result fails in recognition and does not output a recognition result corresponding to all or a part of the input voice to be subjected to voice recognition 21st which is a possibility
Is an information providing device by voice according to the present invention.
【0042】また、第27の本発明(請求項27に対
応)は、前記韻律情報とは、その韻律情報が付加された
前記標準文型の自然発生音声を録音した音声波形である
第1〜11の本発明のいずれかに記載の音声による情報
提供装置である。
According to a twenty-seventh aspect of the present invention (corresponding to claim 27), the prosody information is a speech waveform obtained by recording a naturally occurring speech of the standard sentence pattern to which the prosody information is added. An information providing device by voice according to any one of the present inventions.
【0043】また、第28の本発明(請求項28に対
応)は、前記韻律情報とは、その韻律情報が付加された
前記標準文型の自然発声音声より抽出した情報である第
1〜11の本発明のいずれかに記載の音声による情報提
供装置である。
According to a twenty-eighth aspect of the present invention (corresponding to claim 28), the prosody information is information extracted from the standard sentence type naturally uttered voice to which the prosody information is added. An information providing device by voice according to any one of the present invention.
【0044】また、第29の本発明(請求項29に対
応)は、抽出された前記情報とは、音声の基本周波数パ
タン、強度パタン、音韻持続時間長パタン、話速のうち
少なくとも1つ以上を含むことを特徴とする第28の本
発明に記載の音声による情報提供装置である。
According to a twenty-ninth aspect of the present invention (corresponding to claim 29), the extracted information is at least one of a fundamental frequency pattern, an intensity pattern, a phoneme duration time pattern, and a speech speed of a voice. A twenty-eighth information providing apparatus according to the present invention, characterized by comprising:
【0045】また、第30の本発明(請求項30に対
応)は、前記韻律情報とは、音韻列、及びモーラ数、及
び音節数、及びアクセント、及び文中での位置、及び直
前あるいは直後のポーズの有無と時間長、及び直前ある
いは直後のアクセント句のアクセント型、及びプロミネ
ンス、及び品詞列、及び文節属性、及び係り受け関係の
うち少なくとも1つ以上の条件に対応付けられている第
1〜11の本発明のいずれかに記載の音声による情報提
供装置である。
According to a thirtieth aspect of the present invention (corresponding to claim 30), the prosodic information includes a phoneme sequence, a mora number, a syllable number, an accent, a position in a sentence, and a position immediately before or immediately after. The first to first conditions that are associated with at least one of the presence or absence and duration of the pause, the accent type of the immediately preceding or following accent phrase, the prominence, the part of speech, the phrase attribute, and the dependency relationship. An audio information providing apparatus according to any one of the eleventh aspects of the present invention.
【0046】また、第31の本発明(請求項31に対
応)は、前記韻律情報は、韻律生成単位で格納されお
り、前記韻律生成単位とは、アクセント句、フレーズ、
単語、文節あるいは節のいずれかである第1〜11の本
発明のいずれかに記載の音声による情報提供装置であ
る。
According to a thirty-first aspect of the present invention (corresponding to claim 31), the prosody information is stored in a prosody generation unit, and the prosody generation unit includes an accent phrase, a phrase,
An audio information providing apparatus according to any one of the first to eleventh aspects of the present invention, which is a word, a phrase, or a clause.
【0047】また、第32の本発明(請求項32に対
応)は、入力されてきた文から、所定の基準に基づいて
全部または一部の単語を抽出し、その抽出した単語を予
め決められた関連情報を利用して標準単語に入れ替える
ステップと、前記標準単語を用いて予め用意されている
複数の標準文型の中から前記入力された文と最も関連す
る標準文型を選択し、選択された前記標準文型の全部ま
たは一部の前記標準単語を対応する前記単語に入れ替え
るステップと、少なくとも選択された前記標準文型に予
め付与されている韻律情報を利用して、その入れ替えら
れた文の音声合成を行うステップとを備え、前記関連情
報とは、予め決められた前記標準単語にその標準単語と
関連性のある単語を関連つけたものである音声による情
報提供方法である。
According to a thirty-second aspect of the present invention (corresponding to claim 32), all or some words are extracted from an input sentence based on a predetermined criterion, and the extracted words are determined in advance. Replacing the standard sentence with a standard word using the related information, and selecting a standard sentence pattern most relevant to the input sentence from a plurality of standard sentence patterns prepared in advance using the standard word, and Replacing all or some of the standard words in the standard sentence pattern with the corresponding words, and using at least prosodic information previously assigned to the selected standard sentence pattern, speech synthesis of the replaced sentence And the related information is a voice-based information providing method in which the predetermined standard word is associated with a word related to the standard word.
【0048】また、第33の本発明(請求項33に対
応)は、入力されてきた文から、所定の基準に基づいて
全部または一部の単語を抽出し、その抽出した単語を用
いて予め用意されている複数の標準文型の中から前記入
力された文と最も関連する標準文型を選択するステップ
と、少なくとも選択された前記標準文型に予め付与され
ている韻律情報を利用して、選択された前記標準文型の
音声合成を行うステップとを備え、前記所定の基準と
は、複数の前記標準文型に登録されている単語のいずれ
かと一致する単語を選ぶことである音声による情報提供
方法である。
According to a thirty-third aspect of the present invention (corresponding to claim 33), all or some words are extracted from an input sentence based on a predetermined criterion, and the extracted words are used in advance. Selecting a standard sentence pattern that is most relevant to the input sentence from a plurality of prepared standard sentence patterns, and using at least prosodic information previously assigned to the selected standard sentence pattern, Performing a speech synthesis of the standard sentence pattern, wherein the predetermined criterion is a method of providing information by voice, which is to select a word that matches one of the words registered in the plurality of standard sentence patterns. .
【0049】また、第34の本発明(請求項34に対
応)は、第1の本発明に記載の音声による情報提供装置
の、入力されてきた文から、所定の基準に基づいて全部
または一部の単語を抽出し、その抽出した単語を予め決
められた関連情報を利用して標準単語に入れ替え、前記
標準単語を用いて予め用意されている複数の標準文型の
中から前記入力された文と最も関連する標準文型を選択
し、選択された前記標準文型の全部または一部の前記標
準単語を対応する前記単語に入れ替える解析手段と、少
なくとも選択された前記標準文型に予め付与されている
韻律情報を利用して、その入れ替えられた文の音声合成
を行う音声合成手段との全部または一部としてコンピュ
ータを機能させるためのプログラムである。
According to a thirty-fourth aspect of the present invention (corresponding to claim 34), the information providing apparatus using voice according to the first aspect of the present invention uses all or one of Part is extracted, the extracted word is replaced with a standard word using predetermined related information, and the input sentence is selected from a plurality of standard sentence patterns prepared in advance using the standard word. Analyzing means for selecting a standard sentence pattern most related to the standard sentence pattern, and replacing all or a part of the standard words of the selected standard sentence pattern with the corresponding words, and a prosody provided in advance to at least the selected standard sentence pattern It is a program for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of the replaced sentence using information.
【0050】また、第35の本発明(請求項35に対
応)は、第3の本発明に記載の音声による情報提供装置
の、入力されてきた文から、所定の基準に基づいて全部
または一部の単語を抽出し、その抽出した単語を用いて
予め用意されている複数の標準文型の中から前記入力さ
れた文と最も関連する標準文型を選択する解析手段と、
少なくとも選択された前記標準文型に予め付与されてい
る韻律情報を利用して、選択された前記標準文型の音声
合成を行う音声合成手段との全部または一部としてコン
ピュータを機能させるためのプログラムである。
According to a thirty-fifth aspect of the present invention (corresponding to claim 35), based on a predetermined criterion, all or one of the sentence of the information providing apparatus by voice described in the third aspect of the present invention is inputted. Analysis means for extracting the word of the part, and selecting a standard sentence pattern most relevant to the input sentence from among a plurality of standard sentence patterns prepared in advance using the extracted words,
A program for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of the selected standard sentence pattern using at least prosodic information previously assigned to the selected standard sentence pattern. .
【0051】また、第36の本発明(請求項36に対
応)は、第4の本発明に記載の音声による情報提供装置
の、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語を予め決められた関連情報を利
用して第2言語の標準単語に入れ替え、前記第2言語の
標準単語を用いて予め用意されている複数の第2言語の
標準文型の中から前記入力された文と最も関連する第2
言語の標準文型を選択し、選択された前記第2言語の標
準文型の全部または一部の前記第2言語の標準単語をそ
の第2言語の標準単語に対応する前記第1言語の単語に
対応する前記第2言語の単語に入れ替える解析手段と、
少なくとも選択された前記第2言語の標準文型に予め付
与されている韻律情報を利用して、その入れ替えられた
文の音声合成を行う音声合成手段との全部または一部と
してコンピュータを機能させるためのプログラムであ
る。
A thirty-sixth aspect of the present invention (corresponding to claim 36) is based on a predetermined criterion based on a sentence in the first language, which is input by the voice information providing apparatus according to the fourth aspect of the present invention. All or some of the words in the first language are extracted, and the extracted words in the first language are replaced with standard words in a second language using predetermined related information, and the standard words in the second language are extracted. Among the plurality of standard sentence patterns of the second language prepared in advance using the second sentence most relevant to the input sentence.
A standard sentence pattern of a language is selected, and all or part of the selected standard sentence patterns of the second language correspond to the words of the first language corresponding to the standard words of the second language. Analyzing means for replacing the words in the second language with
A function for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of the replaced sentence using at least prosodic information given in advance to the selected standard sentence pattern of the second language. It is a program.
【0052】また、第37の本発明(請求項37に対
応)は、第5の本発明に記載の音声による情報提供装置
の、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語を予め決められた関連情報を利
用して第1言語の標準単語に入れ替え、前記第1言語の
標準単語を用いて予め用意されている複数の第1言語の
標準文型の中から前記入力された文と最も関連する第1
言語の標準文型を選択し、選択された前記第1言語の標
準文型に対応付けられている予め決められた第2言語の
標準文型を特定し、その特定された第2言語の標準文型
の全部または一部の前記第2言語の標準単語をその第2
言語の標準単語に対応する第1言語の標準単語に対応す
る入力された第1言語の単語を第2言語へ翻訳した単語
に入れ替える解析手段と、少なくとも選択された前記第
2言語の標準文型に予め付与されている韻律情報を利用
して、その入れ替えられた文の音声合成を行う音声合成
手段との全部または一部としてコンピュータを機能させ
るためのプログラムである。
The thirty-seventh aspect of the present invention (corresponding to claim 37) is based on a predetermined criterion based on an input sentence in the first language of the information providing apparatus by voice according to the fifth aspect of the present invention. And extracting all or a part of the first language words, replacing the extracted first language words with the first language standard words using predetermined related information, and extracting the first language standard words. Among the plurality of standard sentence patterns of the first language prepared in advance, the first sentence most relevant to the input sentence.
A standard sentence pattern of a language is selected, a predetermined standard sentence pattern of a second language associated with the selected standard sentence pattern of the first language is specified, and all of the specified standard sentence patterns of the second language are specified. Or some of the standard words of the second language are
Analysis means for replacing an input word in the first language corresponding to a standard word in the first language corresponding to a standard word in the language with a word translated into a second language, and at least a selected standard sentence pattern in the second language This is a program for causing a computer to function as a whole or a part of a voice synthesizing unit that performs voice synthesis of the replaced sentence by using prosody information given in advance.
【0053】また、第38の本発明(請求項38に対
応)は、第7の本発明に記載の音声による情報提供装置
の、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語に対応する第2言語の単語を用
いて予め用意されている複数の第2言語の標準文型の中
から前記入力された文と最も関連する第2言語の標準文
型を選択する解析手段と、少なくとも選択された前記第
2言語の標準文型に予め付与されている韻律情報を利用
して、選択された前記第2言語の標準文型の音声合成を
行う音声合成手段との全部または一部としてコンピュー
タを機能させるためのプログラムである。
The thirty-eighth aspect of the present invention (corresponding to claim 38) is based on a predetermined criterion based on an input sentence in the first language of the information providing apparatus by voice according to the seventh aspect of the present invention. All or a part of the first language words are extracted from the plurality of second language standard sentence patterns prepared in advance using the second language words corresponding to the extracted first language words. Analysis means for selecting a standard sentence pattern of the second language most relevant to the input sentence, and at least the selected prosody information given in advance to the selected standard sentence pattern of the second language, This is a program for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of a standard sentence pattern of the second language.
【0054】また、第39の本発明(請求項39に対
応)は、第8の本発明に記載の音声による情報提供装置
の、入力されてきた第1言語の文から、所定の基準に基
づいて全部または一部の第1言語の単語を抽出し、その
抽出した第1言語の単語を用いて予め用意されている複
数の第1言語の標準文型の中から前記入力された第1言
語の文と最も関連する第1言語の標準文型を選択し、そ
の選択された第1言語の標準文型に対応する予め決めら
れた第2言語の標準文型を特定する解析手段と、少なく
とも特定された前記第2言語の標準文型に予め付与され
ている韻律情報を利用して、特定された前記第2言語の
標準文型の音声合成を行う音声合成手段との全部または
一部としてコンピュータを機能させるためのプログラム
である。
A thirty-ninth aspect of the present invention (corresponding to claim 39) is based on a predetermined criterion based on an input sentence in the first language of the information providing apparatus by voice according to the eighth aspect of the present invention. All or some of the words of the first language, and using the extracted words of the first language, the input first language of the first language is selected from a plurality of standard language patterns of the first language prepared in advance. Analyzing means for selecting a standard sentence pattern of the first language most associated with the sentence and identifying a predetermined standard sentence pattern of the second language corresponding to the selected standard sentence pattern of the first language; The present invention relates to a method for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of a specified standard sentence pattern of the second language using prosody information given in advance to the standard sentence pattern of the second language. It is a program.
【0055】また、第40の本発明(請求項40に対
応)は、第9の本発明に記載の音声による情報提供装置
の、入力されてきた文から、所定の基準に基づいて全部
または一部の単語を抽出し、その抽出した単語を予め決
められた関連情報を利用して標準単語に入れ替え、前記
標準単語を用いて予め用意されている複数の標準文型の
中から前記入力された文と最も関連する標準文型を選択
し、選択された前記標準文型に対応する予め決められた
応答標準文型を特定し、特定された前記応答標準文型の
全部または一部の標準単語を対応する前記単語に入れ替
える解析手段と、少なくとも特定された前記応答標準文
型に予め付与されている韻律情報を利用して、その入れ
替えられた文の音声合成を行う音声合成手段との全部ま
たは一部としてコンピュータを機能させるためのプログ
ラムである。
A fortieth aspect of the present invention (corresponding to claim 40) relates to the information providing apparatus by voice according to the ninth aspect of the present invention, wherein all or one of Part is extracted, the extracted word is replaced with a standard word using predetermined related information, and the input sentence is selected from a plurality of standard sentence patterns prepared in advance using the standard word. And selecting a standard sentence pattern most associated with the specified standard sentence pattern, specifying a predetermined response standard sentence pattern corresponding to the selected standard sentence pattern, and specifying all or a part of the standard words of the identified response standard sentence pattern in the word. And / or a speech synthesis unit that synthesizes the replaced sentence using at least the prosody information given in advance to the specified response standard sentence pattern. Is a program for the functioning of the Yuta.
【0056】また、第41の本発明(請求項41に対
応)は、第11の本発明に記載の音声による情報提供装
置の、入力されてきた文から、所定の基準に基づいて全
部または一部の単語を抽出し、その抽出した単語を用い
て予め用意されている複数の標準文型の中から前記入力
された文と最も関連する標準文型を選択し、選択された
前記標準文型に対応する予め決められた応答標準文型を
特定する解析手段と、少なくとも特定された前記応答標
準文型に予め付与されている韻律情報を利用して、特定
された前記応答標準文型の音声合成を行う音声合成手段
との全部または一部としてコンピュータを機能させるた
めのプログラムである。
The forty-first aspect of the present invention (corresponding to claim 41) is based on a predetermined criterion, based on a predetermined criterion, based on a sentence of an input sentence of the information providing apparatus by voice according to the eleventh aspect of the present invention. Part, and selects a standard sentence pattern most relevant to the input sentence from a plurality of standard sentence patterns prepared in advance using the extracted words, and corresponds to the selected standard sentence pattern. Analysis means for specifying a predetermined response standard sentence pattern, and speech synthesis means for performing speech synthesis of the specified response standard sentence pattern using at least prosody information previously assigned to the specified response standard sentence pattern Is a program for causing a computer to function as all or part of the program.
【0057】[0057]
【発明の実施の形態】以下に、本発明の実施の形態を図
面を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings.
【0058】(実施の形態1)図1は、本発明の実施の
形態1における音声による情報提供システムの構成を示
す機能ブロック図である。また、図2に本発明の実施の
形態1における音声による情報提供システムの動作を示
す流れ図を示す。
(Embodiment 1) FIG. 1 is a functional block diagram showing a configuration of an information providing system using voice according to Embodiment 1 of the present invention. FIG. 2 is a flowchart showing the operation of the information providing system using voice according to Embodiment 1 of the present invention.
【0059】図1において、110はテキストを入力す
るテキスト入力部である。120は表記、読み、品詞等
の形態素解析に必要な情報を格納し、かつ重要語として
取り扱うべき形態素には重要語フラグを付加した重要語
情報付き辞書である。121は重要語情報付き辞書12
0の重要語に対応する意味タグを格納した意味クラスデ
ータベースである。130は重要語情報付き辞書120
を参照して入力テキストの形態素解析および重要語の抽
出を行い、抽出した重要語に意味タグを付与する重要語
抽出部である。140は標準文型、定型部音素列、定型
部韻律パタン、非定型部韻律パタンの調整パラメータを
格納する標準文型データベースである。122は相互に
関連する意味タグを組にした意味タグセットを格納した
依存関係データベースであり、各意味タグセットに対応
する標準文型データは標準文型データベース140に格
納されている。132は重要語抽出部130から出力さ
れた意味タグ列と依存関係データベース122に格納さ
れている各意味タグセットとの一致度を計算する依存関
係分析部である。150は計算された一致度に基づいて
標準文型データベースを検索する標準文型検索部であ
る。160は非定型部に当たる入力の表音記号列を生成
する非定型部生成部である。
In FIG. 1, reference numeral 110 denotes a text input unit for inputting text. Reference numeral 120 denotes a dictionary with important word information in which information necessary for morphological analysis such as notation, reading, and part of speech is stored, and an important word flag is added to morphemes to be handled as important words. Reference numeral 121 denotes a dictionary with important word information.
It is a semantic class database that stores semantic tags corresponding to 0 important words. 130 is a dictionary with important word information 120
Is a key word extraction unit that performs morphological analysis of the input text and extracts key words with reference to, and adds a meaning tag to the extracted key words. Reference numeral 140 denotes a standard sentence pattern database that stores adjustment parameters for a standard sentence pattern, a fixed part phoneme sequence, a fixed part prosody pattern, and an atypical part prosody pattern. Reference numeral 122 denotes a dependency relationship database that stores semantic tag sets in which mutually related semantic tags are set. Standard sentence pattern data corresponding to each semantic tag set is stored in the standard sentence pattern database 140. Reference numeral 132 denotes a dependency analysis unit that calculates the degree of coincidence between the meaning tag string output from the important word extraction unit 130 and each meaning tag set stored in the dependency database 122. Reference numeral 150 denotes a standard sentence pattern search unit that searches the standard sentence pattern database based on the calculated degree of coincidence. Reference numeral 160 denotes an atypical portion generation unit that generates an input phonetic symbol string corresponding to the atypical portion.
【0060】170は音声合成部であり、180は音声
波形を出力する出力部である。音声合成部170は音素
列、モーラ数、アクセント、文中での位置、直前直後の
ポーズの有無および時間長、直前直後のアクセント句の
アクセント型と韻律情報を格納した非定型部韻律データ
ベース171と、非定型部韻律データベース171を参
照して非定型部の韻律情報を抽出し、標準文型検索部1
50で抽出された定型部韻律情報と接続する韻律制御部
172と、波形生成ユニットを格納した音声素変データ
ベース173と音声素変データベース173に格納され
た音声素変を用いて韻律制御部172より出力される韻
律情報に基づいて音声波形を生成する波形生成部174
を含む。なお、上記の韻律情報とは、その韻律情報が付
加された前記標準文型の自然発声音声より抽出した情報
であり、音声の基本周波数パタン、強度パタン、音韻持
続時間長パタンのうち少なくとも1つ以上を含むもので
ある。
Reference numeral 170 denotes a voice synthesizing unit, and reference numeral 180 denotes an output unit for outputting a voice waveform. The speech synthesis unit 170 includes an atypical part prosody database 171 storing phoneme strings, mora numbers, accents, positions in sentences, presence / absence and time length of pauses immediately before and immediately after, accent type and prosody information of accent phrases immediately before and after, The prosody information of the atypical part is extracted with reference to the atypical part prosody database 171, and the standard sentence pattern search unit 1
The prosody control unit 172 connected to the fixed part prosody information extracted in 50, the phoneme variation database 173 storing the waveform generation unit, and the phoneme variation stored in the phoneme variation database 173 from the prosody control unit 172. Waveform generator 174 that generates a speech waveform based on the output prosody information
including. The above-mentioned prosody information is information extracted from the natural utterance sound of the standard sentence pattern to which the prosody information is added, and at least one of a fundamental frequency pattern, an intensity pattern, and a phoneme duration time pattern of the speech. Is included.
【0061】以上のように構成された音声による情報提
供システムの動作を図2に従って説明する。
The operation of the system for providing information by voice configured as described above will be described with reference to FIG.
【0062】まず、本実施の形態の音声による情報提供
システムは、音声による情報提供を行う前に、重要語情
報付き辞書120と、意味クラスデータベース121
と、依存関係データベース122と、標準文型データベ
ース140とを予め用意しておく必要がある。
First, the voice information providing system of the present embodiment provides a dictionary 120 with important word information and a semantic class database 121 before providing information by voice.
, The dependency relation database 122 and the standard sentence pattern database 140 need to be prepared in advance.
【0063】そのためには、まず、開発者は、入力文意
毎に意図を表す重要語を手動で決める。なお文意とは、
同等の意図を表現している一つまたは複数の異なった文
を一つにまとめたものをいう。あるいは、別の方法とし
て、開発者がコーパスの各文毎に文の意図を表す意図タ
グを付け、同じ意図タグが付けられた文を一つの文意と
してコーパスの文を分類し、各文意に共通に使用される
単語を重要語候補と決め、それらの重要語候補を開発者
がチェックすることにより半自動的に重要語を決めるこ
とも出来る。
For this purpose, the developer first manually determines an important word representing an intention for each input sentence. The meaning is
A group of one or more different sentences expressing equivalent intentions. Alternatively, as another method, the developer attaches an intention tag indicating the intention of the sentence to each sentence of the corpus, classifies the sentences of the corpus as sentences having the same intention tag as one sentence, and It is also possible to determine words that are used in common as important word candidates and semi-automatically determine important words by checking the important word candidates by a developer.
【0064】また、開発者は、このようにして決めた各
重要語を意味に応じてクラス化し、各クラス毎に意味タ
グを決めておく。
Further, the developer classifies each important word determined in this way according to the meaning, and determines a meaning tag for each class.
【0065】図5に重要語情報付き辞書120の例を示
す。重要語情報付き辞書120には、表記、読み、品詞
等の形態素解析に必要な情報を格納し、また重要語とし
て取り扱うべき形態素には重要語フラグを付加してお
く。図5の「救急車」は読みが「きゅうきゅうしゃ」で
あり、品詞が名詞である。これらの情報は形態素解析す
る際に利用される。また、「救急車」の重要語フラグが
1すなわち救急車に重要語フラグが付加されいる。従っ
て、「救急者」は重要語である。一方、図5の「は」
は、読みが「わ」であり、品詞が助詞であることを示し
ている。また「は」の重要語フラグは0すなわち「は」
には重要語フラグが付加されていない。従って「は」は
重要語ではない。
FIG. 5 shows an example of the dictionary 120 with important word information. The dictionary 120 with important word information stores information necessary for morphological analysis such as notation, reading, and part of speech, and an important word flag is added to morphemes to be treated as important words. “Ambulance” in FIG. 5 has a reading “Kyuukyusha” and a part of speech is a noun. These pieces of information are used when performing morphological analysis. Also, the important word flag of "ambulance" is 1, that is, an important word flag is added to the ambulance. Therefore, "emergency" is an important word. On the other hand, "ha" in FIG.
Indicates that the reading is "wa" and the part of speech is a particle. Also, the key word flag of "ha" is 0, that is, "ha"
Does not have an important word flag. Therefore, "wa" is not an important word.
【0066】図6に意味クラスデータべース121の例
を示す。意味クラスデータベース121には、各重要語
にその重要語が属するクラスを示す意味タグが割り当て
られている。例えば、「救急車」には意味タグとして
「車両」が割り当てられており、また、「自動車」、
「ダンプカー」にも意味タグとして「車両」が割り当て
られている。また、「サイレン」には意味タグとして
「音響・警告」が割り当てられており、「鳴らす」には
意味タグとして「音出力」が割り当てられている。
FIG. 6 shows an example of the semantic class database 121. In the semantic class database 121, a semantic tag indicating a class to which the important word belongs is assigned to each important word. For example, "ambulance" is assigned the meaning tag "vehicle", and "automobile"
“Vehicle” is also assigned to “dump truck” as a meaning tag. In addition, “sound / warning” is assigned to “Siren” as a meaning tag, and “sound output” is assigned to “ring” as a meaning tag.
【0067】すなわち、意味タグとは、入力テキストあ
るいは音声認識結果から抽出された単語について、類似
語辞典やシソーラスに示されるような上位概念、品詞、
文節属性等に基づいて分類されたクラスを示すものであ
る。なお、意味タグは上記のように予め設定された固定
の情報とするに限らず、後述する依存関係分析部132
の出力結果に基づきその使用環境に応じて変化させてい
く(学習させていく)ことも出来る。なお、使用環境に
応じて変化させるとは、入力テキストから本実施の形態
の音声による情報提供システムを使用して音声を出力す
る際に、正常に音声が出力出来ないなどの問題が起こっ
た場合には、同じ入力テキストを入力しても正常に音声
が出力出来るように、意味クラスデータベース121の
クラスの分類方法を改善することを意味する。また、意
味クラスデータベース121は独立したデータベースで
ある必要は無く、重要語情報付き辞書120の中に含ま
れていても構わない。
That is, a semantic tag is a word extracted from an input text or a speech recognition result, a superordinate concept such as that shown in a similar word dictionary or a thesaurus, a part of speech,
This indicates a class classified based on a clause attribute or the like. Note that the meaning tag is not limited to the fixed information set in advance as described above, but may be a dependency analysis unit 132 described later.
Can be changed (learned) in accordance with the use environment based on the output result of. In addition, changing according to the usage environment means that when a sound is output from the input text using the sound information providing system of the present embodiment and a problem such as a failure to output sound normally occurs. Means that the method of classifying the classes in the semantic class database 121 is improved so that sound can be output normally even when the same input text is input. Further, the semantic class database 121 does not need to be an independent database, and may be included in the dictionary with important word information 120.
【0068】図7の(a)に標準文型データベース14
0の例を示す。標準文型データベース140には、複数
の標準文型が格納されている。例えば1番目の標準文型
は、「[車両:主語]が[音響・警告:目的語]を[音
出力:述語]」であり、意味タグの「車両」がこの標準
文型中の主語であり、意味タグの「音響・警告」がこの
標準文型中の目的語であり、意味タグの「音出力」はこ
の標準文型の述語であることを示している。また、3番
目の標準文型は、「[車両:主語]が[転回・右:述語
1]て[停止:述語2]」であり、意味タグの「車両」
はこの標準文型の主語であり、意味タグの「転回・右」
はこの標準文型の第1の述語であり、意味タグの「停
止」はこの標準文型の第2の述語であることを示してい
る。また、標準文型データベース140は、定型部音素
列、定型部韻律パタン、非定型部韻律パタンの調整パラ
メータなどの韻律情報を各標準文型に対応させて格納し
ており、これらは音声合成する際に利用される。
FIG. 7A shows the standard sentence pattern database 14.
An example of 0 is shown. The standard sentence pattern database 140 stores a plurality of standard sentence patterns. For example, the first standard sentence pattern is “[vehicle: subject] is [sound / warning: object] is [sound output: predicate]”, and the semantic tag “vehicle” is the subject in this standard sentence pattern, The meaning tag “sound / warning” is an object in the standard sentence pattern, and the meaning tag “sound output” is a predicate of the standard sentence pattern. The third standard sentence pattern is "[vehicle: subject] is [turn / right: predicate 1] and [stop: predicate 2]", and the semantic tag is "vehicle".
Is the subject of this standard sentence pattern, and the semantic tag "Turn / Right"
Is the first predicate of this standard sentence pattern, and "stop" in the semantic tag indicates that it is the second predicate of this standard sentence pattern. The standard sentence pattern database 140 stores prosodic information such as adjustment parameters for fixed part phoneme strings, fixed part prosody patterns, and atypical part prosody patterns in association with each standard sentence pattern. Used.
【0069】図7の(b)に依存関係データベース12
2の例を示す。依存関係データベース122は、標準文
型データベース140の各標準文型毎の意味タグをセッ
トにした意味タグセットを格納したデータベースであ
る。図7の(b)では、「(車両→音響・警告)、(音
響・警告→音出力)」が一つの意味タグセットである。
そして、この意味タグセットの後ろに記載されている
「1」などの数字は、意味タグセットに対応する標準文
型データベース140の標準文型を示している。例え
ば、意味タグセットの「(車両→音響・警告)、(音響
・警告→音出力)」には数字の1が記載されいるので標
準文型データベース140の一番目の標準文型である
「[車両:主語]が[音響・警告:目的語]を[音出
力:述語]」に対応していることを示している。
FIG. 7B shows the dependency database 12
2 shows an example. The dependency relation database 122 is a database that stores a semantic tag set in which semantic tags for each standard sentence pattern of the standard sentence pattern database 140 are set. In FIG. 7B, “(vehicle → sound / warning), (sound / warning → sound output)” is one meaning tag set.
A number such as “1” described after the semantic tag set indicates a standard sentence pattern of the standard sentence pattern database 140 corresponding to the semantic tag set. For example, since the numeral 1 is described in “(vehicle → sound / warning), (sound / warning → sound output)” of the semantic tag set, the first standard sentence pattern of the standard sentence pattern database 140 is “[vehicle: Subject] corresponds to [sound / warning: object] to [sound output: predicate].
【0070】また、意味タグセットは、「(車両→音響
・警告)、(音響・警告→音出力)」」などのように、
各意味タグが組になっている。この意味タグの組は、意
味タグの標準文型における共起関係を示すものであり、
予め開発者によって決められたものである。そして、こ
のような各意味タグセットに対応する標準文型は、標準
文型データベース140に格納されいている。
Further, the semantic tag set includes, for example, “(vehicle → sound / warning), (sound / warning → sound output)”.
Each semantic tag is a set. This set of semantic tags indicates the co-occurrence relationship of the semantic tags in the standard sentence pattern.
It is determined in advance by the developer. The standard sentence patterns corresponding to each of the semantic tag sets are stored in the standard sentence pattern database 140.
【0071】このような重要語情報付き辞書120と、
意味クラスデータベース121と、依存関係データベー
ス122と、標準文型データベース140とが予め用意
されているとする。
The dictionary with important word information 120 is
It is assumed that a semantic class database 121, a dependency relationship database 122, and a standard sentence pattern database 140 are prepared in advance.
【0072】次に、情報を音声で提供する際の動作を説
明する。
Next, the operation of providing information by voice will be described.
【0073】まず、テキスト入力部110は、処理する
べきテキストデータを受け付け(ステップ10)、重要
語抽出部130は、入力されたテキストデータを重要語
情報付き辞書120を用いて形態素解析して、読み、品
詞等の言語情報を付与し、さらに構文解析を行い、構文
単位ごとに意味タグを付与する(ステップ20)。
First, the text input unit 110 receives text data to be processed (step 10), and the keyword extraction unit 130 performs morphological analysis on the input text data using the dictionary 120 with keyword information. The linguistic information such as reading, part of speech, etc. is added, and the syntax is analyzed, and a semantic tag is added for each syntactic unit (step 20).
【0074】具体的には、図4に示すように、テキスト
入力部110に入力されたテキストが入力テキスト70
0であったとする。すなわち、テキスト入力部110に
「救急車がサイレンを鳴らした。」というテキストが入
力されたとする。
More specifically, as shown in FIG. 4, the text input to the text input
Assume that it is 0. That is, it is assumed that the text “Ambulance has sounded a siren” has been input to the text input unit 110.
【0075】そうすると、重要語抽出部130は、入力
テキスト700を重要語情報付き辞書120を用いて形
態素解析して読み、品詞等の言語情報を付与する。ま
た、入力テキスト700の形態素のうち、重要語情報付
き辞書120に重要語フラグが付加された形態素を重要
語として抽出する。図4の重要語抽出結果701は、こ
のようにして抽出された重要語である。
Then, the key word extraction unit 130 reads the input text 700 by morphological analysis using the dictionary 120 with key word information, and adds linguistic information such as part of speech. Further, among the morphemes of the input text 700, morphemes in which the important word flag is added to the dictionary with important word information 120 are extracted as important words. An important word extraction result 701 in FIG. 4 is an important word extracted in this manner.
【0076】さらに、重要語抽出部130は、抽出した
重要語を意味クラスデータベース121を参照して、意
味タグに入れ替える。さらに、品詞などの言語情報を付
与すると、図4の意味タグ付与結果702になる。
Further, the important word extraction unit 130 replaces the extracted important words with the meaning tags by referring to the meaning class database 121. Further, when linguistic information such as a part of speech is added, the result becomes a meaning tag adding result 702 in FIG.
【0077】すなわち、重要語の「救急車」は、「車
両」という意味タグに入れ替えられ、品詞などの言語情
報として「一般名詞」、「主語」などの情報が付与され
ている。また、「サイレン」という重要語は、「音響・
警告」という意味タグに入れ替えられ、品詞などの言語
情報として、「一般名詞」、「目的語」などの情報が付
与されている。また、「鳴らした」という重要語は、
「音出力」という意味タグに入れ替えられ、品詞などの
言語情報として、「動詞」、「述語」などの情報が付与
されている。
That is, the important word “ambulance” is replaced by a meaning tag “vehicle”, and information such as “general noun” and “subject” is given as linguistic information such as part of speech. Also, the key word "siren" is
It is replaced with a meaning tag "warning", and information such as "general noun" and "object" is added as linguistic information such as part of speech. Also, the key word “ringed”
It is replaced with a meaning tag of “sound output”, and information such as “verb” and “predicate” is added as linguistic information such as part of speech.
【0078】次に、依存関係分析部132は、重要語抽
出部130で抽出された構文単位毎の意味タグ列と依存
関係データベースの各意味タグセットとの一致度を計算
する。そして、標準文型検索部150は、依存関係分析
部132で計算された一致度が最も高い意味タグセット
に対応する標準文型を標準文型データベース140から
選択する(ステップ30)。
Next, the dependency analysis unit 132 calculates the degree of coincidence between the meaning tag string for each syntax unit extracted by the important word extraction unit 130 and each meaning tag set in the dependency database. Then, the standard sentence pattern search unit 150 selects, from the standard sentence pattern database 140, a standard sentence pattern corresponding to the semantic tag set having the highest degree of coincidence calculated by the dependency analysis unit 132 (step 30).
【0079】具体的に説明すると、依存関係分析部13
2は、重要語抽出部130で抽出された意味タグ列であ
る意味タグ付与結果702の各意味タグを任意に組み合
わせて意味タグの組を作る。すなわち、意味タグ付与結
果702からは、意味タグの組み合わせ703に示すよ
うに「(車両→音響・警告)、(音響・警告→音出
力)、(音出力→車両)」という3通りの意味タグの組
が作成される。そして、依存関係分析部132は、作成
した意味タグの組み合わせ702と、依存関係データベ
ース122の意味タグセットとを比較し、意味タグの組
が一致する個数を計算する。図7の(b)の例では、意
味タグセットの「(車両→音響・警告)、(音響・警告
→音出力)」は、依存関係分析部132が作成した意味
タグの組み合わせ703に対して2つの意味タグの組が
一致している。この場合、この意味タグセットの一致度
は2となる。
More specifically, the dependency analysis unit 13
No. 2 creates a set of meaning tags by arbitrarily combining each meaning tag of the meaning tag assignment result 702 which is a meaning tag string extracted by the important word extraction unit 130. That is, from the meaning tag assignment result 702, as shown in the meaning tag combination 703, three meaning tags of “(vehicle → sound / warning), (sound / warning → sound output), (sound output → vehicle)” Is created. Then, the dependency analysis unit 132 compares the created meaning tag combination 702 with the meaning tag set in the dependency database 122, and calculates the number of matching meaning tag sets. In the example of FIG. 7B, the meaning tag set “(vehicle → sound / warning), (sound / warning → sound output)” corresponds to the meaning tag combination 703 created by the dependency analysis unit 132. The pair of two semantic tags matches. In this case, the degree of coincidence of this semantic tag set is 2.
【0080】また、意味タグセットの「(車両→移
動)」は、依存関係分析部132が作成した意味タグの
組み合わせ703といずれの意味タグの組も一致しない
ので、この意味タグセットの一致度は0である。また、
依存関係分析部132は、図7の(b)の例では、その
他の意味タグセットの一致度も0と計算する。
The meaning tag set “(vehicle → movement)” does not match any combination of the meaning tags with the combination 703 of the meaning tags created by the dependency analysis unit 132. Is 0. Also,
In the example of FIG. 7B, the dependency relationship analysis unit 132 also calculates that the degree of coincidence of other semantic tag sets is zero.
【0081】依存関係分析部132は、各意味タグセッ
トの一致度を計算する毎に標準文型検索部150に計算
した一致度とその一致度が計算された意味タグセットに
対応する標準文型データベース140の標準文型の番号
を通知する。
Each time the degree of coincidence of each semantic tag set is calculated, the dependency relationship analysis unit 132 calculates the degree of coincidence calculated by the standard sentence pattern search unit 150 and the standard sentence pattern database 140 corresponding to the semantic tag set whose degree of coincidence is calculated. Notify the standard sentence pattern number.
【0082】標準文型検索部150は、依存関係分析部
132から一致度とその一致度が計算された意味タグセ
ットに対応する標準文型データベース140の標準文型
の番号を通知されると、一致度が最も高い意味タグセッ
トに対応する標準文型を標準文型データベース140か
ら選択する。図7の(b)の例では、一致度が最も高い
意味タグセットは「(車両→音響・警告)、(音響・警
告→音出力)」であるので、この意味タグセットに対応
する標準文型として、図7の(a)の標準文型データベ
ース140から選択された標準文型704に示すように
「[車両:主語]が[音響・警告:目的語]を[音出
力:述語]」を選択する。
When the standard sentence pattern search unit 150 is notified by the dependency analysis unit 132 of the degree of coincidence and the number of the standard sentence pattern in the standard sentence pattern database 140 corresponding to the semantic tag set for which the degree of coincidence has been calculated, the degree of coincidence is determined. The standard sentence pattern corresponding to the highest semantic tag set is selected from the standard sentence pattern database 140. In the example of FIG. 7B, the semantic tag set with the highest degree of coincidence is “(vehicle → sound / warning), (sound / warning → sound output)”. As shown in the standard sentence pattern 704 selected from the standard sentence pattern database 140 in FIG. 7A, “[vehicle: subject] is [sound / warning: object] and [sound output: predicate]” is selected. .
【0083】そして、標準文型検索部150は、選択さ
れた標準文型の定型部の音素列と韻律情報を抽出する
(ステップ40)。
Then, the standard sentence pattern search unit 150 extracts phoneme strings and prosody information of the fixed part of the selected standard sentence pattern (step 40).
【0084】具体的に説明すると、選択された標準文型
704の定型部である「が」及び「を」の音素列と韻律
情報を抽出する。これらの音素列と韻律情報は、選択さ
れた標準文型に対応付けられて、標準文型データベース
140中に格納されている。
More specifically, the phoneme strings and prosodic information of "ga" and "wo", which are the fixed parts of the selected standard sentence pattern 704, are extracted. These phoneme strings and prosody information are stored in the standard sentence pattern database 140 in association with the selected standard sentence pattern.
【0085】そして、非定型部生成部160は、ステッ
プ40で選択された標準文型の非定型部属性とステップ
20で付与された言語情報を比較し、入力テキストから
非定型部に当たる言葉を生成する(ステップ50)。
Then, the non-standard part generator 160 compares the non-standard part attribute of the standard sentence pattern selected in step 40 with the linguistic information given in step 20, and generates words corresponding to the non-standard part from the input text. (Step 50).
【0086】具体的に説明すると、非定型部とは、選択
された標準文型704の「[車両:主語]」などの部分
のように意味タグの部分に相当し、その意味タグに対応
する入力テキストの重要語が入力テキストに応じて変わ
り得ることを示している。また非定型部の属性とは、選
択された標準文型704の意味タグの「車両」が主語で
あることや、意味タグの「音響・警告」が目的語である
ことや、意味タグの「音出力」が述語であることなどで
ある。また、ステップ20で付与された言語情報とは、
重要語抽出結果701と意味タグ付与結果702とに示
すように、「救急車」が一般名詞であり、主語であると
いう情報であり、「サイレン」が一般名詞であり、目的
語であるという情報であり、「鳴らした」が動詞であ
り、述語であるなどの情報である。
More specifically, the atypical portion corresponds to a portion of a semantic tag such as a portion such as "[vehicle: subject]" of the selected standard sentence pattern 704, and an input corresponding to the semantic tag is provided. It indicates that the key words of the text can change depending on the input text. The attributes of the atypical part include the fact that “vehicle” of the semantic tag of the selected standard sentence pattern 704 is the subject, that the meaning tag “sound / warning” is the object, and that the semantic tag “sound” Output is a predicate. The language information given in step 20 is
As shown in the important word extraction result 701 and the meaning tag addition result 702, information that "ambulance" is a general noun and a subject is information, and "Siren" is a general noun and information that is an object. Yes, “ringing” is information such as a verb and a predicate.
【0087】従って、非定型部生成部160は、意味タ
グの「車両」の属性が主語であり、「救急車」の言語情
報が主語であるので、両者が対応しているものと認識
し、「車両」の非定型部の言葉として「救急車」を生成
する。同様に、意味タグの「音響・警告」に対しては、
「サイレン」を生成する。また、意味タグの「音出力」
に対しては、「鳴らした」を生成する。このようにして
非定型部の言葉を標準文型に当てはめることによって標
準文型への当てはめ705に示すように「<救急車>が
<サイレン>を<鳴らした>。」という文が得られる。
Therefore, the atypical part generating unit 160 recognizes that the attribute of “vehicle” in the meaning tag is the subject and the linguistic information of “ambulance” is the subject, so that the two correspond to each other. "Ambulance" is generated as a word of the atypical part of "vehicle". Similarly, for the meaning tag “Sound / Warning”,
Generate "Siren". Also, "Sound output" of the meaning tag
Is generated as "ringed". In this way, by applying the words of the atypical part to the standard sentence pattern, a sentence "<Ambulance><Siren><ringed>." Is obtained as shown in the application 705 to the standard sentence pattern.
【0088】なお、本実施の形態では、非定型部生成部
160は、ステップ40で選択された標準文型の非定型
部属性とステップ20で付与された言語情報を比較し、
入力テキストから非定型部に当たる言葉を生成する(ス
テップ50)として説明したが、ステップ20で重要語
に意味タグを付与する際に、重要語と意味タグとの対応
関係を保持しておき、言語情報を比較する代わりに、こ
の対応関係を利用して非定型部に当たる言葉を生成して
も構わない。
In the present embodiment, the non-standard part generator 160 compares the non-standard part attribute of the standard sentence pattern selected in step 40 with the linguistic information given in step 20.
Although it has been described that a word corresponding to the atypical part is generated from the input text (step 50), when assigning a meaning tag to an important word in step 20, the correspondence between the important word and the meaning tag is held and the language is set. Instead of comparing the information, a word corresponding to the atypical part may be generated using this correspondence.
【0089】韻律制御部172はステップ50で生成さ
れた非定型部の音素列、モーラ数、アクセントと、非定
型部の文中での位置、非定型部と定型部の間のポーズの
有無および時間長、及び非定型部に隣接する定型部のア
クセント型のうちの少なくとも1つを用いて非定型部韻
律データベース171を検索し(ステップ60)、非定
型部の韻律情報をアクセント句単位で抽出する(ステッ
プ70)。
The prosody control unit 172 calculates the phoneme sequence, mora number, and accent of the atypical part generated in step 50, the position in the sentence of the atypical part, the presence / absence of a pause between the atypical part and the standard part, and the time. The atypical part prosody database 171 is searched using at least one of the length and the accent type of the fixed part adjacent to the non-standard part (step 60), and the prosodic information of the non-standard part is extracted in accent phrase units. (Step 70).
【0090】さらに韻律制御部172はステップ40で
マッピングされた標準文型の非定型部韻律調整パラメー
タに基づいてステップ60で抽出された非定型部の韻律
情報を調整し、ステップ40で抽出された定型部の韻律
情報と接続する。調整は例えば図3(a)あるいは図3
(b)のように行う(ステップ80)。
Further, the prosody control unit 172 adjusts the prosody information of the atypical portion extracted in step 60 based on the standard sentence pattern atypical portion prosody adjustment parameters mapped in step 40, Connect with prosodic information of the part. The adjustment is performed, for example, as shown in FIG.
This is performed as shown in (b) (step 80).
【0091】図3の(a)は、非定型部の片側のみ定型
部が存在する場合である。この場合、まず、定型部中の
各アクセント句の韻律情報の最大値の回帰直線と定型部
中の各アクセント句の韻律情報の最小値の回帰直線を求
める。そして、非定型部の各アクセント句の韻律情報が
最大値の回帰直線と最小値の回帰直線との間に存在する
ように非定型部の各アクセント句の韻律情報を調整すれ
ばよい。
FIG. 3A shows a case where a fixed portion exists only on one side of the non-fixed portion. In this case, first, a regression line of the maximum value of the prosody information of each accent phrase in the fixed part and a regression line of the minimum value of the prosody information of each accent phrase in the fixed part are obtained. Then, the prosody information of each accent phrase of the atypical part may be adjusted so that the prosodic information of each accent phrase of the atypical part exists between the maximum value regression line and the minimum value regression line.
【0092】また、図3の(b)は、非定型部の両側に
定型部が存在する場合である。まず、図3の(a)の場
合と同様に、定型部中の各アクセント句の韻律情報の最
大値の回帰直線と定型部中の各アクセント句の韻律情報
の最小値の回帰直線を求める。ただし、この場合には、
非定型部の両側に存在する定型部の各アクセント句の韻
律情報を考慮して、最大値の回帰直線と最小値の回帰直
線とを求める。そして、非定型部の各アクセント句の韻
律情報が最大値の回帰直線と最小値の回帰直線との間に
存在するように非定型部の各アクセント句の韻律情報を
調整すればよい。
FIG. 3B shows a case where fixed portions exist on both sides of the non-fixed portion. First, similarly to the case of FIG. 3A, a regression line of the maximum value of the prosody information of each accent phrase in the fixed part and a regression line of the minimum value of the prosody information of each accent phrase in the fixed part are obtained. However, in this case,
A regression line with a maximum value and a regression line with a minimum value are determined in consideration of the prosody information of each accent phrase in the fixed part existing on both sides of the non-fixed part. Then, the prosody information of each accent phrase of the atypical part may be adjusted so that the prosodic information of each accent phrase of the atypical part exists between the maximum value regression line and the minimum value regression line.
【0093】波形生成部174はステップ40で抽出さ
れた定型部の音素列とステップ50で生成された非定型
部の音素列およびステップ80で生成された韻律情報に
基づき音声素変データベース173に格納された音声素
変を利用して音声波形を生成する(ステップ90)。
The waveform generator 174 stores in the phoneme variation database 173 based on the phoneme string of the fixed part extracted in step 40, the phoneme string of the non-fixed part generated in step 50, and the prosody information generated in step 80. A speech waveform is generated using the obtained phoneme variation (step 90).
【0094】ステップ90で生成された音声波形を出力
部180より音声として出力する(ステップ100)。
The audio waveform generated in step 90 is output from the output section 180 as audio (step 100).
【0095】以上のように、本実施の形態の音声による
情報提供システムによれば入力テキストの意味を抽出
し、その意味が同等である標準文型に変換して音声を合
成することにより、任意のテキストに対して、定型文を
利用することで自然性の高い合成音声を実現する音声合
成部を利用し、自然な音声で正確に情報を提供すること
ができる。
As described above, according to the speech information providing system of the present embodiment, the meaning of an input text is extracted, converted into a standard sentence pattern having the same meaning, and synthesized to produce an arbitrary speech. For a text, a speech synthesis unit that realizes a synthesized speech with high naturalness by using a fixed sentence can be used, and information can be accurately provided with natural speech.
【0096】さらに、任意のテキストの入力を入力して
も自然な音声で正確に情報を提供することが出来る。
Further, even if an arbitrary text is input, information can be accurately provided with a natural voice.
【0097】なお、図8に上記とは別の例を示す。図8
では、ステップ20において、入力テキストが入力テキ
スト400、すなわち「A氏いわく、「芸術は爆発
だ」」である場合である。このテキストデータを形態素
解析すると、形態素解析結果401のようになる。そし
て、各形態素に読み、品詞などの言語情報を付与する。
例えば形態素「A」は、読みが「えい」で品詞が名詞で
あり、形態素「氏」は、読みが「シ」で品詞は「接尾
詞」となる。次に言語情報が付与された形態素解析結果
401の構文解析を行い、構文単位毎に意味タグを付与
すると、意味タグ付与結果402のようになる。本実施
の形態でも上記実施の形態と同様に、構文単位として文
節を用いた。すなわち、「A氏」には意味タグ「人物」
が付与され、「いわく、」には意味タグ「言う」が付与
される。また、引用文の部分は一つの文節とみなし
「「芸術は爆発だ」」には、「引用」を付与する。
FIG. 8 shows another example. FIG.
Then, in step 20, the input text is the input text 400, that is, "Mr. A says," Art is an explosion. " When this text data is subjected to morphological analysis, a morphological analysis result 401 is obtained. Then, each morpheme is read and linguistic information such as part of speech is added.
For example, the morpheme “A” has the pronunciation “ei” and the part of speech is a noun, and the morpheme “san” has the pronunciation “shi” and the part of speech as a “suffix”. Next, the syntax analysis of the morphological analysis result 401 to which the linguistic information is added is performed, and a semantic tag is added for each syntactic unit. In this embodiment, a clause is used as a syntax unit as in the above embodiment. That is, "Mr. A" has the meaning tag "Person"
, And the meaning tag “say” is added to “Iwaku,”. Also, the quoted portion is regarded as one phrase, and "quote" is added to "" Art is an explosion "".
【0098】次に、ステップ30において選択された標
準文型が「[人物:主語]が「引用:目的語」と「言
う:述語」」であったとすると上記の各ステップと同様
にして、標準文型に非定型部を当てはめた結果は、「<
A氏>が、<「芸術は爆発だ」>と<いわく>。」にな
る。このように入力テキストを音声として提供する場合
に、標準文型に応じて語順が逆転する場合も起こり得る
が、入力テキストの意味を反映した自然な音声で情報を
提供することが出来る。
Next, assuming that the standard sentence pattern selected in step 30 is “[person: subject] is“ quotation: object ”and“ say: predicate ””, the standard sentence pattern is set in the same manner as in the above steps. The result of applying the atypical part to
Mr. A said, "Art is an explosion.""become. When the input text is provided as speech as described above, the word order may be reversed according to the standard sentence pattern, but the information can be provided by natural speech reflecting the meaning of the input text.
【0099】なお、本実施の形態の重要語抽出部13
0、依存関係分析部132、及び標準文型検索部15
0、非定型部生成部160は本発明の解析手段の例であ
り、本実施の形態の音声合成部170は本発明の音声合
成手段の例であり、本実施の形態の入力テキストは本発
明の入力されてきた文の例であり、本実施の形態の重要
語情報付き辞書120と意味クラスデータベース121
は本発明の関連情報の例であり、本実施の形態の重要語
を抽出するとは本発明の全部または一部の単語を抽出す
ることの例であり、本実施の形態の重要語フラグが付加
されている形態素を重要語として抽出することは本発明
の所定の基準に基づいて全部または一部の単語を抽出す
ることの例であり、本実施の形態の意味タグは本発明の
標準単語の例であり、本実施の形態の非定型部生成部1
60がステップ40で選択された標準文型の非定型部属
性とステップ20で付与された言語情報を比較し、入力
テキストから非定型部に当たる言葉を生成する(ステッ
プ50)ことは本発明の選択された前記標準文型の全部
または一部の前記標準単語を対応する前記単語に入れ替
えることの例である。
The important word extracting unit 13 of the present embodiment
0, dependency analysis unit 132, and standard sentence pattern search unit 15
0, the atypical part generation unit 160 is an example of the analysis means of the present invention, the speech synthesis unit 170 of the present embodiment is an example of the speech synthesis means of the present invention, and the input text of the present embodiment is Is an example of an input sentence, and the dictionary 120 with important word information and the semantic class database 121 according to the present embodiment.
Is an example of related information of the present invention. Extracting an important word of the present embodiment is an example of extracting all or a part of the word of the present invention, and an important word flag of the present embodiment is added. Extracting a morpheme as an important word is an example of extracting all or some words based on a predetermined criterion of the present invention, and the semantic tag of the present embodiment is a standard word of the present invention. This is an example, and the irregular-shaped part generation unit 1 of the present embodiment
It is an option of the present invention that 60 compares the non-standard part attribute of the standard sentence pattern selected in step 40 with the linguistic information given in step 20 and generates words corresponding to the non-standard part from the input text (step 50). 9 is an example of replacing all or part of the standard words of the standard sentence pattern with the corresponding words.
【0100】さらに、本実施の形態では意味タグが類似
語辞典やシソーラスに示されるような上位概念、品詞、
文節属性などに基づいて分類されたクラスを対応させる
ものであるとして説明したが、重要語を概念や同じレベ
ルの概念に対応させるものであっても構わない。さら
に、本実施の形態では、意味クラスデータベース121
は、図6に示した例に限らず、重要語に意味タグを対応
させる規則を定めるものでありさえすればよい。要する
に本発明の関連情報とは、予め決められた前記標準単語
にその標準単語と関連性のある単語を関連つけたもので
ありさえすればよい。
Further, in the present embodiment, a semantic tag is defined as a superordinate concept such as that shown in a thesaurus or a thesaurus, a part of speech,
Although the description has been made assuming that the classes classified based on the phrase attributes and the like correspond, the important words may correspond to the concept or the concept at the same level. Further, in the present embodiment, the semantic class database 121
Is not limited to the example shown in FIG. 6 and may be any rule as long as it defines a rule for associating a meaning tag with an important word. In short, the related information of the present invention only needs to be information in which a word related to the standard word is associated with the predetermined standard word.
【0101】さらに、本実施の形態では入力テキスト7
00から重要語情報付き辞書120に重要語フラグが付
加された形態素を重要語として抽出し、また重要語フラ
グは図5の例では全ての内容語に付加さていたが、この
重要語フラグを乗り物に乗る場面などの特定の場面でよ
く使われる単語にのみ付加するようにすれば、その特定
の場面に関する音声による情報の提供が効率よく行える
ようになる。なお、このような場合には、必ずしも入力
テキスト700に現れる全部の形態素が、重要語情報付
き辞書120に重要語フラグが付加されている形態素で
あるとは限らない。従って、このような場合には、入力
テキスト700の形態素が全て重要語として抽出され
ず、一部のみが重要語として抽出されることもある。
Further, in this embodiment, the input text 7
5, morphemes to which an important word flag is added to the important word information dictionary 120 are extracted as important words. The important word flag is added to all content words in the example of FIG. By adding only words that are frequently used in a specific scene such as a scene in which the user rides, information about the specific scene can be efficiently provided by voice. In such a case, all morphemes appearing in the input text 700 are not necessarily morphemes to which the important word flag is added to the dictionary 120 with important word information. Therefore, in such a case, not all morphemes of the input text 700 are extracted as important words, and only some of them may be extracted as important words.
【0102】さらに、本発明の解析手段は、本実施の形
態の非定型部生成部160のように、標準文型の非定型
部である意味タグに対応する言葉を全て生成するものに
限らない。標準文型の非定型部の意味タグに対応する重
要語が意味タグと同一の単語である場合には、その意味
タグに対応する言葉を生成する必要がない。また、入力
テキストが誤りを含んでいる場合などには、標準文型の
意味タグに対応する重要語が見つからない場合がある。
このような場合には非定型部生成部160は、その意味
タグに対応する重要語を必ずしも生成しなくてもよい。
なお、入力テキストが誤りを含む場合については、後述
する実施の形態で詳細に説明する。要するに、本発明の
解析手段は、選択された前記標準文型の全部または一部
の前記標準単語を対応する前記単語に入れ替えさえすれ
ばよい。
Further, the analyzing means of the present invention is not limited to the one which generates all the words corresponding to the semantic tags which are the non-standard part of the standard sentence pattern, like the non-standard part generating section 160 of the present embodiment. If the key word corresponding to the meaning tag of the unfixed part of the standard sentence pattern is the same word as the meaning tag, it is not necessary to generate a word corresponding to the meaning tag. Further, when the input text contains an error or the like, an important word corresponding to the semantic tag of the standard sentence pattern may not be found.
In such a case, the atypical part generator 160 does not necessarily need to generate an important word corresponding to the semantic tag.
The case where the input text includes an error will be described in detail in an embodiment described later. In short, the analysis means of the present invention only needs to replace all or some of the standard words of the selected standard sentence pattern with the corresponding words.
【0103】さらに、本実施の形態の重要語抽出部13
0は、意味クラスデータベース121を用いて抽出した
重要語を意味タグに入れ替えるとして説明したが、意味
クラスデータベース121を用いなくても構わない。す
なわち、重要語抽出部130は、抽出した重要語をその
まま用いても構わない。この場合、依存関係分析部13
2は意味タグの組み合わせの代わりに重要語の組み合わ
せを作成する。そして、依存関係データベース122に
は、意味タグセットの意味タグの部分を重要語に置き換
えた重要語セットが格納されている。従って、依存関係
分析部132は、重要語の組み合わせと重要語セットと
の一致度を計算する。また、標準文型データベース14
0には、標準文型の非定型部を意味タグの代わりに重要
語で置き換えた標準文型が格納されている。また重要語
を意味タグに入れ替えないので、非定型部生成部160
は不要になる。この場合には、入力テキストの形態素の
うちどの形態素を重要語として選択するかについての基
準は、標準文型データベース140に格納されている標
準文型に含まれる単語を重要語として選ぶようにすれば
よい。従って、重要語情報付き辞書120の単語のう
ち、このような基準を満たす単語にのみ重要語フラグを
付加しておけばよい。このように標準文型の全てが定型
部から構成されているようにしても音声による情報提供
を行うことが出来る。
Further, the important word extracting unit 13 of the present embodiment
Although 0 is described as replacing an important word extracted using the semantic class database 121 with a semantic tag, the semantic class database 121 may not be used. That is, the important word extraction unit 130 may use the extracted important words as they are. In this case, the dependency analysis unit 13
No. 2 creates a combination of important words instead of a combination of meaning tags. The dependency database 122 stores an important word set in which the meaning tag portion of the meaning tag set is replaced with an important word. Therefore, the dependency analysis unit 132 calculates the degree of coincidence between the combination of important words and the important word set. The standard sentence pattern database 14
In 0, a standard sentence pattern in which an unfixed part of the standard sentence pattern is replaced with an important word instead of a semantic tag is stored. In addition, since the important words are not replaced with the meaning tags, the irregular-form part generation unit 160
Becomes unnecessary. In this case, the criterion for selecting which morpheme as an important word among morphemes of the input text may be such that a word included in the standard sentence pattern stored in the standard sentence pattern database 140 is selected as an important word. . Therefore, an important word flag may be added only to words that satisfy such a criterion among words in the dictionary 120 with important word information. As described above, even when all of the standard sentence patterns are constituted by the fixed form portions, the information can be provided by voice.
【0104】さらに、本実施の形態では、依存関係分析
部132は、図4の意味タグの組み合わせ703と、図
7の(b)の意味タグセットとの一致度を両者の意味タ
グの組が一致するかどうかを判定することによって計算
したが、これに限らない。次の数1に示すような一般的
な計算式で一致度を計算しても構わない。
Further, in the present embodiment, the dependency analysis unit 132 determines the degree of coincidence between the combination 703 of the semantic tags in FIG. 4 and the semantic tag set in FIG. The calculation is performed by determining whether or not they match, but the present invention is not limited to this. The degree of coincidence may be calculated by a general calculation formula as shown in the following Expression 1.
【0105】[0105]
【数1】 ただし、dは一致度であり、1・・・i・・・mは、依
存関係を設定する次元(属性)であり、1・・・j・・
・nは、依存関係の種別であり、wは意味タグの組の重
みであり、Cは一致する意味タグの組であり、意味タグ
の組が一致する場合は1、一致しない場合は0の2値で
表される。数1に基づき一致度を計算すれば、より正確
に一致度を求めることが出来る。
(Equation 1) Here, d is the degree of coincidence, 1 ... i ... m is a dimension (attribute) for setting a dependency, and 1 ... j ...
N is the type of dependency, w is the weight of the set of semantic tags, C is the set of matching semantic tags, 1 if the set of semantic tags match, and 0 if not. It is represented by two values. If the degree of coincidence is calculated based on Equation 1, the degree of coincidence can be obtained more accurately.
【0106】なお、本実施の形態では、韻律情報として
音韻持続時間長パタンを使用するとして説明したが、音
韻持続時間長パタンの代わりに話速(話す速さ)を用い
ても構わない。
In the present embodiment, the description has been made assuming that the phoneme duration pattern is used as the prosody information. However, the speech speed (speaking speed) may be used instead of the phoneme duration pattern.
【0107】なお、図2のステップ60からステップ8
0までのようにして韻律を制御したが、これとは別の方
法でも韻律を制御することが出来る。以下に、このよう
な変形例について上記実施の形態との相違点を中心に説
明する。
Note that Steps 60 through 8 in FIG.
Although the prosody was controlled up to 0, the prosody can be controlled by another method. Hereinafter, such modified examples will be described focusing on differences from the above embodiment.
【0108】図26は、本変形例の音声による情報提供
システムの構成を示す機能ブロック図である。図26と
図1との相違点は、図1の標準文型データベース140
が図26では標準文型データベース140aに代わって
おり、また図1の非定型部韻律データベース171が図
26では韻律データベース171aに代わっており、ま
た図1の重要語情報付き辞書120が図26では重要語
情報・アクセント句情報付き辞書120aに置き換わっ
ている点である。
FIG. 26 is a functional block diagram showing the configuration of a voice information providing system according to this modification. The difference between FIG. 26 and FIG. 1 is that the standard sentence pattern database 140 of FIG.
26, the standard sentence pattern database 140a is replaced by the standard sentence pattern database 140a, the atypical part prosody database 171 in FIG. 1 is replaced by the prosody database 171a in FIG. 26, and the dictionary 120 with important word information in FIG. The point is that the dictionary 120a with word information and accent phrase information is replaced.
【0109】すなわち、上記実施の形態では図7の
(a)に示すような標準文型データベース140を用い
たが、本変形例では、その代わりに、図28に示す標準
文型データベース140aを用いる。すなわち、図7の
(a)に示す標準文型データベース140は、「[車
両:主語]が[音響・警告:目的語]を[音出力:述
語]」などの各標準文型毎に、定型部音素列、定型部韻
律パタン、非定型部韻律パタンの調整パラメータなどの
韻律情報を対応させて格納したものであった。これに対
して、図26の標準文型データベース140aは、各標
準文型を意味タグ単位毎に韻律制御情報を予め対応させ
ておいたものである。ここで、意味タグ単位とは、意味
タグ毎に標準文型を区切ったものであるとする。すなわ
ち、一つの意味タグ単位には、標準文型のうちの1つの
意味タグと、次の意味タグまでの間に存在する意味タグ
以外の単語とが含まれる。そして、各意味タグ単位毎に
韻律情報としてその意味タグ単位の韻律を制御するため
の韻律制御情報が対応付けられている。
That is, in the above embodiment, the standard sentence pattern database 140 shown in FIG. 7A is used, but in the present modification, a standard sentence pattern database 140a shown in FIG. 28 is used instead. In other words, the standard sentence pattern database 140 shown in FIG. 7A shows a fixed part phoneme for each standard sentence pattern such as “[vehicle: subject] is [sound / warning: object] is [sound output: predicate]”. Prosodic information such as columns, adjustment parameters of fixed part prosody patterns, and non-fixed part prosody patterns are stored in association with each other. On the other hand, in the standard sentence pattern database 140a of FIG. 26, each standard sentence pattern is associated with the prosody control information for each meaning tag in advance. Here, it is assumed that the meaning tag unit is obtained by dividing a standard sentence pattern for each meaning tag. That is, one meaning tag unit includes one meaning tag of the standard sentence pattern and words other than the meaning tag existing until the next meaning tag. Then, prosody control information for controlling the prosody of the meaning tag unit is associated as prosody information for each meaning tag unit.
【0110】例えば、図28の例では、1番目の標準文
型である「[車両:主語]が[音響・警告:目的語]を
[音出力:述語]」には、「[車両:主語]が」、
「[音響・警告:目的語]を」、「[音出力:述語]」
の3つの意味タグ単位がある。
For example, in the example of FIG. 28, the first standard sentence pattern “[vehicle: subject] is [sound / warning: object] and [sound output: predicate]” is “[vehicle: subject]. But",
"[Sound / Warning: Object]", "[Sound output: Predicate]"
There are three meaning tag units.
【0111】そして、意味タグ単位の「[車両:主語]
が」には、基本周波数最大値(基本周波数の最大値)が
360Hzであり、強度最大値(音圧の最大値)が70
dBであり、話速(話す速度)が7.5モーラ/秒であ
るという韻律制御情報が対応付けられている。また、意
味タグ単位の「[音響・警告:目的語]を」には、基本
周波数最大値が280Hzであり、強度最大値が67d
B、話速が8.5モーラ/秒という韻律制御情報が対応
付けられている。また意味タグ単位の「[音出力:述
語]」には、基本周波数最大値が150Hzであり、強
度最大値が62dBであり、話速が7モーラ/秒である
という韻律制情報が対応付けられている。図27の2番
目以降の標準文型についても同様である。
Then, "[vehicle: subject]"
In "ga", the maximum value of the fundamental frequency (the maximum value of the fundamental frequency) is 360 Hz, and the maximum value of the intensity (the maximum value of the sound pressure) is 70 Hz.
It is associated with prosodic control information indicating that the speech speed (speaking speed) is 7.5 mora / sec. Also, in the meaning tag unit “[Sound / Warning: Object]”, the maximum fundamental frequency is 280 Hz and the maximum intensity is 67d.
B, prosodic control information with a speech speed of 8.5 mora / sec. Also, "[sound output: predicate]" in the meaning tag unit is associated with prosodic information that the maximum fundamental frequency is 150 Hz, the maximum intensity is 62 dB, and the speech speed is 7 mora / sec. ing. The same applies to the second and subsequent standard sentence patterns in FIG.
【0112】このように上記実施の形態とは異なり、標
準文型データベース140aは、韻律情報を定型部と非
定型部とに分けて格納せず、意味タグ単位毎に韻律情報
として韻律制御情情報を対応させて格納している。
As described above, unlike the above-described embodiment, the standard sentence pattern database 140a does not store the prosody information in the fixed part and the non-fixed part, and stores the prosody control information as the prosody information for each meaning tag unit. Stored in correspondence.
【0113】また、上記実施の形態の非定型部韻律デー
タベース171は、音素列、モーラ数、アクセント、文
中での位置、直前直後のポーズ(無音状態)の有無およ
び時間長、直前直後のアクセント句のアクセント型等の
非定型部の韻律情報を格納したものであった。これに対
して本変形例の韻律データベース171aには、アクセ
ント句毎の韻律パタンが、モーラ数、アクセント型、ア
クセント句の位置、直前直後のアクセント句のアクセン
ト型などで分類されて格納されているデータベースであ
る。なお、非定型部韻律データベース171aの韻律パ
タンを、さらに、アクセント句の直前直後のポーズの有
無及び時間長などによって、分類して格納しても構わな
い。従って、モーラ数、アクセント型、アクセント句の
位置、直前直後のアクセント句のアクセント型を検索キ
ーとして指定することにより、指定したモーラ数、アク
セント型、アクセント句の位置、直前直後のアクセント
句のアクセント型に対応する韻律パタンを韻律データベ
ース171aに格納されている韻律パタンから特定する
ことが出来、その特定した韻律パタンを抽出することが
出来る。またこの場合の韻律パタンとは、例えば、音声
の基本周波数パタン、強度パタン、音韻持続時間長パタ
ンなどの韻律情報であり、これらは、予め自然発生音声
から抽出されたものである。韻律データベース171a
とはこのようなデータベースである。
The atypical part prosody database 171 of the above embodiment includes a phoneme sequence, the number of mora, an accent, a position in a sentence, presence / absence and time length of a pause immediately before / after (silence state), and an accent phrase immediately before / after. Stored prosody information of an atypical part such as accent type. On the other hand, in the prosody database 171a of the present modified example, the prosody pattern for each accent phrase is classified and stored according to the number of mora, the accent type, the position of the accent phrase, the accent type of the immediately preceding and immediately preceding accent phrase, and the like. It is a database. The prosody pattern of the atypical part prosody database 171a may be further classified and stored according to the presence / absence of pause immediately before and after the accent phrase and the length of time. Therefore, by specifying the number of mora, the accent type, the position of the accent phrase, and the accent type of the immediately preceding and immediately preceding accent phrase as a search key, the specified number of mora, the accent type, the position of the accent phrase, and the accent of the immediately preceding and immediately preceding accent phrase are obtained. The prosody pattern corresponding to the type can be specified from the prosody pattern stored in the prosody database 171a, and the specified prosody pattern can be extracted. In addition, the prosody pattern in this case is prosody information such as a fundamental frequency pattern, an intensity pattern, and a phoneme duration time pattern of the voice, and these are extracted from the naturally occurring voice in advance. Prosody database 171a
Is such a database.
【0114】以下に、このような変形例の動作を説明す
る。
The operation of such a modification will be described below.
【0115】また、図27は、本変形例による動作を示
す流れ図である。
FIG. 27 is a flowchart showing the operation according to the present modification.
【0116】ステップ10、ステップ20、ステップ3
0、の動作は、上記実施の形態と同様であり、ステップ
30の動作を終了した時点で、上記実施の形態と同様に
して、図4の選択された標準文型704に示すように
「[車両:主語]が[音響・警告:目的語]を[音出
力:述語]」が、図26の標準文型データベース140
aから選択される。
Step 10, Step 20, Step 3
The operation of 0 is the same as that of the above-described embodiment, and when the operation of step 30 is completed, as shown in the selected standard sentence pattern 704 of FIG. : [Subject] is [Sound / Warning: Object] and [Sound output: Predicate]] is the standard sentence pattern database 140 in FIG.
a.
【0117】そして、ステップ50において、上記実施
の形態と同様にして 非定型部の言葉を標準文型に当て
はめることによって図4の標準文型への当てはめ705
に示すように「<救急車>が<サイレン>を<鳴らした
>。」という文が得られる。この時点で「<救急車>が
<サイレン>を<鳴らした>。」という文のアクセント
句毎に、重要語情報・アクセント情報付き辞書120a
から重要語毎に抽出された読み、アクセント情報によ
り、そのアクセント句の音素列、モーラ数、アクセント
型についても生成されている。また、生成された文から
アクセント句の文中での位置、アクセント句とアクセン
ト句との間のポーズの有無及び時間長、アクセント句の
直前直後のアクセント句のアクセント型などの情報も取
得しておく。
Then, in step 50, the words in the atypical part are applied to the standard sentence pattern in the same manner as in the above-described embodiment, whereby the application to the standard sentence pattern shown in FIG.
, The sentence "<Ambulance> sounds <Siren><Range>" is obtained. At this point, for each accent phrase of the sentence "<Ambulance><ringed><Siren>.", The dictionary 120a with important word information and accent information is provided.
The phoneme sequence, mora number, and accent type of the accent phrase are also generated based on the reading and accent information extracted for each important word from. In addition, information such as the position of the accent phrase in the sentence, the presence / absence of a pause between the accent phrases and the time length, and the accent type of the accent phrase immediately before and after the accent phrase are also acquired from the generated sentence. .
【0118】ここで、アクセント句について説明する。
例えば「救急車と消防車とパトカーとが」という文で
は、「救急車と」、「消防車と」、「パトカーとが」が
それぞれ1つのアクセント句である。また、例えば「救
急車がサイレンを鳴らした。」では、「救急車が」、
「サイレンを」、「鳴らした。」という3つのアクセン
ト句がある。このようにアクセント句とは、音声合成の
韻律を制御する単位となる1モーラ以上の音韻列を意味
する。
Now, the accent phrase will be described.
For example, in the sentence "ambulance, fire engine and police car", "ambulance", "fire engine", and "police car" are each one accent phrase. In addition, for example, "an ambulance rang a siren."
There are three accent phrases, "I made a siren" and "I rang." As described above, the accent phrase means a phoneme sequence of one or more mora, which is a unit for controlling the prosody of speech synthesis.
【0119】また、アクセント句の「救急車が」につい
て説明すると、アクセント句の「救急車が」は、「き
ゅ」、「う」、「きゅ」、「う」、「しゃ」、「が」の
6個のモーラによって構成されているので、モーラ数は
6である。また3番目のモーラの「きゅ」にアクセント
があるので、アクセント型は、3番目にアクセントをも
つ型である(以下N番目のモーラにアクセントがあるア
クセント句を単にN型と呼ぶ)。従って、アクセント句
の「救急車が」については、モーラ数が6であり、アク
セント型が3型である。このようにステップ50で、
「<救急車>が<サイレン>を<鳴らした>。」という
文が得られた時点で「<救急車>が<サイレン>を<鳴
らした>。」という文のアクセント句毎に、そのアクセ
ント句の音素列、モーラ数、アクセント型を示す情報も
生成される。
In addition, the accent phrase “ambulance” is explained. The accent phrase “ambulance” is “kia”, “uu”, “kia”, “uu”, “sha”, “ga”. Therefore, the number of mora is 6. The accent type is the type having the third accent (hereinafter, the accent phrase having the accent on the Nth mora is simply referred to as the N-type) because the third mora "ki" has an accent. Therefore, for the accent phrase "Ambulance", the mora number is 6, and the accent type is 3. Thus, in step 50,
When the sentence "<Ambulance> sounded <Siren >>" was obtained, for each accent phrase of the sentence "<Ambulance> sounded <Siren>." Information indicating the phoneme sequence, the number of mora, and the accent type is also generated.
【0120】次に、韻律制御部172は、韻律データベ
ース171aからアクセント句ごとの韻律パタンを、ア
クセント句のモーラ数、アクセント型、アクセント句の
位置、及びアクセント句の直前直後のアクセント句のア
クセント型のうちの少なくとも1つを検索キーとして検
索し、検索キーに合致する韻律パタンを抽出する(ステ
ップ61)。
Next, the prosody control unit 172 calculates the prosody pattern for each accent phrase from the prosody database 171a, the number of mora of the accent phrase, the accent type, the position of the accent phrase, and the accent type of the accent phrase immediately before and after the accent phrase. Is searched as a search key, and a prosodic pattern matching the search key is extracted (step 61).
【0121】例えば、アクセント句の「救急車が」は、
上述したようにモーラ数が6であり、アクセント型が3
型である。また、このアクセント句の位置が文頭であ
る。また、このアクセント句の直前のアクセント句は存
在せず、直後のアクセント句は「サイレンを」である。
そしてアクセント句の「サイレンを」は、「サ」、
「イ」、「レ」、「ン」、「を」の5個のモーラで構成
されるので、モーラ数は5である。また、一番目のモー
ラの「サ」にアクセントがあるので、アクセント型は1
型である。従って、アクセント句の「救急車」の直前直
後のアクセント句のアクセント型は、直前のアクセント
句は存在せず、直後のアクセント句のアクセント型は1
型である。従って、アクセント句の「救急車が」に対応
する韻律パタンは、モーラ数が6であり、アクセント型
が3型であり、文頭のアクセント句であり、直後のアク
セント句のアクセント型が1型である場合の韻律パタン
である音声の基本周波数パタン、強度パタン、音韻持続
時間長パタンなどの韻律情報が抽出される。
For example, the accent phrase “ambulance”
As mentioned above, the number of mora is 6, and the accent type is 3.
Type. The position of the accent phrase is the beginning of the sentence. Also, there is no accent phrase immediately before this accent phrase, and the accent phrase immediately after this is “Siren”.
And the accent phrase "siren" is "sa",
The number of mora is five, because it is composed of five mora of "a", "re", "n", and "wo". In addition, since the first mora “sa” has an accent, the accent type is 1
Type. Therefore, the accent type of the accent phrase immediately before and immediately after the "ambulance" of the accent phrase does not have the immediately preceding accent phrase, and the accent type of the immediately following accent phrase is 1
Type. Therefore, the prosodic pattern corresponding to the accent phrase "Ambulance" has a mora number of 6, an accent type of 3, an accent phrase at the beginning of the sentence, and an accent type of the immediately following accent phrase is type 1. Prosodic information such as a fundamental frequency pattern, an intensity pattern, and a phoneme duration time pattern of the voice, which is the prosodic pattern in the case, is extracted.
【0122】次に、韻律制御部172は、ステップ61
で抽出された韻律パタンを意味タグ単位毎に接続して意
味タグ単位での韻律パタンを生成する(ステップ6
3)。
Next, the prosody control unit 172 determines in step 61
The prosody pattern extracted in step 2 is connected for each meaning tag unit to generate a prosody pattern for each meaning tag (step 6).
3).
【0123】すなわち、アクセント句の「救急車が」に
対応する意味タグ単位は「[車両:主語]が」であり、
この場合は、アクセント句と意味タグ単位とが一対一に
対応しているので、アクセント句を接続する必要がな
い。しかし、例えば、意味タグ単位の「[車両:主語]
が」に対応する部分が「救急車と消防車とパトカーと
が」という文である場合には、「救急車と」、「消防車
と」、「パトカーとが」という3つのアクセント句が意
味タグ単位の「[車両:主語]が」に対応している。従
って、この場合にはこれら3つのアクセント句の韻律パ
タンを接続して、意味タグ単位の韻律パタンを生成す
る。
That is, the meaning tag unit corresponding to the accent phrase “ambulance” is “[vehicle: subject] is”,
In this case, since the accent phrases and the meaning tag units correspond one-to-one, there is no need to connect the accent phrases. However, for example, "[vehicle: subject]
If the part corresponding to "ga" is the sentence "ambulance, fire engine and police car", three accent phrases "to ambulance", "fire engine" and "police car" are meaning tag units Corresponds to "[vehicle: subject]". Therefore, in this case, the prosodic patterns of these three accent phrases are connected to generate a prosodic pattern in units of meaning tags.
【0124】次に、韻律制御部172は、標準文型デー
タベースに格納された意味タグ単位毎の韻律制御情報に
あわせて意味タグ単位毎の韻律パタンを変形する(ステ
ップ63)。
Next, the prosody control unit 172 modifies the prosody pattern for each meaning tag unit according to the prosody control information for each meaning tag unit stored in the standard sentence pattern database (step 63).
【0125】例えば、標準文型の「[車両:主語]が
[音響・警告:目的語]を[音出力:述語]」の意味タ
グ単位である「[車両:主語]が」では、図28に示す
ように韻律制御情報が、基本周波数の最大値が360H
zであり、強度の最大値が70dbであり、話速が8モ
ーラ/秒である。従って、ステップ63で生成されたこ
の意味タグ単位の韻律パタンがこのような韻律制御情報
に合致するように変形する。すなわち、韻律パタンのう
ちの音声の基本周波数パタンの最大値が360Hzにな
るように変形し、また韻律パタンのうちの強度パタンの
最大値が70dBになるように変形し、また、音韻持続
時間長パタンが話速8モーラ/秒になるように変形す
る。同様の処理を意味タグ単位の[音響・警告:目的
語]を」の韻律パターンと、「[音出力:述語]」の韻
律パターンにも施す。
For example, in the standard sentence pattern “[vehicle: subject] is a meaning tag unit of“ [vehicle: subject] is [sound / warning: object] is [sound output: predicate] ”,” FIG. As shown, the prosody control information indicates that the maximum value of the fundamental frequency is 360H.
z, the maximum value of the intensity is 70 db, and the speech speed is 8 mora / sec. Therefore, the prosody pattern generated in step 63 is modified so as to match the prosody control information in units of meaning tags. That is, the maximum value of the fundamental frequency pattern of the voice in the prosody pattern is changed to 360 Hz, the maximum value of the intensity pattern in the prosody pattern is changed to 70 dB, and the phoneme duration is changed. The pattern is deformed so that the speech speed becomes 8 mora / sec. The same processing is performed on the prosody pattern of "[sound / warning: object]" and the prosody pattern of "[sound output: predicate]" in units of meaning tags.
【0126】次に、韻律制御部172は、変形された意
味タグ単位の韻律パタンを接続する(S81)。すなわ
ち、意味タグ単位の「[車両:主語]が」の韻律パタ
ン、[音響・警告:目的語]の韻律パタン、[音出力:
述語]」の韻律パタンをこの順に接続する。このように
して「救急車がサイレンを鳴らした」という文の韻律パ
タンが生成される。
Next, the prosody control unit 172 connects the modified prosody pattern in units of meaning tags (S81). That is, the prosody pattern of "[vehicle: subject] is", the prosody pattern of [sound / warning: object], and [sound output:
Predicate] are connected in this order. In this way, a prosodic pattern of the sentence "Ambulance rang siren" is generated.
【0127】次に、波形生成部173は、音声素片を音
声素片データベース173から読み出し、読み出した音
声素片を生成された韻律パタンに合わせて変形して接続
し、音声波形を生成する(ステップ90)。
Next, the waveform generation unit 173 reads the speech unit from the speech unit database 173, transforms the read speech unit in accordance with the generated prosody pattern and connects them to generate a speech waveform ( Step 90).
【0128】そして、出力部180は、生成された音声
波形を外部に出力する(S100)。このようにして、
「救急車がサイレンを鳴らした」という音声が出力され
る。
Then, the output section 180 outputs the generated audio waveform to the outside (S100). In this way,
A voice saying "The ambulance rang a siren" is output.
【0129】なお、上記変形例では、アクセント句単位
で韻律パタンを抽出するとしたが、文節単位または単語
単位で韻律パタンを抽出しても構わない。文節単位で韻
律パタンを抽出する場合には、予め韻律データベース1
71aには、文節単位毎の韻律パタンが格納されている
ものとする。そして、抽出された韻律パタンを上記と同
様に意味タグ単位毎に接続すればよい。また、単語単位
で韻律パタンを抽出する場合には、予め韻律データベー
ス171aには、単語単位毎の韻律パタンが格納されて
いるものとする。そして、抽出された韻律パタンを上記
と同様に意味タグ単位毎に接続すればよい。
Although the prosody pattern is extracted in units of accent phrases in the above modification, the prosody pattern may be extracted in units of phrases or words. When prosodic patterns are extracted in units of phrases, the prosodic database 1
It is assumed that a prosodic pattern for each phrase unit is stored in 71a. Then, the extracted prosody pattern may be connected for each meaning tag unit in the same manner as described above. When prosodic patterns are extracted in word units, it is assumed that the prosody pattern for each word is stored in the prosody database 171a in advance. Then, the extracted prosody pattern may be connected for each meaning tag unit in the same manner as described above.
【0130】さらに、上記変形例では、図26の標準文
型データベース140aの意味タグ単位には、基本周波
数最大値(基本周波数の最大値)、強度最大値(音圧の
最大値)、話速(話す速度)という韻律制御情報が付加
されているとして説明したが、これに限らず、基本周波
数最小値(基本周波数の最小値)や、強度最小値(音圧
の最小値)などの韻律制御情報も付加されていてもよ
い。また、音韻持続時間長など韻律制御情報が付加され
ていても構わない。
Further, in the above modification, the maximum value of the fundamental frequency (the maximum value of the fundamental frequency), the maximum value of the intensity (the maximum value of the sound pressure), the speech speed ( It has been described that the prosody control information of "speaking speed" is added, but the present invention is not limited to this, and the prosody control information such as the minimum value of the fundamental frequency (minimum value of the fundamental frequency) and the minimum intensity value (minimum value of the sound pressure) May also be added. Also, prosody control information such as a phoneme duration may be added.
【0131】さらに、上記変形例では、話速を用いた
が、これに限らず話速の代わりに音韻持続時間長パタン
を用いても構わない。また、話速と音韻持続時間長とを
ともに用いても構わない。
Further, in the above-described modification, the speech speed is used. However, the present invention is not limited to this, and a phoneme duration time pattern may be used instead of the speech speed. Further, both the speech speed and the phoneme duration may be used.
【0132】なお、本実施の形態では、モーラを用いて
説明したが、これに限らず、モーラの代わりに音節を用
いても構わない。また、この場合には、本実施の形態の
モーラ数を使用する箇所はその代わりに音節数を使用す
ればよい。
Although the present embodiment has been described using a mora, the present invention is not limited to this, and a syllable may be used instead of a mora. Further, in this case, the portion using the mora number of the present embodiment may use the syllable number instead.
【0133】なお、本変形例は、上記実施の形態のみな
らず、実施の形態2以降の各実施の形態についても適用
可能であることは言うまでもない。
It is needless to say that this modification can be applied not only to the above-described embodiment but also to each of the second and subsequent embodiments.
【0134】なお、本発明の韻律情報は、本実施の形態
における韻律データベース171aを検索して抽出され
たアクセント句の音声の基本周波数パタン、強度パタ
ン、音韻持続時間長パタンなどの韻律パタンを含む。ま
た本発明の韻律情報は、標準文型データベースの意味タ
グ単位に付加されている韻律制御情報すなわち、アクセ
ント句の基本周波数最大値(基本周波数の最大値)、強
度最大値(音圧の最大値)、話速(話す速度)を含む。
The prosodic information of the present invention includes prosodic patterns such as a fundamental frequency pattern, an intensity pattern, and a phoneme duration time pattern of the voice of the accent phrase extracted by searching the prosody database 171a in the present embodiment. . The prosody information of the present invention is the prosody control information added to the meaning tag unit of the standard sentence pattern database, that is, the maximum basic frequency (maximum basic frequency) and the maximum intensity (maximum sound pressure) of the accent phrase. , Speech speed (speaking speed).
【0135】さらに、本発明の韻律情報は、本実施の形
態におけるアクセント句のモーラ数、アクセント型、ア
クセント句の位置、アクセント句の直前直後のアクセン
ト句のアクセント型等の条件に対応付けられている韻律
パタンであるとして説明したが、これに限らず本発明の
韻律情報は、音韻列、及びモーラ数、及び音節数、及び
アクセント、及び文中での位置、及び直前あるいは直後
のポーズの有無と時間長、及び直前あるいは直後のアク
セント句のアクセント型、及びプロミネンス、及び品詞
列、及び文節属性、及び係り受け関係のうち少なくとも
1つ以上の条件に対応付けられていさえすればよい。
Further, the prosodic information of the present invention is associated with conditions such as the number of mora of the accent phrase, the accent type, the position of the accent phrase, and the accent type of the accent phrase immediately before and after the accent phrase in the present embodiment. However, the prosody information of the present invention is not limited to this, and the phoneme sequence, the number of mora, the number of syllables, the accent, the position in the sentence, and the presence or absence of the pause immediately before or immediately after It is only necessary to be associated with at least one condition of the time length, the accent type of the immediately preceding or succeeding accent phrase, the prominence, the part-of-speech sequence, the phrase attribute, and the dependency relationship.
【0136】さらに、本実施の形態の意味タグ単位に付
与されている韻律制御情報は本発明の少なくとも選択さ
れた前記標準文型に予め付与されている韻律情報の例で
あり、本実施の形態の定型部付与されている韻律情報は
本発明の本発明の少なくとも選択された前記標準文型に
予め付与されている韻律情報の例であり、本実施の形態
のステップ50で生成された非定型部の音素列、モーラ
数、アクセントと、非定型部の文中での位置、非定型部
と定型部の間のポーズの有無および時間長、非定型部に
隣接する定型部のアクセント型を用いて非定型部韻律デ
ータベース171を検索し(ステップ60)、抽出され
た非定型部の韻律情報は本発明の少なくとも選択された
前記標準文型に予め付与されている韻律情報の例であ
る。
Further, the prosody control information assigned to the meaning tag unit of the present embodiment is an example of the prosody information previously assigned to at least the selected standard sentence pattern of the present invention. The prosody information assigned to the fixed part is an example of the prosody information previously assigned to at least the selected standard sentence pattern of the present invention of the present invention. Atypical using phoneme sequence, number of mora, accent, position of the atypical part in the sentence, presence and duration of pause between the atypical part and the standard part, accent type of the standard part adjacent to the atypical part The partial prosody database 171 is searched (step 60), and the extracted prosody information of the atypical part is an example of the prosody information previously assigned to at least the selected standard sentence pattern of the present invention.
【0137】(実施の形態2)図9は、本発明の実施の
形態2における音声による情報提供システムの構成を示
す機能ブロック図である。また、図10に本発明の実施
の形態2における音声による情報提供システムの動作を
示す流れ図を示す。
(Embodiment 2) FIG. 9 is a functional block diagram showing a configuration of an information providing system using voice according to Embodiment 2 of the present invention. FIG. 10 is a flowchart showing the operation of the information providing system using voice according to Embodiment 2 of the present invention.
【0138】図9において図1と同一な部分については
同一符号を付しているので説明を省略し、異なった部分
についてのみ説明する。実施の形態2の図9の音声によ
る情報提供システムは図1の構成の重要語情報付き辞書
120が英語の言語処理に用いる英語重要語情報付き辞
書220に置き換わり、意味クラスデータベース121
が英語の意味クラスデータべースである英語意味クラス
データベース221に置き換わり、依存関係データベー
ス122が英語の依存関係データベースである英語依存
関係データベース222に置き換わり、標準文型データ
ベース140が日本語の標準文型データベースである日
本語標準文型データベース240に置き換わっている。
In FIG. 9, the same parts as those in FIG. 1 are denoted by the same reference numerals, and their description will be omitted. Only different parts will be described. In the system for providing information by voice of FIG. 9 according to the second embodiment, the dictionary with important word information 120 having the configuration of FIG.
Is replaced by an English semantic class database 221 that is an English semantic class database, the dependency database 122 is replaced by an English dependency database 222 that is an English dependency database, and the standard sentence pattern database 140 is replaced by a Japanese standard sentence pattern database. Is replaced by the Japanese standard sentence pattern database 240.
【0139】また、図1の構成のテキスト入力部110
が音声を入力する音声入力部210に置き換わり、重要
語抽出部130が入力音声を認識し、英語重要語情報付
き辞書220を参照して意味タグの付与を行う音声認識
および重要語抽出部230に置き換わっている。また意
味タグと意味タグに対応する日本語を格納した日本語辞
書225が付け加わり、非定型部生成部160が日本語
辞書225を参照して非定型部の日本語を生成する非定
型部日本語生成部260に置き換わった以外は実施の形
態1の構成と同一な構成である。
The text input unit 110 having the configuration shown in FIG.
Is replaced by a voice input unit 210 for inputting voice, and a key word extraction unit 130 recognizes the input voice and refers to a dictionary 220 with English key word information to add a meaning tag to a voice recognition and key word extraction unit 230. Has been replaced. Also, a semantic tag and a Japanese dictionary 225 storing Japanese corresponding to the semantic tag are added, and the atypical part generator 160 refers to the Japanese dictionary 225 to generate the atypical part Japanese. The configuration is the same as that of the first embodiment except that the word generator 260 is replaced.
【0140】以上のように構成された音声による情報提
供システムの動作を図10に従って説明する。
The operation of the system for providing information by voice configured as described above will be described with reference to FIG.
【0141】まず、本実施の形態の音声による情報提供
システムは、音声による情報提供を行う前に、実施の形
態1と同様にして、英語重要語情報付き辞書220と、
英語意味クラスデータベース221と、英語依存関係デ
ータベース222と、日本語標準文型データベース24
0とを予め用意しておく必要がある。
First, the voice information providing system according to the present embodiment provides a dictionary 220 with English important word information before providing information by voice in the same manner as in the first embodiment.
English meaning class database 221, English dependency relation database 222, Japanese standard sentence pattern database 24
0 must be prepared in advance.
【0142】図12に英語重要語情報付き辞書220の
例を示す。英語重要語情報付き辞書220には、英語の
文の表記、読み、品詞等の形態素解析に必要な情報を格
納し、また重要語として取り扱うべき英語の形態素には
重要語フラグを付加しておく。図12の「ambula
nce」は読みが発音記号で示されるものであり、品詞
がnoun(名詞)である。これらの情報は形態素解析
する際に利用される。また、重要語フラグの意味につい
ては実施の形態1と同様である。
FIG. 12 shows an example of the dictionary 220 with English important word information. The dictionary 220 with English important word information stores information necessary for morphological analysis such as notation, reading, and part of speech of an English sentence, and an important word flag is added to an English morpheme to be treated as an important word. . "Ambula" in FIG.
"nce" means that the pronunciation is indicated by phonetic symbols, and the part of speech is noun (noun). These pieces of information are used when performing morphological analysis. The meaning of the important word flag is the same as in the first embodiment.
【0143】図13に英語意味クラスデータべース22
1の例を示す。英語意味クラスデータベース221に
は、各重要語にその重要語が属するクラスを示す意味タ
グが割り当てられている。例えば、「ambulanc
e」には意味タグとして「vehicles」が割り当
てられており、また、「car」にも意味タグとして
「vehicles」が割り当てられており、これらは
日本語が英語に変わった以外は実施の形態1と同様であ
る。
FIG. 13 shows the English meaning class database 22.
1 is shown. In the English meaning class database 221, a meaning tag indicating a class to which the important word belongs is assigned to each important word. For example, "ambulanc
"e" is assigned "vehicles" as a semantic tag, and "car" is also assigned "vehicles" as a semantic tag. These are the first embodiment except that Japanese is changed to English. Is the same as
【0144】図14の(a)に日本語標準文型データベ
ース240の例を示す。日本語標準文型データベース2
40には、複数の標準文型が格納されている。例えば1
番目の標準文型は、「[vehicles:subje
ct]が[sound・warning:objec
t]を[outoput−sound:predica
te]」であり、意味タグの「vehicles」がこ
の標準文型中の主語であり、意味タグの「sound・
output」がこの標準文型中の目的語であり、意味
タグの「音出力」はこの標準文型の述語であることを示
している。また、日本語標準文型データベース240の
各標準文型には、実施の形態1と同様に定型部音素列、
定型部韻律パタン、非定型部韻律パタンの調整パラメー
タなども格納しており、これらは音声合成する際に利用
される。
FIG. 14A shows an example of the Japanese standard sentence pattern database 240. Japanese Standard Sentence Pattern Database 2
40 stores a plurality of standard sentence patterns. For example, 1
The second standard sentence pattern is "[vehicles: subject
ct] is [sound ・ warning: object
t] to [output-sound: predica
te] ”, and the meaning tag“ vehicles ”is the subject in this standard sentence pattern, and the meaning tag“ sound.
"output" is an object in this standard sentence pattern, and "sound output" of the semantic tag indicates that it is a predicate of this standard sentence pattern. Further, each standard sentence pattern in the Japanese standard sentence pattern database 240 has a fixed part phoneme sequence as in the first embodiment,
Adjustment parameters for the fixed part prosody pattern and the atypical part prosody pattern are also stored, and these are used when performing speech synthesis.
【0145】図14の(b)に英語依存関係データベー
ス222の例を示す。英語依存関係データベース222
は、日本語標準文型データベース240の各標準文型毎
の意味タグをセットにして格納したデータベースであ
る。図14の(b)では、「(vehicles→so
und・warning)、(sound・warni
g→output−sound)」が一つの意味タグセ
ットである。そして、この意味タグセットの後ろに記載
されている「1」などの数字の意味も実施の形態1と同
様である。
FIG. 14B shows an example of the English dependency database 222. English dependency database 222
Is a database in which semantic tags for each standard sentence pattern of the Japanese standard sentence pattern database 240 are stored as a set. In FIG. 14B, “(vehicles → so
und.warning), (sound.warni)
g → output-sound) "is one semantic tag set. The meaning of the numeral such as “1” described after the meaning tag set is the same as in the first embodiment.
【0146】このような英語重要語情報付き辞書220
と、英語意味クラスデータベース221と、英語依存関
係データベース222と、日本語標準文型データベース
240とが予め用意されているとする。
The dictionary 220 with the English important word information as described above
It is assumed that an English semantic class database 221, an English dependency relation database 222, and a Japanese standard sentence pattern database 240 are prepared in advance.
【0147】次に、情報を音声で提供する際の動作を説
明する。
Next, the operation of providing information by voice will be described.
【0148】音声入力部210は、処理するべき英語音
声波形を受け付け(ステップ110)、音声認識および
重要語抽出部230は、入力された音声を認識し、英語
の単語列に変換する(ステップ115)。さらに音声認
識および重要語抽出部230は音声認識結果に対して、
形態素解析し、品詞等の言語情報を付与し、さらに構文
解析を行い、構文単位ごとに意味タグを付与する(ステ
ップ120)。
The speech input unit 210 receives an English speech waveform to be processed (step 110), and the speech recognition and important word extraction unit 230 recognizes the inputted speech and converts it into an English word string (step 115). ). Further, the voice recognition and important word extraction unit 230 performs
Morphological analysis is performed, linguistic information such as part of speech is added, and further syntax analysis is performed, and a semantic tag is added for each syntax unit (step 120).
【0149】なお、ステップ120は第1の実施の形態
で図8を用いて説明した動作例と同様の動作をする。
Step 120 performs the same operation as the operation example described with reference to FIG. 8 in the first embodiment.
【0150】具体的には、図11に示すように、音声入
力部210に入力された音声を認識し、英語の単語列に
変換した結果が入力テキスト720であったとする。す
なわち、音声入力部210には、「An ambula
nce wails itssairen.」というテ
キストに対応する音声が入力されたとする。
Specifically, as shown in FIG. 11, it is assumed that the result of recognizing the voice input to the voice input unit 210 and converting it into an English word string is an input text 720. That is, the voice input unit 210 displays “An ambula
nce wails istsairen. Suppose that a voice corresponding to the text "is input.
【0151】そうすると、音声認識および重要語抽出部
230は、入力された音声を認識し、英語の単語列に変
換し、入力テキスト720を英語重要語情報付き辞書2
20を用いて形態素解析して読み、品詞等の言語情報を
付与する。また、入力テキスト720から英語重要語情
報付き辞書220に重要語フラグが付加された形態素を
重要語として抽出する。図11の重要語抽出結果721
は、このようにして抽出された重要語である。
Then, the speech recognition and important word extraction section 230 recognizes the input speech, converts it into an English word string, and converts the input text 720 into the dictionary with English important word information 2.
The morphological analysis is carried out using 20 and read, and linguistic information such as part of speech is added. Also, a morpheme with an important word flag added to the dictionary 220 with English important word information is extracted from the input text 720 as an important word. Important word extraction result 721 in FIG.
Is an important word extracted in this way.
【0152】さらに、音声認識および重要語抽出部23
0は、抽出した重要語を英語意味クラスデータベース2
21を参照して、意味タグに入れ替える。さらに、品詞
などの言語情報を付与すると、図11の意味タグ付与結
果722になる。
Further, the voice recognition and important word extracting unit 23
0 means extracted important words in English semantic class database 2
With reference to 21, it is replaced with a meaning tag. Further, when linguistic information such as a part of speech is added, the result becomes a meaning tag adding result 722 in FIG.
【0153】依存関係分析部132は、音声認識/意味
抽出部230から出力された構文単位ごとの意味タグ列
と英語依存関係データベースの各意味タグセットとの一
致度を計算する。そして、標準文型検索部150は、依
存関係分析部132で計算された一致度が最も高い意味
タグセットに対応する日本語標準文型を日本語標準文型
データベース240から選択する(ステップ130)。
The dependency analysis unit 132 calculates the degree of coincidence between the meaning tag string for each syntax unit output from the speech recognition / meaning extraction unit 230 and each meaning tag set in the English dependency database. Then, the standard sentence pattern search unit 150 selects, from the Japanese standard sentence pattern database 240, the Japanese standard sentence pattern corresponding to the semantic tag set having the highest degree of coincidence calculated by the dependency analysis unit 132 (step 130).
【0154】具体的には、依存関係分析部132は、音
声認識および重要語抽出部230で抽出された意味タグ
列である意味タグ付与結果722の各意味タグを任意に
組み合わせて意味タグの組を作る。すなわち、意味タグ
付与結果722からは、意味タグの組み合わせ723に
示すように「(vehicles→output−so
und)、(output−sound→sound・
warning)、(sound・warning→v
ehicles)」という3通りの意味タグの組が作成
される。そして、依存関係分析部132は、作成した意
味タグの組み合わせ723と、依存関係データベース1
22の意味タグセットとを比較し、意味タグの組が一致
する個数を計算する。図14の(b)の例では、意味タ
グセットの「(vehicles→sound・war
ning)、(sound・warning→outp
ut−sound)」は、依存関係分析部132が作成
した意味タグの組み合わせ723に対して2つの意味タ
グの組が一致している。この場合、この意味タグセット
の一致度は2となる。
More specifically, the dependency analysis unit 132 arbitrarily combines the semantic tags of the semantic tag assignment result 722 which is the semantic tag string extracted by the voice recognition and important word extracting unit 230, make. That is, from the meaning tag assignment result 722, as shown in the meaning tag combination 723, "(vehicles → output-so
und), (output-sound → sound.
(warning), (sound ・ warning → v
e.) is created. Then, the dependency analysis unit 132 determines the combination 723 of the created meaning tags and the dependency database 1
The number of meaning tag sets is compared with the 22 meaning tag sets, and the number of matching meaning tag sets is calculated. In the example of FIG. 14B, the meaning tag set “(vehicles → sound.war”
ning), (sound ・ warning → outp)
"out-sound)", the pair of two semantic tags matches the combination 723 of the semantic tags created by the dependency analysis unit 132. In this case, the degree of coincidence of this semantic tag set is 2.
【0155】また、意味タグセットの「(vehicl
es→move)」は、依存関係分析部132が作成し
た意味タグの組み合わせ703といずれの意味タグの組
も一致しないので、この意味タグセットの一致度は0で
ある。また、依存関係分析部132は、図14の(b)
の例では、その他の意味タグセット一致度も0と計算す
る。
In addition, the meaning tag set “(vehicl
“es → move)” does not match any combination of the meaning tags with the combination 703 of the meaning tags created by the dependency analysis unit 132, so the degree of matching of this meaning tag set is 0. In addition, the dependency analysis unit 132 performs the processing shown in FIG.
In the example of, the other semantic tag set matching degrees are also calculated as 0.
【0156】依存関係分析部132は、各意味タグセッ
トの一致度を計算する毎に標準文型検索部150に計算
した一致度とその一致度が計算された意味タグセットに
対応する日本語標準文型データベース140の標準文型
の番号を通知する。
Each time the degree of coincidence of each semantic tag set is calculated, the dependency analysis unit 132 calculates the degree of coincidence calculated by the standard sentence pattern search unit 150 and the Japanese standard sentence pattern corresponding to the semantic tag set whose degree of coincidence is calculated. The standard sentence pattern number of the database 140 is notified.
【0157】標準文型検索部150は、依存関係分析部
132から一致度とその一致度が計算された意味タグセ
ットに対応する日本語標準文型データベース140の標
準文型の番号を通知されると、一致度が最も高い意味タ
グセットに対応する標準文型を日本語標準文型データベ
ース240から選択する。図14の(b)の例では、一
致度が最も高い意味タグセットは「(vehicles
→sound・warning)、(sound・wa
rning→output−sound)」であるの
で、この意味タグセットに対応する標準文型として、図
14の(a)の日本語標準文型データベース140か
ら、選択された標準文型724に示すように「[veh
icles:subject]が[sound・war
ning:object]を[output−soun
d:predicate]」を選択する。
When the standard sentence pattern search unit 150 is notified of the degree of coincidence and the number of the standard sentence pattern of the Japanese standard sentence pattern database 140 corresponding to the semantic tag set for which the degree of coincidence has been calculated from the dependency analysis unit 132, The standard sentence pattern corresponding to the semantic tag set having the highest degree is selected from the Japanese standard sentence pattern database 240. In the example of FIG. 14B, the meaning tag set with the highest matching degree is “(vehicles
→ sound ・ warning) 、 (sound ・ wa
rning → output-sound) ”, a standard sentence pattern corresponding to this semantic tag set is selected from the Japanese standard sentence pattern database 140 of FIG.
chips: subject] is [sound / war
ning: object] to [output-sound
d: predicate] ".
【0158】そして、標準部文型検索部150は、この
ようにして選択した標準文型の定型部の音素列と韻律情
報を抽出する(ステップ140)。
Then, the standard part sentence pattern search unit 150 extracts phoneme strings and prosody information of the fixed part of the standard sentence pattern selected in this way (step 140).
【0159】次に、非定型部日本語生成部160は、ス
テップ140で選択した標準文型の非定型部属性とステ
ップ120で付与された意味タグに対応する日本語を日
本語辞書255より抽出し、非定型部にあたる日本語を
生成する(ステップ150)。
Next, the non-standard part Japanese generation unit 160 extracts from the Japanese dictionary 255 the Japanese corresponding to the non-standard part attribute of the standard sentence pattern selected in step 140 and the meaning tag assigned in step 120. Then, a Japanese language corresponding to the unfixed part is generated (step 150).
【0160】具体的には、実施の形態1と同様にして、
選択された標準文型724の「[vehicles:s
ubject]」の部分に「ambulance」が対
応していることを認識し、日本語辞書225を参照して
「ambulance」に対応する日本語である「救急
車」を取得し、「[vehicles:subjec
t]」の部分に「救急車」を当てはめる。他の意味タグ
すなわち非定型部の部分も同様の処理を行い、その結果
として図11に示す標準文型への当てはめ725に示す
ような日本語の文を得ることが出来る。
Specifically, in the same manner as in the first embodiment,
The selected standard sentence pattern 724 “[vehicles: s
[object]], and recognizes that "ambulance" corresponds to the part, obtains "ambulance" in Japanese corresponding to "ambulance" by referring to the Japanese dictionary 225, and obtains "[vehicles: subject]
[t] ”to“ ambulance ”. The same processing is performed for the other semantic tags, that is, the unfixed part, and as a result, it is possible to obtain a Japanese sentence as shown in FIG.
【0161】以下ステップ60からステップ100まで
は実施の形態1において図に基づいて説明したのと同様
にし、日本語音声を出力する。
Steps 60 to 100 are performed in the same manner as described in the first embodiment with reference to the drawings, and a Japanese voice is output.
【0162】以上のように、本実施の形態の音声による
情報提供システムによれば入力された英語音声の意味を
抽出し、その意味が同等である日本語の標準文型に変換
して音声を合成することにより、任意のテキストに対し
て、定型文を利用することで自然性の高い合成音声を実
現する音声合成部を利用し、自然な音声で簡便に通訳情
報を提供することができる。
As described above, according to the voice information providing system of the present embodiment, the meaning of the input English voice is extracted and converted into a standard Japanese sentence pattern having the same meaning to synthesize the voice. By doing so, it is possible to easily provide interpreting information with natural speech by using a speech synthesis unit that realizes synthesized speech with high naturalness by using a fixed phrase for an arbitrary text.
【0163】なお、本実施の形態の音声認識および重要
語抽出部230、依存関係分析部132、及び標準文型
検索部150、非定型部日本語生成部160は本発明の
解析手段の例であり、本実施の形態の音声合成部170
は本発明の音声合成手段の例であり、本実施の形態の英
語重要語情報付き辞書220と英語意味クラスデータベ
ース221は本発明の関連情報の例であり、本実施の形
態の重要語を抽出するとは本発明の全部または一部の第
1言語の単語を抽出することの例であり、本実施の形態
の重要語フラグが付加されている形態素を重要語として
抽出することは本発明の所定の基準に基づいて全部また
は一部の第1言語の単語を抽出することの例であり、本
実施の形態の英語の入力テキスト720などの音声認識
の結果生成されたテキストは本発明の入力されてきた第
1言語の文の例であり、本実施の形態の意味タグは本発
明の第1言語の標準単語の例であり、本実施の形態の英
語依存関係データベース222に格納されている意味タ
グセットは本発明の第1言語の標準文型の例であり、本
実施の形態の日本語標準文型データベース240に格納
されている標準文型は本発明の第2言語の標準文型の例
である。
The speech recognition and important word extraction unit 230, the dependency analysis unit 132, the standard sentence pattern search unit 150, and the atypical part Japanese generation unit 160 of this embodiment are examples of the analysis means of the present invention. , Speech synthesis section 170 of the present embodiment
Is an example of the speech synthesis means of the present invention. The dictionary 220 with English important word information and the English meaning class database 221 of the present embodiment are examples of related information of the present invention, and extract important words of the present embodiment. This is an example of extracting all or a part of the first language word of the present invention, and extracting the morpheme to which the important word flag of the present embodiment is added as an important word is the same as that of the present invention. Is an example of extracting all or a part of the words in the first language based on the criterion. The text generated as a result of the speech recognition such as the English input text 720 of the present embodiment is the input of the present invention. This is an example of the sentence of the first language, and the meaning tag of the present embodiment is an example of the standard word of the first language of the present invention, and the meaning stored in the English dependency database 222 of the present embodiment. The tag set is the present invention An example of a standard sentence pattern of the first language, a standard sentence patterns stored in the Japanese standard sentence pattern database 240 of the present embodiment is an example of a standard sentence pattern in the second language of the present invention.
【0164】さらに、本実施の形態では、英語の音声を
入力して日本語の音声で情報提供を行う場合について説
明したが、これに限らない。日本語の音声を入力して中
国語の音声で情報提供を行う場合など、任意の言語の音
声を入力して、他の任意の言語の音声で情報提供を行っ
ても構わない。
Furthermore, in the present embodiment, a case has been described in which English voice is input and information is provided in Japanese voice, but the present invention is not limited to this. For example, when a Japanese voice is input and information is provided in a Chinese voice, a voice in an arbitrary language may be input and the information may be provided in a voice in another arbitrary language.
【0165】さらに、本実施の形態では入力テキスト7
20から英語重要語情報付き辞書220に重要語フラグ
が付加された形態素を重要語として抽出し、また重要語
フラグは図12の例では全ての内容語に付加さていた
が、この重要語フラグを乗り物に乗る場面などの特定の
場面でよく使われる単語にのみ付加するようにすれば、
その特定の場面に関する音声による情報の提供が効率よ
く行えるようになる。なお、このような場合には、必ず
しも入力テキスト720に現れる全部の形態素が、英語
重要語情報付き辞書220に重要語フラグが付加されて
いる形態素であるとは限らない。従って、このような場
合には、入力テキスト720の形態素が全て重要語とし
て抽出されるわけではなく、一部のみが重要語として抽
出されることもある。
Further, in this embodiment, the input text 7
From FIG. 20, the morpheme to which the keyword flag is added is extracted as an important word from the dictionary 220 with English keyword information, and the keyword flag is added to all the content words in the example of FIG. By adding only words that are often used in certain situations, such as when riding a vehicle,
It is possible to efficiently provide information by voice regarding the specific scene. In such a case, all morphemes appearing in the input text 720 are not necessarily morphemes to which an important word flag is added to the dictionary 220 with English important word information. Therefore, in such a case, not all morphemes of the input text 720 are extracted as important words, and only some of them may be extracted as important words.
【0166】さらに、本実施の形態では、英語意味クラ
スデータベース221を用いて抽出した重要語を意味タ
グに入れ替えるとして説明したが、英語意味クラスデー
タベース221を用いなくても構わない。この場合に
は、重要語として選択する基準は、日本語標準文型デー
タベース140に格納されている標準文型に含まれる単
語を英語に訳した単語を重要語として選ぶようにすれば
よい。従って、英語重要語情報付き辞書220の単語の
うち、このような基準を満たす単語にのみ重要語フラグ
を付加しておけばよい。また、日本語標準文型データベ
ース240には、標準文型の非定型部を意味タグの代わ
りに重要語を日本語に訳した単語で記述した標準文型を
格納する。また英語依存関係データベース222には、
意味タグセットの意味タグの部分を重要語に置き換えた
重要語セットを格納する。そして、依存関係分析部13
2は、抽出した重要語から意味タグの組み合わせの代わ
りに重要語の組合わせを作成し、この重要語語の組合わ
せと依存関係データベース222に格納されている重要
語セットとの一致度を選択すればよい。なお、この場合
には、重要語を意味タグに入れ替えていないので、非定
型部日本語生成部260は不要になる。このように標準
文型の全てが定型部から構成されているようにしても音
声による情報提供を行うことが出来る。
Furthermore, in the present embodiment, it has been described that important words extracted using the English meaning class database 221 are replaced with meaning tags, but the English meaning class database 221 may not be used. In this case, as a criterion for selecting an important word, a word obtained by translating a word included in the standard sentence pattern stored in the Japanese standard sentence pattern database 140 into English may be selected as an important word. Therefore, it is only necessary to add an important word flag to words that satisfy such criteria among words in the dictionary 220 with English important word information. The Japanese standard sentence pattern database 240 stores a standard sentence pattern in which an atypical part of the standard sentence pattern is described by a word in which an important word is translated into Japanese instead of a semantic tag. Also, in the English dependency database 222,
An important word set in which the meaning tag portion of the meaning tag set is replaced with an important word is stored. Then, the dependency analysis unit 13
2 creates a combination of important words from the extracted important words instead of a combination of semantic tags, and selects the degree of matching between the combination of important words and the set of important words stored in the dependency database 222. do it. In this case, since the important words are not replaced with the meaning tags, the atypical part Japanese generation unit 260 becomes unnecessary. As described above, even when all of the standard sentence patterns are constituted by the fixed form portions, the information can be provided by voice.
【0167】さらに、本実施の形態では、入力テキスト
720から抽出した英語の重要語を英語の意味タグに入
れ替えるとして説明したが、これに限らない。抽出した
英語の重要語を日本語辞書を用いて日本語に訳した日本
語の重要語を取得し、取得した日本語の重要語を日本語
の意味タグに入れ替えることも出来る。この場合、依存
関係データベースには、本実施の形態とは異なり日本語
の意味タグセットが格納されているものとする。また、
英語意味クラスデータベース221には、日本語の単語
のクラスが記述されている。そして、英語重要語辞書2
20の代わりに、日本語の単語について記述された日本
語重要語辞書220が設けられているとする。依存関係
分析部132は取得した日本語の意味タグから日本語の
意味タグの組み合わせを作成し、この日本語の意味タグ
の組み合わせと依存関係データ部0酢222に格納され
ている日本語の意味タグセットとの一致度を計算し、こ
の計算結果に基づいて標準文型検索部150は、最も関
連する日本語の意味タグセットを選択し、選択された意
味タグセットに対応する日本語の標準文型を選択すれば
よい。また、標準文型の非定型部の日本語の意味タグセ
ットをその日本語の意味タグセットに対応する英語の重
要語に対応する日本語の単語に入れ替えることにより、
標準文型への当てはめ725を得ることが出来る。
Further, in the present embodiment, the description has been made assuming that the English important words extracted from the input text 720 are replaced with English meaning tags, but the present invention is not limited to this. It is also possible to acquire Japanese important words by translating the extracted English important words into Japanese using a Japanese dictionary, and replace the acquired Japanese important words with Japanese meaning tags. In this case, it is assumed that a Japanese meaning tag set is stored in the dependency database unlike the present embodiment. Also,
The English meaning class database 221 describes classes of Japanese words. And English Keyword Dictionary 2
It is assumed that a Japanese important word dictionary 220 that describes Japanese words is provided instead of 20. The dependency analysis unit 132 creates a combination of Japanese meaning tags from the acquired Japanese meaning tags, and combines the combination of Japanese meaning tags with the Japanese meaning stored in the dependency data unit 0 vinegar 222. The standard sentence pattern search unit 150 calculates the degree of coincidence with the tag set, selects the most relevant Japanese semantic tag set based on the calculation result, and selects the Japanese standard sentence pattern corresponding to the selected semantic tag set. You just have to select In addition, by replacing the Japanese semantic tag set of the atypical part of the standard sentence pattern with Japanese words corresponding to English important words corresponding to the Japanese semantic tag set,
A fit 725 to the standard sentence pattern can be obtained.
【0168】さらに、上記のように抽出した英語の重要
語を日本語辞書を用いて日本語に訳した日本語の重要語
を取得し、取得した日本語の重要語を日本語の意味タグ
に入れ替える代わりに、取得した日本語の重要語をその
まま使用することもできる。すなわち、英語意味クラス
データベース221を用いない構成であってもよい。こ
の場合には、依存関係データベース222には、本実施
の形態の意味タグセットの代わりに、意味タグセットの
意味タグを日本語の重要語に置き換えた日本語の重要語
セットが格納されているものとする。また、英語重要語
辞書220の代わりに、日本語の単語について記述され
た日本語重要語辞書が設けられているとする。この場合
音声認識および重要語抽出部230が抽出した英語の重
要語を日本語辞書を用いて日本語に訳して日本語の重要
語を取得し、依存関係分析部132は、本実施の形態の
意味タグの組み合わせの代わりに、意味タグの組み合わ
せの意味タグの部分に日本語の重要語を記載した日本語
の重要語の組み合わせを作成する。そして、作成した日
本語の重要語の組み合わせと最も関連する日本語の重要
語セットを選択し、選択された日本語の重要語のセット
に対応する日本語の標準文型を選択すればよい。この場
合意味タグを使用していないので、非定型部日本語生成
部260は不要になる。
Further, Japanese important words obtained by translating the extracted important English words into Japanese using a Japanese dictionary are obtained, and the obtained Japanese important words are used as Japanese meaning tags. Instead of exchanging, you can use the acquired Japanese key words as they are. That is, a configuration that does not use the English meaning class database 221 may be used. In this case, the dependency database 222 stores a Japanese important word set in which the meaning tags of the meaning tag set are replaced with Japanese important words, instead of the meaning tag set of the present embodiment. Shall be. It is also assumed that a Japanese important word dictionary describing Japanese words is provided instead of the English important word dictionary 220. In this case, the English important words extracted by the speech recognition and important word extracting unit 230 are translated into Japanese using a Japanese dictionary to acquire Japanese important words, and the dependency analysis unit 132 Instead of a combination of meaning tags, a combination of Japanese important words in which a Japanese important word is described in the meaning tag portion of the combination of meaning tags is created. Then, a set of Japanese important words that is most related to the created combination of Japanese important words may be selected, and a Japanese standard sentence pattern corresponding to the selected set of Japanese important words may be selected. In this case, since no semantic tag is used, the atypical part Japanese generation unit 260 becomes unnecessary.
【0169】(実施の形態3)図15は、本発明の実施
の形態3における音声による情報提供システムの構成を
示す機能ブロック図である。また、図16に本発明の実
施の形態3における音声による情報提供システムの動作
を示す流れ図を示す。
(Embodiment 3) FIG. 15 is a functional block diagram showing the configuration of an information providing system using voice according to Embodiment 3 of the present invention. FIG. 16 is a flowchart showing the operation of the information providing system using voice according to Embodiment 3 of the present invention.
【0170】図6において、実施の形態1の図1と同一
な部分については同一符号を付しているので説明を省略
し、異なった部分についてのみ説明する。
In FIG. 6, the same parts as those in FIG. 1 of the first embodiment are denoted by the same reference numerals, and therefore description thereof will be omitted, and only different parts will be described.
【0171】911は、車両が走る道路の状況を撮影す
るカメラである。910は、カメラ911が出力した撮
影画像を認識モデルデータベース912に基づいて認識
する画像認識部である。930は、画像認識結果に基づ
いて解析を行い複数の単語を生成し、意味タグ生成ルー
ル931を利用して、生成した単語から意味タグ列を生
成する意味タグ生成部である。932は、生成した意味
タグ列と標準文型付き依存関係データベース940に格
納されている意味タグセットとの一致度を計算する依存
関係分析部である。950は、依存関係分析部932で
計算された一致度に基づいて、最も一致度の高い意味タ
グセットに対応する標準文型を選択する標準文型検索部
である。
[0171] Reference numeral 911 denotes a camera for photographing the state of the road on which the vehicle runs. An image recognition unit 910 recognizes a captured image output by the camera 911 based on the recognition model database 912. Reference numeral 930 denotes a meaning tag generation unit that performs analysis based on the image recognition result to generate a plurality of words, and generates a meaning tag sequence from the generated words using a meaning tag generation rule 931. Reference numeral 932 denotes a dependency analysis unit that calculates the degree of coincidence between the generated meaning tag sequence and the meaning tag set stored in the standard sentence-type dependency relationship database 940. Reference numeral 950 denotes a standard sentence pattern search unit that selects a standard sentence pattern corresponding to a semantic tag set having the highest matching score based on the matching score calculated by the dependency relationship analyzing unit 932.
【0172】以上のように構成された音声による情報提
供システムの動作を図16に従って説明する。
The operation of the system for providing information by voice constituted as described above will be described with reference to FIG.
【0173】カメラ911は一定時間間隔毎に撮影時間
をずらした2枚の画像を撮影し、撮影した画像を画像認
識部910に出力する。そして、画像認識部910は撮
影時間をずらした2枚の画像を入力する(ステップ90
0)。
The camera 911 shoots two images whose shooting time is shifted at regular time intervals, and outputs the shot images to the image recognition unit 910. Then, the image recognizing unit 910 inputs two images whose shooting time is shifted (step 90).
0).
【0174】次に、画像認識部910は、入力された画
像から認識モデルデータベース912を利用して、画像
認識を行う。
Next, the image recognizing unit 910 performs image recognition on the input image using the recognition model database 912.
【0175】具体的に説明すると、図17の(a)に画
像認識部910に入力されてくる画像の例を入力画像9
49として示す。入力画像949は、時刻t1に撮影さ
れた画像と時刻t2に撮影された2枚の画像である。
More specifically, FIG. 17A shows an example of an image input to the image recognizing unit 910 in the input image 9.
Shown as 49. The input image 949 is an image captured at time t1 and two images captured at time t2.
【0176】次に、画像認識部930は、認識モデルデ
ータベース912を利用して、入力画像949の画像認
識を行い、図17の(b)に示す認識結果951に示す
情報を認識する。すなわち、認識結果951は、時刻t
1の画像に映っている車両や二輪車などの移動体の道路
上における位置を示す座標と、時刻t2の画像に映って
いる移動体の道路上における位置を示す座標と、移動体
の種類(車両、二輪車の区別)とが、各移動体毎に記述
されている。
Next, the image recognizing section 930 performs image recognition of the input image 949 using the recognition model database 912, and recognizes information shown in a recognition result 951 shown in FIG. That is, the recognition result 951 is the time t
The coordinates indicating the position on the road of the moving object such as the vehicle or the motorcycle shown in the image 1, the coordinates indicating the position on the road of the moving object shown in the image at time t2, and the type of the moving object (vehicle , And motorcycles) are described for each moving body.
【0177】また、認識モデルデータベース912は、
入力画像949に映っている移動体を認識し、認識した
移動体の時刻t1及び時刻t2における道路上における
位置を示す座標を取得するための基礎となるデータや、
移動体が車両か二輪車かを認識するための規則やアルゴ
リズム等が記載されたものである。例えば基礎となるデ
ータとしては、カメラ911が設置されている場所と道
路との位置関係を示すデータがあり、このデータを利用
することにより、車両や二輪車として認識された移動体
の画像上における位置から実際の道路上の位置を知るこ
とが出来る。また、規則やアルゴリズムとしては、夜間
であれば、入力画像949に映っている車両や二輪車な
どの移動体のヘッドライトを検出するアルゴリズムや、
検出したヘッドライトから移動体が車両か二輪車かを判
定する規則などがある。また、昼間であれば、入力画像
949から移動体を検出するアルゴリズムや、検出した
移動体が車両か二輪車かを認識する規則などがある。ま
た、夜間に使用する画像認識方法と昼間に使用する画像
認識方法とを使い分けるための規則なども記述される。
なお、認識モデルデータベース912は、これ以外の画
像認識アルゴリズムや規則を用いても構わない。
The recognition model database 912 is
Data serving as a basis for recognizing the moving object shown in the input image 949 and obtaining coordinates indicating the position of the recognized moving object on the road at time t1 and time t2;
It describes rules and algorithms for recognizing whether a moving object is a vehicle or a motorcycle. For example, as basic data, there is data indicating a positional relationship between a place where the camera 911 is installed and a road, and by using this data, the position of an image of a moving object recognized as a vehicle or a motorcycle on an image is obtained. You can know the actual location on the road from. In addition, as a rule or an algorithm, at night, an algorithm for detecting a headlight of a moving object such as a vehicle or a motorcycle shown in the input image 949,
There are rules for determining whether the moving object is a vehicle or a motorcycle from the detected headlights. In the daytime, there are an algorithm for detecting a moving object from the input image 949 and a rule for recognizing whether the detected moving object is a vehicle or a motorcycle. Further, rules for properly using the image recognition method used at night and the image recognition method used at daytime are described.
Note that the recognition model database 912 may use other image recognition algorithms and rules.
【0178】画像認識部910は、このような認識モデ
ルデータベース912に記載されている規則やアルゴリ
ズムや基礎データを利用して、認識結果951を出力す
る。
The image recognition unit 910 outputs a recognition result 951 using the rules, algorithms and basic data described in the recognition model database 912.
【0179】次に、意味タグ生成部930は、画像認識
部910の認識結果から意味タグ生成ルール931を利
用して意味タグを生成する(ステップ902)。
Next, the meaning tag generation unit 930 generates a meaning tag from the recognition result of the image recognition unit 910 using the meaning tag generation rule 931 (step 902).
【0180】具体的には、意味タグ生成部930は、認
識結果951から図17の(c)に示すように車両や二
輪車などの移動体の速度を解析中間結果952として計
算する。次に、解析中間結果952から入力画像949
に映っている移動体の台数と、それらの移動体の平均速
度を解析結果953として計算する。解析結果953で
は、n台の移動体が平均時速1.7km/hで道路上を
通行していることを示している。
More specifically, the meaning tag generation unit 930 calculates the speed of a moving object such as a vehicle or a motorcycle as the analysis intermediate result 952 from the recognition result 951 as shown in FIG. Next, the input image 949 is obtained from the analysis intermediate result 952.
Is calculated as the analysis result 953. The analysis result 953 indicates that n vehicles are traveling on the road at an average speed of 1.7 km / h.
【0181】意味タグ生成ルール931には、解析結果
953の内容に応じて単語を生成するためのルールと、
実施の形態1の意味クラスデータベース121と同様に
単語を意味タグに対応つけるためのルールが格納されて
いる。
The meaning tag generation rule 931 includes a rule for generating a word according to the content of the analysis result 953,
Similar to the semantic class database 121 of the first embodiment, rules for associating words with semantic tags are stored.
【0182】意味タグ生成部930は、このような意味
タグ生成ルール931を利用して、解析結果953か
ら、生成単語954に示すような単語を生成する。そし
て、意味タグ生成ルール931を利用して、生成単語9
54に対応する意味タグ955を生成する。
The meaning tag generation unit 930 generates a word such as a generation word 954 from the analysis result 953 by using such a meaning tag generation rule 931. Then, using the meaning tag generation rule 931, the generated word 9 is generated.
The semantic tag 955 corresponding to 54 is generated.
【0183】次に、意味タグ生成部930は、生成した
意味タグのエラーチェックを行う(ステップ902)。
そして、矛盾する意味タグを生成するなどしてその矛盾
を解消できない場合には音声による情報提供が出来ない
という警告を出力する(ステップ904)。
Next, the meaning tag generation unit 930 performs an error check on the generated meaning tag (step 902).
Then, if the contradiction cannot be resolved by generating a contradictory semantic tag or the like, a warning is output that information cannot be provided by voice (step 904).
【0184】このように警告を出力する場合としては、
入力画像950の画像認識に失敗し、移動体の台数が1
00台で平均速度が300km/hになるなど解析結果
953が現実にはあり得ない結果になり、生成単語95
4が生成出来ない場合や、生成したとしても、生成単語
954が、「渋滞、順調に通行」などの矛盾する意味タ
グを生成してしまう場合がある。
As described above, when a warning is output,
The image recognition of the input image 950 has failed, and the number of moving objects is 1
The analysis result 953 is an impossible result, such as an average speed of 300 km / h at 00 units.
4 may not be generated, or even if it is generated, the generated word 954 may generate an inconsistent meaning tag such as "traffic jam, passing smoothly".
【0185】次に、依存関係分析部932は、意味タグ
生成部932で生成された意味タグから意味タグの組み
合わせを作成し、この意味タグの組み合わせと、標準文
型付き依存関係データベース940に格納されている意
味タグセットとの一致度を計算し、この計算結果に基づ
いて標準文型検索部950は、標準文型付き依存関係デ
ータベース940から最も一致度の高い意味タグセット
に対応する標準文型を選択する(ステップ905)。
Next, the dependency analysis unit 932 creates a combination of meaning tags from the meaning tags generated by the meaning tag generation unit 932, and stores the combination of the meaning tags and the dependency relationship database 940 with the standard sentence pattern. The standard sentence pattern search unit 950 selects a standard sentence pattern corresponding to the semantic tag set with the highest matching degree from the standard sentence-type dependent relationship database 940 based on the calculation result. (Step 905).
【0186】具体的には、図17の意味タグ955を実
施の形態1と同様に組み合わせて意味タグの組み合わせ
を作る。まず図17の例では、意味タグ955が2個で
あるので、意味タグの組み合わせは「([渋滞]→[速
度])」の一組になる。
More specifically, a combination of meaning tags is created by combining the meaning tags 955 of FIG. 17 in the same manner as in the first embodiment. First, in the example of FIG. 17, since there are two meaning tags 955, the combination of the meaning tags is one set of “([congestion] → [speed])”.
【0187】標準文型付き依存関係データベース940
には、図17の意味タグセット956に示すような意味
タグセットと、対応標準文型957に示すような標準文
型が格納されており、各意味タグセットと各標準文型と
が対応つけられている。
Dependency Relationship Database with Standard Sentence Type 940
Stores a semantic tag set as shown in a semantic tag set 956 in FIG. 17 and a standard sentence pattern as shown in a corresponding standard sentence pattern 957, and each semantic tag set is associated with each standard sentence pattern. .
【0188】依存関係分析部932は、意味タグの組み
合わせである「([渋滞]→[速度])」と各意味タグ
セットの一致度を計算する。図17の例では、意味タグ
セットの「([渋滞]→[速度])」が最も一致度が高
くなる。
The dependency analysis unit 932 calculates the degree of coincidence between the meaning tag set “([congestion] → [speed])” and each meaning tag set. In the example of FIG. 17, the meaning tag set “([congestion] → [speed])” has the highest matching degree.
【0189】従って、標準文型検索部950は、意味タ
グセットの「([渋滞]→[速度])」に対応する標準
文型である対応標準文型957の「[速度]運転の[渋
滞]中です。」を選択する。
Accordingly, the standard sentence pattern search unit 950 is in the “congestion” of “[speed] driving” of the corresponding standard sentence pattern 957 which is the standard sentence pattern corresponding to the semantic tag set “([congestion] → [speed])”. . ".
【0190】また、ステップ906は、実施の形態1の
ステップ40と同様である。
Step 906 is the same as step 40 of the first embodiment.
【0191】次に、非定型部生成部160は、選択した
標準文型の非定型部に当てはまることばを生成する(ス
テップ907)。
Next, the non-standard part generator 160 generates a word that applies to the non-standard part of the selected standard sentence pattern (step 907).
【0192】すなわち、選択した標準文型の「[速度]
運転の[渋滞]中です。」の意味タグセットの部分に、
それぞれ生成単語954を当てはめる。
That is, “[speed]” of the selected standard sentence pattern
It is during [congestion] of driving. "In the tag set
Each generated word 954 is applied.
【0193】これ以後は実施の形態1と同様であるので
説明を省略する。
Subsequent steps are the same as in the first embodiment, and a description thereof will not be repeated.
【0194】このように本実施の形態によれば道路の状
況を撮影した画像を入力して、その画像を解析すること
により、「のろのろ運転の渋滞中です。」などのように
音声による道路情報を提供することが出来る。
As described above, according to the present embodiment, by inputting an image obtained by capturing the state of the road and analyzing the image, road information such as "during slow traffic congestion." Can be provided.
【0195】なお、本実施の形態の画像認識部910と
意味タグ生成部930は本発明の信号処理手段の例であ
り、本実施の形態の意味タグ生成部930、依存関係分
析部932、標準文型検索部950、及び非定型部生成
部160は本発明の解析手段の例であり、本実施の形態
の音声合成部170は本発明の音声合成手段の例であ
り、本実施の形態の生成単語954などの画像認識を行
いその認識結果を解析することにより生成された単語は
本発明の一つまたは複数の単語の例である。本実施の形
態の重要語情報付き辞書120と意味クラスデータベー
ス121は本発明の関連情報の例であり、本実施の形態
の重要語を抽出するとは本発明の全部または一部の単語
を抽出することの例であり、本実施の形態の重要語フラ
グが付加されている形態素を重要語として抽出すること
は本発明の所定の基準に基づいて全部または一部の単語
を抽出することの例であり、本実施の形態の意味タグは
本発明の標準単語の例である。
The image recognition unit 910 and the meaning tag generation unit 930 of the present embodiment are examples of the signal processing means of the present invention, and the meaning tag generation unit 930, the dependency analysis unit 932, and the standard The sentence pattern search unit 950 and the non-fixed part generation unit 160 are examples of the analysis unit of the present invention, and the speech synthesis unit 170 of the present embodiment is an example of the speech synthesis unit of the present invention. A word generated by performing image recognition such as the word 954 and analyzing the recognition result is an example of one or a plurality of words of the present invention. The dictionary with important word information 120 and the meaning class database 121 of the present embodiment are examples of related information of the present invention. To extract an important word of the present embodiment means to extract all or a part of the words of the present invention. In this embodiment, extracting a morpheme to which an important word flag is added as an important word is an example of extracting all or some words based on a predetermined criterion of the present invention. Yes, the meaning tags of the present embodiment are examples of standard words of the present invention.
【0196】さらに、本実施の形態では、意味タグ生成
部930が生成単語954の各単語から意味タグ955
を生成するとして説明したが、これに限らない。生成単
語954をそのまま使用することも出来る。すなわち、
依存関係分析部2は、生成単語954の各単語を重要語
として扱い、上述した重要語の組み合わせを作成する。
また、意味タグセット956の代わりに、上述した重要
語セットが設けられているものとする。そして、依存関
係分析部2は重要語の組み合わせと重要語セットとの一
致度を計算し、標準文型検索部950は、最も一致度の
高い重要語セットに対応する標準文型を選択する。そし
て標準文型を韻律情報を利用して音声合成する。なお、
この場合には、標準文型に意味タグセットが含まれてい
ないので、上述した変形例と同様に非定型部生成部16
0を設ける必要はない。
Further, in the present embodiment, the meaning tag generation unit 930 converts the meaning tag 955 from each word of the generated word 954.
Is described, but the present invention is not limited to this. The generated word 954 can be used as it is. That is,
The dependency analysis unit 2 treats each of the generated words 954 as an important word, and creates a combination of the important words described above.
It is also assumed that the above-described important word set is provided instead of the meaning tag set 956. Then, the dependency analysis unit 2 calculates the degree of coincidence between the combination of important words and the important word set, and the standard sentence pattern search unit 950 selects the standard sentence pattern corresponding to the important word set with the highest degree of matching. Then, the standard sentence pattern is synthesized using the prosody information. In addition,
In this case, since the semantic tag set is not included in the standard sentence pattern, the atypical part generation unit 16
It is not necessary to provide 0.
【0197】なお、本実施の形態では、画像認識部91
0が撮影時間をずらした2枚の画像を入力するとして説
明したが、これに限らず、撮影時間をずらした2枚以上
の画像を入力しても構わない。また、カメラ911が動
画を撮影し、画像認識部910が動画像を入力しても構
わない。
In this embodiment, the image recognition unit 91
Although it has been described that 0 inputs two images whose shooting time is shifted, the present invention is not limited to this, and two or more images whose shooting time is shifted may be input. Alternatively, the camera 911 may capture a moving image, and the image recognition unit 910 may input a moving image.
【0198】(実施の形態4)図18は、本発明の実施
の形態4における音声による情報提供システムの構成を
示す機能ブロック図である。また、図19に本発明の実
施の形態3における音声による対話システムの動作を示
す流れ図を示す。
(Embodiment 4) FIG. 18 is a functional block diagram showing a configuration of an information providing system using voice according to Embodiment 4 of the present invention. FIG. 19 is a flowchart showing the operation of the dialogue system using voice according to Embodiment 3 of the present invention.
【0199】図18において図1及び図15と同一な部
分については同一符号を付しているので説明を省略し、
異なった部分についてのみ説明する。
In FIG. 18, parts that are the same as those in FIGS. 1 and 15 are given the same reference numerals, and will not be described.
Only the different parts will be described.
【0200】実施の形態4の図18の音声による情報提
供システムの311は音声を入力する音声入力部であ
る。312は画像を入力する画像入力部である。320
は音声の特徴量と意味タグを格納した重要語情報付き辞
書である。961は、音声入力部311から入力された
音声を重要語情報付き辞書320を参照して音声の認識
を行い重要語を抽出して意味タグを付与する音声認識お
よび重要語抽出部である。画像認識部910は画像入力
部312から入力された画像を認識モデルデータベース
912を参照して画像認識を行う画像認識部である。9
30は意味タグ生成ルールを参照して、画像認識結果か
ら意味タグを生成する意味タグ生成部である。962
は、生成された意味タグ列から意味タグの組み合わせを
作成し、この意味タグの組み合わせと依存関係データベ
ースの意味タグセットとの一致度を計算する依存関係分
析部である。322は入力された音声や画像に対応する
応答の標準文型である応答標準文型と、各応答標準文型
毎の応答音声の定型部情報と、応答標準文型に応答画像
を対応つけるためのタグである応答画像のタグを格納し
た標準応答データベースである。350は意味タグ列を
用いて、対応する応答標準文型を標準応答データベース
340より検索、抽出する応答表現検索部である。38
1は、音声を出力する音声出力部である。382は画像
を出力する画像出力部である。371は、応答画像を格
納した画像データベースである。370は応答表現検索
部350で標準応答データベース340より抽出された
画像タグに基づき画像データを生成する画像生成部であ
る。380は音声出力と画像出力のタイミングを調整す
るタイミング制御部である。
[0200] Reference numeral 311 of the voice information providing system of FIG. 18 of the fourth embodiment denotes a voice input unit for inputting voice. Reference numeral 312 denotes an image input unit for inputting an image. 320
Is a dictionary with important word information that stores speech features and semantic tags. Reference numeral 961 denotes a speech recognition and important word extraction unit that recognizes speech of the speech input from the speech input unit 311 with reference to the dictionary 320 with important word information, extracts important words, and adds a meaning tag. The image recognition unit 910 is an image recognition unit that performs image recognition on the image input from the image input unit 312 with reference to the recognition model database 912. 9
Reference numeral 30 denotes a meaning tag generation unit that generates a meaning tag from the image recognition result with reference to the meaning tag generation rule. 962
Is a dependency analysis unit that creates a combination of meaning tags from the generated meaning tag sequence and calculates the degree of coincidence between the combination of meaning tags and the meaning tag set in the dependency database. Reference numeral 322 denotes a response standard sentence pattern, which is a standard sentence pattern of a response corresponding to the input voice or image, fixed part information of a response voice for each response standard sentence pattern, and a tag for associating the response image with the response standard sentence pattern. It is a standard response database storing tags of response images. Reference numeral 350 denotes a response expression search unit that searches and extracts a corresponding response standard sentence pattern from the standard response database 340 using a semantic tag string. 38
Reference numeral 1 denotes an audio output unit that outputs audio. An image output unit 382 outputs an image. 371 is an image database storing response images. An image generation unit 370 generates image data based on the image tag extracted from the standard response database 340 by the response expression search unit 350. Reference numeral 380 denotes a timing control unit for adjusting the timing of audio output and image output.
【0201】以上のように構成された音声による情報提
供システムの動作を図24に従って説明する。
The operation of the voice information providing system configured as described above will be described with reference to FIG.
【0202】音声入力部311は処理すべき音声波形を
受け付け、画像入力部312は処理すべき音声に同期し
た画像データを受け付け(ステップ210)、音声認識
及び重要語抽出部330は、実施の形態2の音声および
重要語抽出部230と同様にして入力された音声を認識
し単語列に変換する。また画像認識部910は実施の形
態3の画像認識部910と同様にして画像認識を行い認
識結果を生成する。そして、意味タグ生成部930は画
像認識結果から一つまたは複数の単語である単語列を生
成する(ステップ215)。さらに音声認識および重要
語抽出部961は単語列を形態素解析し、品詞等の言語
情報を付与し、構文解析を行い、構文単位毎の意味タグ
を付与する。また意味タグ生成部930は、生成した単
語列から意味タグを生成する(ステップ220)。ここ
で、音声入力部311と、音声認識及び重要語抽出部9
61との動作は実施の形態2と同様であり、画像入力部
312と画像認識部910と意味タグ生成部930との
動作は実施の形態3と同様である。
The voice input unit 311 receives a voice waveform to be processed, the image input unit 312 receives image data synchronized with the voice to be processed (step 210), and the voice recognition and important word extraction unit 330 uses the embodiment. In the same manner as the second voice and the important word extracting unit 230, the input voice is recognized and converted into a word string. The image recognition unit 910 performs image recognition in the same manner as the image recognition unit 910 of the third embodiment, and generates a recognition result. Then, the meaning tag generation unit 930 generates a word string that is one or more words from the image recognition result (step 215). Further, the speech recognition and important word extraction unit 961 performs morphological analysis of the word string, adds linguistic information such as part of speech, performs syntax analysis, and assigns a semantic tag for each syntax unit. Further, the meaning tag generation unit 930 generates a meaning tag from the generated word string (Step 220). Here, the voice input unit 311 and the voice recognition and important word extraction unit 9
The operation at 61 is the same as that of the second embodiment, and the operation of the image input unit 312, the image recognition unit 910, and the meaning tag generation unit 930 are the same as those of the third embodiment.
【0203】依存関係分析部962は、これらの生成さ
れた意味タグの組合わせを作成する。この意味タグの組
み合わせを作成する際、音声認識および重要語抽出部9
61で作成された意味タグと意味タグ生成部912で作
成された意味タグとを別々に分けて意味タグの組み合わ
せを作成する。従って、同時に音声入力部311と画像
入力部312に音声と画像が入力された場合には、音声
入力に対応する意味タグの組み合わせと画像入力に対応
する意味タグの組み合わせを作成する。この場合の音声
入力に対応する意味タグの組み合わせと依存関係データ
ベース322との一致度の計算は実施の形態2と同様に
して行い、また画像に対応する意味タグの組み合わせと
依存関係データベース322との一致度の計算は実施の
形態3と同様に行う。
The dependency analysis unit 962 creates a combination of these generated meaning tags. When creating the combination of the meaning tags, the voice recognition and the important word extraction unit 9
The meaning tag created in 61 and the meaning tag created in the meaning tag generation unit 912 are separately separated to create a combination of meaning tags. Therefore, when a voice and an image are input to the voice input unit 311 and the image input unit 312 at the same time, a combination of a meaning tag corresponding to the voice input and a combination of the meaning tag corresponding to the image input are created. In this case, the calculation of the degree of coincidence between the combination of the semantic tags corresponding to the voice input and the dependency database 322 is performed in the same manner as in the second embodiment, and the combination of the semantic tags corresponding to the images and the dependency database 322 is calculated. Calculation of the degree of coincidence is performed in the same manner as in the third embodiment.
【0204】応答表現検索部350は、依存関係分析部
962から通知された意味タグの組み合わせと一致度が
最も高い意味タグセットに対応する応答標準文型を標準
応答データベース340から選択する(ステップ23
0)。画像と音声が同時に入力されている場合には、応
答表現検索部350は、画像入力に対応する応答標準文
型と音声入力に対応する応答標準文型を選択する。
The response expression search unit 350 selects, from the standard response database 340, a response standard sentence pattern corresponding to the combination of the semantic tags notified from the dependency analysis unit 962 and the semantic tag set having the highest matching degree (step 23).
0). When the image and the voice are input at the same time, the response expression search unit 350 selects a response standard sentence pattern corresponding to the image input and a response standard sentence pattern corresponding to the voice input.
【0205】さらに応答表現検索部350は、選択され
た応答標準文型の定型部の音素列と韻律情報を抽出する
(ステップ240)。なお、実施の形態1と同様に応答
標準文型には予め定型部の音素列や韻律情報が予め対応
つけらており、これらは応答標準文型とともに標準応答
データベースに格納されている。
Further, the response expression search unit 350 extracts the phoneme sequence and the prosody information of the fixed part of the selected response standard sentence pattern (step 240). Note that, similarly to the first embodiment, the response standard sentence pattern is associated in advance with a phoneme sequence and prosody information of a fixed part, and these are stored in the standard response database together with the response standard sentence pattern.
【0206】また選択された応答標準文型も対応する応
答の画像タグと画像と標準応答文型との同期情報を抽出
する(ステップ340)。
The selected response standard sentence pattern also extracts the corresponding response image tag and synchronization information between the image and the standard response sentence pattern (step 340).
【0207】非定型部生成部160は、標準応答文型に
非定型部が存在する場合には、ステップ240で選択さ
れた標準応答文型の非定型部属性とステップ220で付
与された意味タグに対応する単語あるいはフレーズを重
要語情報付き辞書320と意味タグ生成ルール931よ
り抽出し、非定型部を生成する(ステップ250)。
If the standard response sentence pattern has an unfixed part, the unfixed part generation unit 160 matches the unfixed part attribute of the standard response sentence type selected in step 240 with the semantic tag assigned in step 220. The word or phrase to be extracted is extracted from the dictionary with important word information 320 and the meaning tag generation rule 931 to generate an unfixed part (step 250).
【0208】以下ステップ60からステップ90までは
実施の形態1において図2に基づいて説明したのと同様
にし、音声波形を生成する。
Steps 60 to 90 are performed in the same manner as described in the first embodiment with reference to FIG. 2 to generate an audio waveform.
【0209】一方、画像生成部370はステップ230
で選択された応答標準文型の応答画像タグを用いて画像
データベース371より応答画像を抽出し(ステップ3
60)、標準応答文型との同期情報に基づいて画像を生
成する(ステップ380)。
On the other hand, the image generation unit 370 determines in step 230
The response image is extracted from the image database 371 using the response image tag of the response standard sentence pattern selected in (3)
60) An image is generated based on synchronization information with the standard response sentence pattern (step 380).
【0210】タイミング制御部380はステップ340
で抽出された応答画像と標準応答文型との同期情報に基
づき、ステップ90で生成された音声波形とステップ3
80で生成された画像の同期をとり、音声出力部381
および画像出力部382より応答の音声と画像を出力す
る。
[0210] The timing control unit 380 determines in step 340
Based on the synchronization information between the response image extracted in step and the standard response sentence pattern, the speech waveform generated in step 90 and step 3
80, and synchronizes the image generated by the
The image output unit 382 outputs a response voice and image.
【0211】以上のように、本実施の形態の対話システ
ムによれば入力された音声と画像の意味を抽出し、その
意味に対する標準応答文型に基づいて応答音声を合成す
るとともに応答画像を生成することにより、任意の入力
に対して、語順や表現のバリエーションに関わらず効率
よく応答文を生成できる上に、定型文を利用することで
自然性の高い合成音声を実現する音声合成部を利用し、
自然な音声で対話応答を生成することが出来る。
As described above, according to the dialogue system of the present embodiment, the meaning of the input voice and image is extracted, the response voice is synthesized based on the standard response sentence pattern corresponding to the meaning, and the response image is generated. This allows a response sentence to be efficiently generated for any input regardless of word order or variations in expression, and uses a speech synthesis unit that realizes highly natural synthesized speech by using fixed phrases. ,
An interactive response can be generated with natural voice.
【0212】なお、本実施の形態の音声認識および重要
語抽出部961、依存関係分析部962、応答表現検索
部350、画像認識部910、意味タグ生成部930、
非定型部生成部160は本発明の解析手段の例であり、
本実施の形態の音声合成部170は本発明の音声合成手
段の例であり、本実施の形態の音声認識して生成された
テキストは本発明の入力されてきた文の例であり、本実
施の形態の画像認識した結果を解析することによって生
成された一つまたは複数の単語は本発明の入力されてき
た文の例であり、本実施の形態の重要語情報付き辞書1
20と意味クラスデータベース121は本発明の関連情
報の例であり、本実施の形態の重要語を抽出するとは本
発明の全部または一部の単語を抽出することの例であ
り、本実施の形態の重要語フラグが付加されている形態
素を重要語として抽出することは本発明の所定の基準に
基づいて全部または一部の単語を抽出することの例であ
り、本実施の形態の意味タグは本発明の標準単語の例で
ある。
In the present embodiment, the speech recognition and important word extraction unit 961, the dependency analysis unit 962, the response expression search unit 350, the image recognition unit 910, the meaning tag generation unit 930,
The atypical part generation unit 160 is an example of the analysis means of the present invention,
The speech synthesis unit 170 of the present embodiment is an example of a speech synthesis unit of the present invention, and the text generated by speech recognition of the present embodiment is an example of a sentence of the present invention. One or more words generated by analyzing the result of the image recognition in the form (1) are examples of the sentence of the present invention, and the dictionary 1 with important word information according to the present embodiment.
20 and the semantic class database 121 are examples of related information of the present invention. Extracting an important word of the present embodiment is an example of extracting all or a part of the words of the present invention. Extracting a morpheme to which an important word flag is added as an important word is an example of extracting all or a part of words based on a predetermined criterion of the present invention. It is an example of a standard word of the present invention.
【0213】さらに、本実施の形態では、意味クラスデ
ータベース121を用いるとして説明したが、意味クラ
スデータベースを用いなくても構わない。この場合、音
声認識して生成されたテキストや画像認識した結果を解
析することによって生成された一つまたは複数の単語か
ら重要語を選択する。重要語の選択の際には、標準応答
データベース340に格納されている標準応答文型に含
まれる重要語のみを選択するようにする。ただし、標準
応答データベース340の標準応答データベースには標
準応答文型の意味タグの部分の代わりに重要語が記述さ
れているものとする。そして、重要語の組み合わせと最
も一致する重要語セットに対応する標準応答文型を選択
する。このようにして選択した標準応答文型を、標準応
答文型に対応つけられている韻律情報を利用して音声合
成を行えばよい。なお、重要語の組み合わせと、重要語
のセットについては上述したもと同様である。
Further, in the present embodiment, the description has been given assuming that the semantic class database 121 is used. However, the semantic class database may not be used. In this case, an important word is selected from one or a plurality of words generated by analyzing a text generated by voice recognition or a result of image recognition. When selecting an important word, only important words included in the standard response sentence type stored in the standard response database 340 are selected. However, it is assumed that an important word is described in the standard response database of the standard response database 340 instead of the meaning tag portion of the standard response sentence pattern. Then, a standard response sentence pattern corresponding to the set of important words that most closely matches the combination of important words is selected. Speech synthesis may be performed on the selected standard response sentence type using the prosody information associated with the standard response sentence type. The combination of important words and the set of important words are the same as described above.
【0214】なお、実施の形態1〜4において、音声合
成は音声素変を接続して行う方法としてが、これ以外の
方法でもよい。
[0214] In the first to fourth embodiments, the speech synthesis is performed by connecting the phoneme variations, but other methods may be used.
【0215】なお、実施の形態1〜4の標準文型データ
ベース及び標準文型付き依存関係データベース及び標準
応答データベースは定型部音素列、定型部韻律パタン、
非定型部韻律パタンの調整パラメータを格納するとした
が、定型部音素列、定型部韻律パタンのかわりに、録音
音声を格納するとしてもよい。
Note that the standard sentence pattern database, the standard sentence-typed dependency relationship database, and the standard response database according to the first to fourth embodiments include a fixed part phoneme sequence, a fixed part prosody pattern,
Although the adjustment parameters of the atypical part prosody pattern are stored, a recorded voice may be stored instead of the fixed part phoneme sequence and the fixed part prosody pattern.
【0216】なお、実施の形態1〜4の標準文型データ
ベース及び標準文型付き依存関係データベース及び標準
応答データベースは定型部音素列、定型部韻律パタン、
非定型部韻律パタンの調整パラメータを格納するとした
が、定型部音素列、定型部韻律パタンのかわりに、音声
合成部170での合成方式にあわせたホルマント情報等
パラメータを格納するとしてもよい。
Note that the standard sentence pattern database, the standard sentence-dependent dependency database, and the standard response database according to the first to fourth embodiments include a fixed part phoneme sequence, a fixed part prosody pattern,
Although the adjustment parameters of the atypical part prosody pattern are stored, parameters such as formant information according to the synthesis method in the speech synthesis unit 170 may be stored instead of the typical part phoneme sequence and the fixed part prosody pattern.
【0217】なお、実施の形態1〜4において、非定型
部韻律データベース171は音素列モーラ数、アクセン
ト、文中での位置、直前直後のポーズの有無および時間
長、直前直後のアクセント句のアクセント型と韻律情報
を格納するとしたが、これ以外に品詞列、文節属性、係
り受け、プロミネンス等を格納するあるいは上記のうち
韻律情報以外に少なくとも1つを格納すればよい。
In the first to fourth embodiments, the atypical part prosody database 171 stores the number of phonetic string mora, the accent, the position in the sentence, the presence / absence and time length of the pause immediately before and immediately after, the accent type of the accent phrase immediately before and immediately after. And the prosody information is stored, but it is sufficient to store the part-of-speech sequence, the phrase attribute, the dependency, the prominence, etc., or to store at least one of the above in addition to the prosody information.
【0218】なお、実施の形態1、2、3において、入
力は単一の信号としたが実施の形態4のように複数の入
力信号を受け付けるものとしてもよい。
In the first, second, and third embodiments, the input is a single signal. However, as in the fourth embodiment, a plurality of input signals may be received.
【0219】なお、実施の形態4において、入力は複数
の信号としたが単一の入力信号を受け付けるものとして
よい。
In the fourth embodiment, a plurality of signals are input, but a single signal may be received.
【0220】なお、実施の形態1において入力はテキス
トとしたが、テキスト以外の音声、音、画像、振動、加
速度、温度、張力等のいずれかあるいはそれらの組み合
わせであってもよい。
[0220] In the first embodiment, the input is text, but any of voice, sound, image, vibration, acceleration, temperature, tension and the like other than text may be used or a combination thereof.
【0221】なお、実施の形態2において入力は音声と
したが、テキスト、あるいは音声とテキストの組み合わ
せであってもよい。
In the second embodiment, the input is voice, but it may be text, or a combination of voice and text.
【0222】なお、実施の形態3において入力は画像と
したが、それ以外の音、振動、加速度、温度、張力など
のいずれかあるいはその組み合わせであってもより。
Although the input is an image in the third embodiment, any other sound, vibration, acceleration, temperature, tension, or the like, or a combination thereof may be used.
【0223】なお、実施の形態4において入力は音声と
画像としたが、それ以外の音、振動、加速度、温度、張
力等のいずれかあるいはその組み合わせであってもよ
い。
In the fourth embodiment, the input is a voice and an image, but any other sound, vibration, acceleration, temperature, tension, or the like, or a combination thereof may be used.
【0224】なお、実施の形態2において英語を日本語
に変換するものとしたがそれ以外の言語であってもよ
い。
In the second embodiment, English is converted to Japanese, but other languages may be used.
【0225】なお、実施の形態2において入力音声の言
語を単一の言語としたが、自動あるいは使用者の選択に
より複数言語を切り替えるものとしてもよい。
In the second embodiment, the language of the input voice is a single language, but a plurality of languages may be switched automatically or by a user's selection.
【0226】なお、実施の形態2において出力音声の言
語を単一の言語としたが、使用者の選択により複数言語
を切り替えるものとしてもよい。
In the second embodiment, the language of the output voice is a single language, but a plurality of languages may be switched by the user's selection.
【0227】このように本実施の形態によれば、テキス
ト、音声、画像その他の自由な入力に対し、入力信号の
意味を解釈し標準文型による言語表現に変換することで
広範なメディア、モダリティから音声への変換および言
語変換を可能にし、かつ高品質な音声で情報を提供する
ことが出来る。
As described above, according to the present embodiment, the meaning of an input signal is interpreted and converted into a linguistic expression based on a standard sentence pattern for a free input such as a text, a voice, an image, etc. Conversion to voice and language conversion are enabled, and information can be provided in high-quality voice.
【0228】(実施の形態5)図1は、本発明の実施の
形態5における音声による情報提供システムの構成を示
す機能ブロック図であるる。図20に本発明の実施の形
態5における音声による情報提供システムの動作を示す
流れ図を示す。
(Embodiment 5) FIG. 1 is a functional block diagram showing a configuration of an information providing system using voice according to Embodiment 5 of the present invention. FIG. 20 is a flowchart showing the operation of the information providing system using voice according to Embodiment 5 of the present invention.
【0229】実施の形態5の音声による情報提供システ
ムの構成は実施の形態1と同様である。すなわち、図1
において110はテキストを入力するテキスト入力部で
ある。120は読み、品詞等形態素解析に必要な情報を
格納し、かつ、重要語として取り扱うべき形態素には重
要語フラグと意味タグを格納した重要語情報付き辞書で
ある。121は重要語情報付き辞書120の重要語に対
応する意味タグを格納した意味クラスデータベースであ
る。130は重要語情報付き辞書120を参照して入力
テキストの形態素解析および重要語抽出を行い、抽出し
た重要語に意味タグを付与する重要語抽出部である。1
22は相互に関連する意味タグを組にした意味タグセッ
トを格納した依存関係データベースであり、各意味タグ
セットに対応する標準文型データは標準文型データベー
ス140に格納されている。132は重要語抽出部13
0から出力された意味タグ列と依存関係データベース1
22に格納されている各意味タグセットとの一致度を計
算する依存関係分析部である。140は標準文型ごとの
意味タグ列、定型部音素列、定型部韻律パタン、非定型
部韻律パタンの調整パラメータを格納する標準文型デー
タベースである。150は意味タグ列を用いて標準文型
データベースを検索する標準文型検索部である。160
は非定型部に当たる入力の表音記号列を生成する非定型
部生成部である。170は音声合成部である。180は
音声波形を出力する出力部である。音声合成170は音
素列、モーラ数、アクセント等のアクセント句属性と韻
律情報を格納した非定型部韻律データベース171と、
非定型部韻律データベース171を参照して非定型部の
韻律情報を抽出し、標準文型検索部150で抽出された
定型部韻律情報と接続する韻律制御部172と、波形生
成ユニットを格納した音声素変データベース173と音
声素変データベース173に格納された音声素変を用い
て韻律制御部172より出力される韻律情報に基づいて
音声波形を生成する波形生成部174を含む。
The configuration of the information providing system using voice according to the fifth embodiment is the same as that of the first embodiment. That is, FIG.
Reference numeral 110 denotes a text input unit for inputting text. Reference numeral 120 denotes a dictionary with important word information that stores information necessary for morphological analysis such as reading and part-of-speech, and stores an important word flag and a meaning tag for morphemes to be treated as important words. Reference numeral 121 denotes a semantic class database that stores semantic tags corresponding to important words in the dictionary 120 with important word information. Reference numeral 130 denotes an important word extraction unit that performs morphological analysis and extraction of important words of the input text with reference to the dictionary 120 with important word information, and adds a meaning tag to the extracted important words. 1
Reference numeral 22 denotes a dependency database that stores semantic tag sets each having a set of mutually related semantic tags. Standard sentence pattern data corresponding to each semantic tag set is stored in the standard sentence pattern database 140. 132 is an important word extraction unit 13
Meaning tag string output from 0 and dependency database 1
A dependency analysis unit that calculates the degree of coincidence with each semantic tag set stored in 22. Reference numeral 140 denotes a standard sentence pattern database that stores adjustment parameters for a semantic tag string, a fixed part phoneme string, a fixed part prosody pattern, and an atypical part prosody pattern for each standard sentence pattern. Reference numeral 150 denotes a standard sentence pattern search unit that searches the standard sentence pattern database using the semantic tag string. 160
Is an atypical part generator for generating an input phonetic symbol string corresponding to the atypical part. 170 is a speech synthesis unit. Reference numeral 180 denotes an output unit that outputs an audio waveform. The speech synthesis 170 includes an atypical part prosody database 171 that stores accent phrase attributes such as phoneme strings, the number of mora, and accents, and prosody information.
A prosodic control unit 172 for extracting prosodic information of the atypical part with reference to the atypical part prosody database 171 and connecting to the prosodic information extracted by the standard sentence pattern search unit 150; It includes a variation database 173 and a waveform generation unit 174 that generates a speech waveform based on the prosody information output from the prosody control unit 172 using the phoneme variations stored in the phoneme variation database 173.
【0230】以上のように構成された音声による情報提
供システムの動作を図20に従って説明する。
[0230] The operation of the information providing system using speech configured as described above will be described with reference to FIG.
【0231】まず、本実施の形態の音声による情報提供
システムは、実施の形態1と同様にして音声による情報
提供を行う前に、重要語情報付き辞書120と、意味ク
ラスデータベース121と、依存関係データベース12
2と、標準文型データベース140とを予め用意してお
くものとする。
First, the information providing system using voice according to the present embodiment provides a dictionary 120 with important word information, a semantic class database 121, Database 12
2 and a standard sentence pattern database 140 are prepared in advance.
【0232】図5に重要語情報付き辞書120の例を示
し、図6に意味クラスデータべース121の例を示す。
これらについては実施の形態1で詳細に説明した。ま
た、図22の(a)に標準文型データベース140の例
を示し、図22の(b)に依存関係データベース122
の例を示す。図22の(a)に示す標準文型データベー
ス140は、実施の形態1で説明したものと、一番目の
標準文型が異なっている。また、図22の(b)に示す
依存関係データベース122は実施の形態1で説明した
ものと一番目の意味タグセットが異なっている、。それ
以外は実施の形態1と同様である。
FIG. 5 shows an example of the dictionary 120 with important word information, and FIG. 6 shows an example of the semantic class database 121.
These have been described in detail in the first embodiment. FIG. 22A shows an example of the standard sentence pattern database 140, and FIG.
Here is an example. The standard sentence pattern database 140 shown in FIG. 22A differs from that described in the first embodiment in the first standard sentence pattern. Further, the dependency relationship database 122 shown in FIG. 22B differs from that described in the first embodiment in the first meaning tag set. Otherwise, the configuration is the same as that of the first embodiment.
【0233】このような重要語情報付き辞書120と、
意味クラスデータベース121と、依存関係データベー
ス122と、標準文型データベース140とが予め用意
されているとする。
[0233] Such a dictionary with important word information 120,
It is assumed that a semantic class database 121, a dependency relationship database 122, and a standard sentence pattern database 140 are prepared in advance.
【0234】次に、情報を音声で提供する際の動作を説
明する。
Next, the operation of providing information by voice will be described.
【0235】テキスト入力部110は、処理するべきテ
キストデータを受け付け(ステップ301)、重要語抽
出部131は、重要語情報付き辞書120を参照して入
力されたテキストデータを形態素解析し、重要語フラグ
のある形態素を抽出し、構文単位ごとに意味タグおよび
読み、品詞等の言語情報を付与する(ステップ30
2)。
The text input unit 110 receives text data to be processed (step 301), and the important word extraction unit 131 performs morphological analysis on the input text data with reference to the dictionary 120 with important word information, and A morpheme having a flag is extracted, and linguistic information such as a semantic tag, a reading, and a part of speech is added for each syntax unit (step 30).
2).
【0236】このようなステップ302の動作を図21
を用いて説明する。入力テキストが入力テキスト50
0、すなわち「救急車がサイレンを鳴らして通貨してい
った。」であるとする。入力テキスト500は、本来
「通過」と記載すべき個所が入力誤りのため「通貨」と
記載されている。このテキストデータを形態素解析し
て、読み、品詞等の言語情報を付与し、重要語情報付き
辞書120中に重要語フラグが付けられていた形態素を
重要語として抽出する。図21の重要語抽出結果501
は、このようにして抽出された重要語である。
The operation of step 302 is shown in FIG.
This will be described with reference to FIG. Input text is input text 50
0, that is, "an ambulance rang a siren and made currency." In the input text 500, a part that should be described as “pass” is described as “currency” due to an input error. The text data is subjected to morphological analysis to add linguistic information such as reading and part-of-speech, and a morpheme having an important word flag in the dictionary with important word information 120 is extracted as an important word. Keyword extraction result 501 in FIG. 21
Is an important word extracted in this way.
【0237】さらに、重要語抽出部130は、意味クラ
スデータベース121を利用して、形態素解析により得
られる構文情報から重要語を含む構文単位を意味タグに
入れ替える。このように言語情報が付与され、意味タグ
に入れ替えられた結果、意味タグ付与結果502のよう
になる。本実施の形態では、構文単位として文節を用い
た。すなわち、「救急車が」には言語情報と意味タグとし
て「一般名詞:車両、主語」が付与され、「サイレン
を」には言語情報と意味タグとして「一般名詞:音響・
警告、述語」が付与され、「鳴らして」には言語情報と
意味タグとして「動詞:音出力、述語」が付与され、「通
貨」には言語情報と意味タグとして「一般名詞:金銭・
目的語」が付与され、「していった。」には言語情報と
意味タグとして「動詞:一般、述語」が付与される。
Further, the important word extraction unit 130 uses the semantic class database 121 to replace syntactic units including important words with semantic tags from syntactic information obtained by morphological analysis. As a result of the linguistic information being added in this way and being replaced with a meaning tag, the result becomes a meaning tag addition result 502. In the present embodiment, a phrase is used as a syntax unit. That is, "general noun: vehicle, subject" is given as linguistic information and a semantic tag to "ambulance", and "general noun: sound /
"Warning, predicate" is given, "verb" is given linguistic information and a semantic tag "verb: sound output, predicate", and "currency" is given linguistic information and a semantic tag "generic noun: money /
"Object" is given, and "Verb: general, predicate" is given as linguistic information and a semantic tag to "I did it."
【0238】次に依存関係分析部132は抽出された重
要語の中で重要語どうしの関連性を分析する(ステップ
303)。さらに依存関係分析部132において重要語
どうしの関連性が分析可能か否かを判断する(ステップ
304)。重要語どうしの関連が分析不可能で、矛盾す
る重要語を排除することができない場合、使用者に警告
を出力してプログラムを終了する(ステップ313)。
ステップ304において他の重要語と無関係あるいは矛
盾する重要語を入力誤りと判断して除外できる場合は、
依存関係分析部132は入力の意味を表す標準文型検索
が可能な意味タグセットを出力する。
Next, the dependency analysis unit 132 analyzes the relevance of the important words among the extracted important words (step 303). Further, it is determined whether or not the relationship between the important words can be analyzed by the dependency analysis unit 132 (step 304). If the relationship between the important words cannot be analyzed and contradictory important words cannot be excluded, a warning is output to the user and the program is terminated (step 313).
If it is determined in step 304 that an important word that is irrelevant or inconsistent with another important word can be determined as an input error and excluded,
The dependency analysis unit 132 outputs a semantic tag set capable of performing a standard sentence pattern search representing the meaning of the input.
【0239】このようなステップ303およびステップ
304の動作を図21を用いて説明する。重要語抽出結
果501の「救急車」と「サイレン」、「サイレン」と「鳴ら
す」にはそれぞれ高い関係性が分析され、「する」は
「救急車」「サイレン」「通貨」のいずれとも弱い関係性が
分析され、「通貨」は「救急車」「サイレン」「鳴らす」のい
ずれとも関係が無いと分析される。これらの分析結果よ
り「通貨」は入力テキスト全体の意味を特定する上で不適
切な部分として除外し、意味タグセット503のような
標準文型検索が可能な意味タグセットを出力する。重要
語の意味と関連性による入力誤りの除外は例えば特願2
001−65637の方法による。
The operation of steps 303 and 304 will be described with reference to FIG. The key word extraction result 501 has a high relationship between "Ambulance" and "Siren" and "Siren" and "Ring", and "Yes" has a weak relationship with any of "Ambulance", "Siren" and "Currency". Is analyzed, and it is analyzed that "currency" is not related to any of "ambulance", "siren" and "ring". From these analysis results, “currency” is excluded as an inappropriate part in specifying the meaning of the entire input text, and a semantic tag set such as a semantic tag set 503 that can be searched by a standard sentence pattern is output. For example, Japanese Patent Application 2
001-65637.
【0240】標準文型検索部150は、依存関係分析部
から出力された意味タグセットを用いて標準文型データ
ベース140を検索し(ステップ305)、入力テキスト
を特定の標準文型にマッピングし、マッピングされた標
準文型の定型部の音素列と韻律情報を抽出する(ステッ
プ306)。
The standard sentence pattern search unit 150 searches the standard sentence pattern database 140 using the semantic tag set output from the dependency analysis unit (step 305), maps the input text to a specific standard sentence pattern, and performs mapping. The phoneme sequence and prosody information of the standard part of the standard sentence pattern are extracted (step 306).
【0241】このようなステップ305および306の
動作を図21を用いて説明する。依存関係分析部132
が作成した意味タグの組み合わせ503と共通の意味タ
グを含む標準文型を検索し、その結果選択された標準文
型504のような標準文型が選択される。意味タグセッ
トを標準文型へマッピングする方法については例えば特
願2001−65637の方法による。
The operation of steps 305 and 306 will be described with reference to FIG. Dependency analysis unit 132
Is searched for a standard sentence pattern including a semantic tag that is common to the combination 503 of the created meaning tags, and a standard sentence pattern such as the selected standard sentence pattern 504 is selected as a result. The method of mapping the semantic tag set to the standard sentence pattern is based on, for example, the method of Japanese Patent Application No. 2001-65637.
【0242】つまり、ステップ303から306までの
動作を特願2001−65637の方法に従って行うと
以下のようになる。
That is, when the operations of steps 303 to 306 are performed according to the method of Japanese Patent Application No. 2001-65637, the following operations are performed.
【0243】まず、依存関係分析部132は、意味タグ
付与結果502の各意味タグを2つずつ組にして意味タ
グの組み合わせ503に示すような意味タグの組み合わ
せを作成する。意味タグ付与結果502には、意味タグ
が5個あり、これら5個の意味タグの可能な組みの総数
は10になる。意味タグの組み合わせ503は10個の
意味タグの組から構成されている。このように意味タグ
付与結果502に含まれる意味タグのすべての組を作成
して意味タグの組み合わせ503とする。
First, the dependency analysis unit 132 creates a combination of meaning tags as shown in a combination of meaning tags 503 by combining each meaning tag of the result 502 of meaning tag assignment into pairs. There are five meaning tags in the meaning tag assignment result 502, and the total number of possible pairs of these five meaning tags is 10. The combination of meaning tags 503 is composed of a set of ten meaning tags. In this way, all the sets of the meaning tags included in the result 502 of the meaning tag assignment are created to be the combination 503 of the meaning tags.
【0244】次に、依存関係分析部132は、意味タグ
の組み合わせ503と依存関係データベース122の意
味タグセットとの一致度を計算する。図22の(b)の
例では、まず、意味タグセットの「(車両→音響・警
告)(音響・警告→音出力)(車両→移動)」と意味タ
グの組み合わせ503との一致度を計算する。
Next, the dependency analysis unit 132 calculates the degree of coincidence between the combination 503 of the meaning tags and the meaning tag set in the dependency database 122. In the example of FIG. 22B, first, the degree of coincidence between the meaning tag set “(vehicle → sound / warning) (sound / warning → sound output) (vehicle → movement)” and the meaning tag combination 503 is calculated. I do.
【0245】まず、意味タグセットの一番目の意味タグ
の組である(車両→音響・警告)について調べる。そう
すると、一番目の意味タグの組と一致する意味タグの組
が意味タグの組み合わせ503に存在する。次に、意味
タグセットの二番目の意味タグの組である(音響・警告
→音出力)について調べる。そうすると、二番目の意味
タグの組と一致する意味タグの組が意味タグの組み合わ
せ503に存在する。さらに、意味タグセットの三番目
の意味タグの組である(車両→移動)について調べる。
そうすると、三番目の意味タグの組と一致する意味タグ
の組が意味タグの組み合わせ503の中には存在しな
い。従って一番目の意味タグセットの一致度は2にな
る。
First, the first meaning tag set of the meaning tag set (vehicle → sound / warning) is examined. Then, a semantic tag set that matches the first semantic tag set exists in the semantic tag combination 503. Next, the second meaning tag set of the meaning tag set (sound / warning → sound output) is examined. Then, a set of semantic tags that match the second set of semantic tags exists in the semantic tag combination 503. Further, the third meaning tag set of the meaning tag set (vehicle → movement) is examined.
Then, there is no semantic tag pair that matches the third semantic tag pair in the semantic tag combination 503. Therefore, the matching degree of the first meaning tag set is 2.
【0246】同様に2番目の意味タグセットの意味タグ
の組である(車両→移動)について調べる。そうする
と、この意味タグの組と一致する意味タグの組が意味タ
グの組み合わせ503には存在しない。従って、2番目
の意味タグセットの一致度は0になる。同様にして、図
22の(b)の3番目以後の意味タグセットの一致度も
0になる。依存関係分析部132は、このように一致度
を計算する。
[0246] Similarly, a second set of semantic tags of the second semantic tag set (vehicle → movement) is examined. Then, there is no meaning tag set that matches the meaning tag set in the meaning tag combination 503. Therefore, the degree of coincidence of the second meaning tag set is 0. Similarly, the degree of coincidence of the third and subsequent semantic tag sets in FIG. The dependency analysis unit 132 calculates the degree of coincidence in this way.
【0247】標準文型検索部150は、依存関係分析部
132から一致度が通知されると、依存関係データベー
ス122の意味タグセットのうち最も一致度の高い意味
タグセットに対応する標準文型を標準文型データベース
140から選択する。上記の例では、意味タグセットの
「(車両→音響・警告)(音響・警告→音出力)(車両
→移動)」が最も一致度が高いので、この意味タグセッ
トに対応する標準文型である選択された標準文型504
すなわち、「[車両:主語]が[音響・警告:目的語]
を[音出力:述語1]て[移動:述語2]」を選択す
る。
When the degree of coincidence is notified from the dependency analysis section 132, the standard sentence pattern search section 150 converts the standard sentence pattern corresponding to the highest matching semantic tag set in the dependency database 122 into the standard sentence pattern. Select from the database 140. In the above example, since the semantic tag set “(vehicle → sound / warning) (sound / warning → sound output) (vehicle → movement)” has the highest matching degree, it is a standard sentence pattern corresponding to this semantic tag set. Selected standard sentence pattern 504
That is, "[vehicle: subject] is [sound / warning: object]
To [sound output: predicate 1] and [move: predicate 2].
【0248】次に、標準文型検索部150は、最も一致
度の高い意味タグセットである「(車両→音響・警告)
(音響・警告→音出力)(車両→移動)」の意味タグの
組のうち、意味タグの組み合わせ503の意味タグの組
に一致するものがなかった意味タグの組に属する意味タ
グで、意味タグセットの組み合わせ503の意味タグの
組に一致するものがあった方の、意味タグの組に含まれ
ていない意味タグについては、選択された標準文型50
4から取り除く。このような意味タグとして、「移動」
が取り除かれる。このようにして入力誤りを除外する。
Next, the standard sentence pattern search unit 150 determines that the semantic tag set having the highest matching degree is “(vehicle → sound / warning).
(Sound / warning → sound output) (vehicle → movement) ”, meaning tags belonging to the meaning tag group that did not match the meaning tag set of the meaning tag combination 503. For the semantic tag that is not included in the semantic tag set, whichever matches the semantic tag set of the tag set combination 503, the selected standard sentence pattern 50
Remove from 4. As such a semantic tag, "move"
Is removed. In this way, input errors are excluded.
【0249】従って、標準文型検索部150は、選択さ
れた標準文型504から意味タグの「移動」を取り除い
て「[車両:主語]が[音響・警告:目的語]を[音出
力:述語1]て」すなわち入力誤りが除外された標準文
型504aを得る。
Therefore, the standard sentence pattern search unit 150 removes the meaning tag “move” from the selected standard sentence pattern 504 and “[vehicle: subject] changes [sound / warning: object] to [sound output: predicate 1]. ], That is, a standard sentence pattern 504a from which input errors have been excluded is obtained.
【0250】そして、標準文型検索部150は、選択さ
れた標準文型504の定型部の音素列と韻律情報を抽出
する。
Then, the standard sentence pattern search unit 150 extracts the phoneme sequence and the prosody information of the fixed part of the selected standard sentence pattern 504.
【0251】非定型部生成部160はステップ305で
選択された標準文型504の非定型部属性とステップ3
04で入力誤りとされなかった重要語に付与された言語
情報を比較し、ステップ302で抽出された重要語から
非定型部にあたる言葉を生成する(ステップ307)。
The irregular-form part generation unit 160 determines the irregular-form part attribute of the standard sentence pattern 504 selected in step 305 and
The linguistic information assigned to the important words that were not input errors in step 04 is compared, and words corresponding to the unfixed part are generated from the important words extracted in step 302 (step 307).
【0252】ステップ307の動作を図21を用いて説
明する。標準文型検索部150により選択された標準文
型504の非定型部にステップ304で除外されなかっ
た重要語をあてはめ、対応する重要語の無い非定型部に
は当該の標準文型で頻出する語を当てはめる。
The operation of step 307 will be described with reference to FIG. An important word that is not excluded in step 304 is applied to an unfixed part of the standard sentence pattern 504 selected by the standard sentence pattern search unit 150, and a word that frequently appears in the standard sentence pattern is applied to an unfixed part having no corresponding important word. .
【0253】すなわち、入力誤りが除外された標準文型
504aで除外されている意味タグの「移動」に対応す
る重要語は存在しないので、意味タグの「移動」で頻出
する語である「走る」を当てはめる。このようにして、
標準文型505への当てはめ505を得る。
That is, since there is no key word corresponding to the “movement” of the semantic tag excluded in the standard sentence pattern 504a from which the input error has been excluded, the word “run” which frequently appears in the “movement” of the semantic tag. Apply In this way,
The fit 505 to the standard sentence pattern 505 is obtained.
【0254】韻律制御部172はステップ307で生成
された非定型部の音素列、モーラ数、アクセントと、非
定型部の文中での位置、非定型部と定型部の間のポーズ
の有無および時間長、及び非定型部に隣接する定型部の
アクセント型のうちの少なくとも1つを用いて非定型部
韻律データベース171を検索し(ステップ308)、
非定型部の韻律情報をアクセント句単位で抽出する(ス
テップ309)。
The prosody control unit 172 calculates the phoneme sequence, mora number, and accent of the atypical part generated in step 307, the position in the sentence of the atypical part, the presence / absence of pause between the atypical part and the standard part, and the time. The non-standard part prosody database 171 is searched using at least one of the length and the accent type of the standard part adjacent to the non-standard part (step 308),
The prosody information of the atypical part is extracted for each accent phrase (step 309).
【0255】さらに韻律制御部172はステップ306
でマッピングされた標準文型の非定型部韻律調整パラメ
ータに基づいてステップ308で抽出された非定型部の
韻律情報を調整し、ステップ306で抽出された定型部
の韻律情報と接続する。調整は例えば特願2000−1
63807号に記載のように行う(ステップ310)。
Further, the prosody control unit 172 determines in step 306
The prosodic information of the atypical part extracted in step 308 is adjusted based on the standard sentence pattern atypical part prosody adjustment parameter mapped in step 308, and connected to the prosodic information of the fixed part extracted in step 306. The adjustment is made, for example, in Japanese Patent Application 2000-1.
This is performed as described in No. 63807 (step 310).
【0256】波形生成部174はステップ306で抽出
された定型部の音素列とステップ307で生成された非
定型部の音素列およびステップ310で生成された韻律
情報に基づき音声素変データベース173に格納された
音声素変を利用して音声波形を生成する(ステップ31
1)。
The waveform generator 174 stores the phoneme sequence of the fixed part extracted in step 306, the phoneme string of the non-standard part generated in step 307, and the prosodic information generated in step 310 in the phoneme variation database 173. A speech waveform is generated using the obtained phoneme variation (step 31).
1).
【0257】ステップ311で生成された音声波形を出
力部180より音声として出力する(ステップ31
2)。
The sound waveform generated in step 311 is output as sound from output section 180 (step 31).
2).
【0258】このようにして、「救急車がサイレンを鳴
らして走った」という音声が出力される。
In this way, the sound that "the ambulance ran with the siren ringing" is output.
【0259】なお、本実施の形態では、入力誤りが除外
された場合、除外された意味タグに頻出する語を当ては
めるとして説明したが、入力誤りが除外された標準文型
504aに含まれる定型部と非定型部のみの音声合成を
おこなっても構わない。このようにすれば、上記の例で
は、「救急車がサイレンを鳴らして」という音声が出力
されることになる。
In the present embodiment, when an input error is excluded, a word that frequently appears is applied to the excluded semantic tag. However, the fixed form part included in the standard sentence pattern 504a from which the input error is excluded is used. Speech synthesis of only the atypical part may be performed. By doing so, in the above example, a voice saying "an ambulance rings a siren" is output.
【0260】以上のように、本実施の形態の音声による
情報提供システムによれば入力テキストの入力誤りを除
外して意味を抽出し、その意味が同等である標準文型に
変換して音声を合成することにより、入力誤りや省略、
あるいは単語の羅列のような不完全なテキストに対し
て、文として完結した言語表現でかつ自然性の高い合成
音声を実現し、自然な音声で正確に情報を提供すること
ができる。
As described above, according to the speech information providing system of the present embodiment, the meaning is extracted by excluding the input error of the input text, and converted into a standard sentence pattern having the same meaning to synthesize the speech. By doing so, you can make mistakes and omissions,
Alternatively, for an incomplete text such as a list of words, it is possible to realize a synthesized speech with a complete linguistic expression and a high naturalness as a sentence, and accurately provide information with a natural speech.
【0261】(実施の形態6)図23は、本発明の実施
の形態6における音声による情報提供システムの構成を
示す機能ブロック図である。図24に本発明の実施の形
態2における音声による情報提供システムの動作を示す
流れ図を示す。
(Embodiment 6) FIG. 23 is a functional block diagram showing a configuration of an information providing system using voice according to Embodiment 6 of the present invention. FIG. 24 is a flowchart showing the operation of the information providing system using voice according to Embodiment 2 of the present invention.
【0262】図4において図1と同一な部分については
同一符号を付しているので説明を省略し、異なった部分
についてのみ説明する。実施の形態6の図23は図1の
構成のテキスト入力部110が音声入力部210に置き
換わり、重要語抽出部130が重要語情報付き辞書12
0と特徴量データを参照して入力音声を認識し、認識結
果を重要語フラグの付いた形態素列として出力する音声
認識および重要語抽出部230に置き換わった以外は実
施の形態1の構成と同一な構成である。以上のように構
成された音声による情報提供システムの動作を図5に従
って説明する。
In FIG. 4, the same portions as those in FIG. 1 are denoted by the same reference numerals, and the description thereof will be omitted. Only different portions will be described. In FIG. 23 of the sixth embodiment, the text input unit 110 having the configuration of FIG.
The configuration is the same as that of the first embodiment except that the input speech is recognized with reference to 0 and the feature data, and the recognition result is replaced by a speech recognition and important word extraction unit 230 that outputs a recognition result as a morpheme sequence with an important word flag. Configuration. The operation of the voice information providing system configured as described above will be described with reference to FIG.
【0263】音声入力部210は、処理するべき音声波
形を受け付け(ステップ321)、音声認識および重要
語抽出部230は重要語情報付き辞書120と特徴量デ
ータを参照して入力された音声を認識し、形態素列に変
換すると同時に重要語の抽出し、重要語フラグの付いた
形態素列として音声認識結果を生成する(ステップ32
2)。さらに音声認識および重要語抽出部230は、形
態素列を品詞等言語情報を利用して構文単位ごとにまと
め、意味タグおよび読み、品詞等の言語情報を付与する
(ステップ323)。
The voice input unit 210 receives a voice waveform to be processed (step 321), and the voice recognition and important word extraction unit 230 recognizes the input voice by referring to the dictionary with important word information 120 and the feature data. Then, at the same time as converting to a morpheme string, an important word is extracted, and a speech recognition result is generated as a morpheme string with an important word flag (step 32).
2). Further, the voice recognition and important word extraction unit 230 uses the linguistic information such as part-of-speech to group the morphological strings into syntactic units, and adds linguistic information such as semantic tags, readings, and parts of speech (step 323).
【0264】このようなステップ322およびステップ
323の動作を図25を用いて説明する。入力音声が入
力音声600、すなわち「ココアを、えーと、冷たいの
でお願いします。」であるとする。この音声データを音
声認識した結果は例えば音声認識結果601のような形
態素列になる。重要語情報付き辞書120において重要
語フラグが付けられていた形態素は重要語フラグ602
のように「ココア」「江藤」「冷たい」「お願い」であると
する。意味クラデータベース121を参照して、重要語
を含む構文単位に意味タグを付与すると、意味タグ付与
結果603のようになる。本実施の形態では、構文単位
として文節を用いた。すなわち、「ココアを」には意味タ
グと言語情報として「一般名詞:飲み物、目的語」が付
与され、「江藤」には意味タグと言語情報として「固有
名詞:姓、主語」が付与され、「冷たい」には意味タグ
と言語情報として「形容詞:温度、動詞修飾・原因」が付
与され、「お願いします」には意味タグと言語情報とし
て「サ変動詞:要求・丁寧、述語」が付与される。
The operation of steps 322 and 323 will be described with reference to FIG. It is assumed that the input voice is the input voice 600, that is, "Please, cocoa, um, it's cold." The result of voice recognition of the voice data is a morpheme sequence such as a voice recognition result 601. The morpheme to which the important word flag has been attached in the important word information dictionary 120 is the important word flag 602.
"Cocoa", "Eto", "Cold" and "Please". When a semantic tag is assigned to a syntax unit including an important word with reference to the semantic class database 121, a semantic tag assignment result 603 is obtained. In the present embodiment, a phrase is used as a syntax unit. In other words, "Cocoa" is given a "generic noun: drink, object" as a semantic tag and language information, and "Eto" is given a "proper noun: surname, subject" as a semantic tag and language information, "Cold" is given a semantic tag and linguistic information "adjective: temperature, verb modification / cause", and "Please" is given a semantic tag and linguistic information "sa variant: request / polite, predicate" Is done.
【0265】次に依存関係分析部132は抽出された重
要語の中で重要語どうしの関連性を分析する(ステップ
324)。さらに依存関係分析部132において重要語
どうしの関連性が分析可能か否かを判断する(ステップ
304)。
Next, the dependency analysis unit 132 analyzes the relevance of the important words among the extracted important words (step 324). Further, it is determined whether or not the relationship between the important words can be analyzed by the dependency analysis unit 132 (step 304).
【0266】重要語どうしの関連が分析不可能で、矛盾
する重要語を排除することができない場合、使用者に警
告を出力してプログラムを終了する(ステップ31
3)。ステップ304において他の重要語と無関係ある
いは矛盾する重要語を認識誤りあるいは不要語の挿入と
判断して除外できる場合は、依存関係分析部132は入
力の意味を表す標準文型検索が可能な意味タグセットを
出力する。
If the relationship between important words cannot be analyzed and contradictory important words cannot be excluded, a warning is output to the user and the program is terminated (step 31).
3). If it is determined in step 304 that an important word that is irrelevant or inconsistent with another important word is determined to be a recognition error or an unnecessary word is inserted and can be excluded, the dependency analysis unit 132 performs a standard sentence pattern search that indicates the meaning of the input. Output the set.
【0267】このようなステップ325およびステップ
304の動作を図25を用いて説明する。重要語フラグ
602にフラグが付けられた「ココア」と「冷たい」、「コ
コア」と「お願いする」にはそれぞれ高い関係性が分析さ
れ、「江藤」は「ココア」「冷たい」とは関係が無く、
「お願いする」とのみ弱い関係性が分析される。これらの
分析結果より「江藤」は入力テキスト全体の意味を特定す
る上で不適切な部分として除外し、意味タグセット60
4のような標準文型検索が可能な意味タグセットを出力
する。重要語の意味と関連性による入力誤りの除外は例
えば特願2001−65637号に記載の方法による。
すなわち、このような動作の詳細については、実施の形
態5で説明したものと同様である。
The operation of steps 325 and 304 will be described with reference to FIG. A high relationship is analyzed between “cocoa” and “cold” and “cocoa” and “please” with the key word flag 602 flagged, and “Eto” is not related to “cocoa” and “cold”. Without
Weak relationships are analyzed only with "please". From these analysis results, "Eto" is excluded as an inappropriate part in specifying the meaning of the entire input text, and the meaning tag set 60
A semantic tag set capable of standard sentence pattern search such as No. 4 is output. The exclusion of input errors due to the meaning and relevance of important words is performed by, for example, a method described in Japanese Patent Application No. 2001-65637.
That is, details of such an operation are the same as those described in the fifth embodiment.
【0268】標準文型検索部150は、依存関係分析部
132から出力された意味タグセットを用いて標準文型
データベース140を検索し(ステップ305)、入力テ
キストを特定の標準文型にマッピングし、マッピングさ
れた標準文型の定型部の音素列と韻律情報を抽出する
(ステップ306)。
The standard sentence pattern search unit 150 searches the standard sentence pattern database 140 using the semantic tag set output from the dependency analysis unit 132 (step 305), maps the input text to a specific standard sentence pattern, and performs mapping. The phoneme sequence and the prosody information of the fixed part of the standard sentence pattern are extracted (step 306).
【0269】このようなステップ305およびステップ
306の動作を図25を用いて説明する。依存関係分析
部132より出力された意味タグセット604と共通の
意味タグを含む標準文型を検索し、その結果選択された
標準文型605のような標準文型が選択される。意味タ
グセットから標準文型を選択する方法については例えば
特願2001−65637号に記載の方法による。すな
わち、このような動作の詳細については、実施の形態5
で説明したものと同様である。
The operation of steps 305 and 306 will be described with reference to FIG. A standard sentence pattern including a semantic tag common to the semantic tag set 604 output from the dependency analysis unit 132 is searched, and as a result, a standard sentence pattern such as the selected standard sentence pattern 605 is selected. A method of selecting a standard sentence pattern from a semantic tag set is based on, for example, a method described in Japanese Patent Application No. 2001-65637. That is, details of such an operation are described in the fifth embodiment.
This is the same as that described above.
【0270】非定型部生成部160はステップ305で
選択された標準文型の非定型部属性とステップ304で
入力誤りとされなかった重要語に付与された言語情報を
比較し、ステップ322で抽出された重要語から非定型
部にあたる言葉を生成する(ステップ307)。
The non-fixed part generator 160 compares the non-fixed part attribute of the standard sentence pattern selected in step 305 with the linguistic information given to the important words that were not input errors in step 304, and extracted in step 322. Then, a word corresponding to the atypical part is generated from the important word (step 307).
【0271】ステップ307の動作を図6を用いて説明
する。標準文型検索部150により選択された標準文型
605の非定型部にステップ304で除外されなかった
重要語をあてはめる。
The operation of step 307 will be described with reference to FIG. The key words that are not excluded in step 304 are applied to the unfixed part of the standard sentence pattern 605 selected by the standard sentence pattern search unit 150.
【0272】韻律制御部172はステップ307で生成
された非定型部の音素列、モーラ数、アクセントと、非
定型部の文中での位置、非定型部と定型部の間のポーズ
の有無および時間長、及び非定型部に隣接する定型部の
アクセント型の少なくとも1つを用いて非定型部韻律デ
ータベース171を検索し(ステップ308)、非定型
部の韻律情報をアクセント句単位で抽出する(ステップ
309)。
The prosody control unit 172 calculates the phoneme sequence, mora number, and accent of the atypical part generated in step 307, the position in the sentence of the atypical part, the presence / absence of pause between the atypical part and the fixed part, and the time. The non-standard part prosody database 171 is searched using at least one of the length and the accent type of the standard part adjacent to the non-standard part (step 308), and the prosody information of the non-standard part is extracted in accent phrase units (step). 309).
【0273】さらに韻律制御部172はステップ305
で選択された標準文型の非定型部韻律調整パラメータに
基づいてステップ308で抽出された非定型部の韻律情
報を調整し、ステップ305で抽出された定型部の韻律
情報と接続する。調整は例えば上記実施の形態のように
行う(ステップ310)。
Further, the prosody control unit 172 determines in step 305
The prosody information of the atypical part extracted in step 308 is adjusted based on the atypical part prosody adjustment parameter of the standard sentence pattern selected in step, and connected to the prosody information of the fixed part extracted in step 305. The adjustment is performed, for example, as in the above embodiment (step 310).
【0274】波形生成部174はステップ306で抽出
された定型部の音素列とステップ7で生成された非定型
部の音素列およびステップ310で生成された韻律情報
に基づき音声素変データベース173に格納された音声
素変を利用して音声波形を生成する(ステップ31
1)。
The waveform generator 174 stores the phoneme sequence of the fixed part extracted in step 306, the phoneme string of the irregular part generated in step 7, and the prosodic information generated in step 310 in the phoneme variation database 173. A speech waveform is generated using the obtained phoneme variation (step 31).
1).
【0275】ステップ311で生成された音声波形を出
力部180より音声として出力する(ステップ31
2)。
The voice waveform generated in step 311 is output as voice from output section 180 (step 31).
2).
【0276】以上のように、本実施の形態の音声による
情報提供システムによれば入力音声の口語的表現や不要
語挿入、また音声認識誤りを除外して意味を抽出し、そ
の意味が同等である標準文型に変換して音声を合成する
ことにより、不要語の挿入や認識誤りや省略、あるいは
倒置や単語の羅列のような不完全なテキストに対して、
文として完結した言語表現でかつ自然性の高い合成音声
を実現し、自然な音声で正確に情報を提供することがで
きる。
As described above, according to the speech information providing system of the present embodiment, the meaning is extracted by excluding colloquial expressions of input speech, insertion of unnecessary words, and speech recognition errors. By converting to a standard sentence pattern and synthesizing speech, unnecessary words can be inserted, misrecognized or omitted, or incomplete text such as inversion or word list,
It is possible to realize a synthesized speech with a natural expression that is a complete linguistic expression as a sentence, and to accurately provide information with a natural speech.
【0277】なお、実施の形態5および6において、音
声合成は音声素変を接続して行う方式としたが、これ以
外の方式でもよい。
In the fifth and sixth embodiments, speech synthesis is performed by connecting speech elementary variations, but other schemes may be used.
【0278】なお、実施の形態5および6の標準文型デ
ータベース定型部音素列、定型部韻律パタン、非定型部
韻律パタンの調整パラメータを格納するとしたが、定型
部音素列、定型部韻律パタンのかわりに、録音音声を格
納するとしてもよい。
Although the standard sentence pattern database of the fifth and sixth embodiments stores the adjustment parameters of the fixed part phoneme sequence, the fixed part prosody pattern, and the non-fixed part prosody pattern, the standard sentence pattern database is replaced with the fixed part phoneme string and the fixed part prosody pattern. May be stored.
【0279】なお、実施の形態5および6において標準
文型データベースは定型部音素列、定型部韻律パタン、
非定型部韻律パタンの調整パラメータを格納するとした
が、定型部音素列、定型部韻律パタンのかわりに、音声
合成部170での合成方式に合わせたホルマント情報等
パラメータを格納するとしていもよい。
In the fifth and sixth embodiments, the standard sentence pattern database includes a fixed part phoneme sequence, a fixed part prosody pattern,
Although the adjustment parameters of the atypical part prosody pattern are stored, parameters such as formant information according to the synthesis method in the speech synthesis unit 170 may be stored instead of the fixed part phoneme sequence and the fixed part prosody pattern.
【0280】なお、実施の形態5および6において、非
定型部韻律データベース171は音素列、モーラ数、ア
クセント、文中での位置、直前直後のポーズの有無およ
び時間長、直前直後のアクセント句のアクセント型と韻
律情報を格納するとしたが、これ以外に品詞列、文節属
性、係り受け、プロミネンス等を格納するあるいは上記
のうち韻律情報以外に少なくとも1つを格納すればよ
い。
In the fifth and sixth embodiments, the atypical part prosody database 171 stores the phoneme sequence, the number of mora, the accent, the position in the sentence, the presence / absence and time length of the pause immediately before and immediately after, the accent of the accent phrase immediately before and immediately after. Although the type and the prosody information are stored, it is sufficient to store a part of speech string, a phrase attribute, a dependency, prominence, and the like, or to store at least one of the above in addition to the prosody information.
【0281】このように本実施の形態によれば、、任意
のテキストの入力を受け付けるのみでなく、音声、画
像、音響等自由な入力信号を受け付けることが出来、自
然な音声で情報を提供することが出来る。
As described above, according to the present embodiment, not only an arbitrary text input can be received, but also a free input signal such as a voice, an image, and a sound can be received, and information is provided by natural voice. I can do it.
【0282】また、本実施の形態によれば、テキストあ
るいは音声などの自由な入力に対し、入力信号の意味を
解釈し標準文型による言語表現に変換することで広範な
メディア、モダリティから音声への変換および言語変換
を可能にし、かつ高品質な音声で情報を提供することが
できる。
Also, according to the present embodiment, for a free input such as text or voice, the meaning of the input signal is interpreted and converted into a linguistic expression based on a standard sentence pattern, whereby a wide range of media and modalities can be converted to voice. Conversion and language conversion can be performed, and information can be provided in high-quality voice.
【0283】なお、本発明は、上述した本発明の音声に
よる情報提供装置の全部または一部の手段(または、装
置、素子、回路、部等)の機能をコンピュータにより実
行させるためのプログラムであって、コンピュータと協
働して動作するプログラムである。
The present invention is a program for causing a computer to execute the functions of all or some of the means (or the apparatus, the element, the circuit, the unit, etc.) of the above-described audio information providing apparatus of the present invention. A program that operates in cooperation with a computer.
【0284】さらに本発明は、上述した本発明の音声に
よる情報提供方法の全部または一部のステップ(また
は、工程、動作、作用等)の動作をコンピュータにより
実行させるためのプログラムであって、コンピュータと
協働して動作するプログラムである。
Further, the present invention is a program for causing a computer to execute all or some of the steps (or steps, operations, actions, etc.) of the above-described voice information providing method of the present invention. It is a program that works in cooperation with.
【0285】なお、本発明の一部の手段(または、装
置、素子、回路、部等)、本発明の一部のステップ(ま
たは、工程、動作、作用等)とは、それらの複数の手段
またはステップの内の、幾つかの手段またはステップを
意味し、あるいは、一つの手段またはステップの内の、
一部の機能または一部の動作を意味するものである。
Note that some means (or devices, elements, circuits, units, and the like) of the present invention and some steps (or steps, operations, functions, and the like) of the present invention refer to a plurality of these means. Or means of several means or steps of a step, or means of one means or step
It means some functions or some operations.
【0286】また、本発明のプログラムを記録した、コ
ンピュータに読みとり可能な記録媒体も本発明に含まれ
る。
A computer-readable recording medium on which the program of the present invention is recorded is also included in the present invention.
【0287】また、本発明のプログラムの一利用形態
は、コンピュータにより読み取り可能な記録媒体に記録
され、コンピュータと協働して動作する態様であっても
良い。
[0287] Further, one use form of the program of the present invention may be such that the program is recorded on a computer-readable recording medium and operates in cooperation with the computer.
【0288】また、本発明のプログラムの一利用形態
は、伝送媒体中を伝送し、コンピュータにより読みとら
れ、コンピュータと協働して動作する態様であっても良
い。
[0288] One use form of the program of the present invention may be such that the program is transmitted through a transmission medium, read by a computer, and operates in cooperation with the computer.
【0289】また、記録媒体としては、ROM等が含ま
れ、伝送媒体としては、インターネット等の伝送媒体、
光・電波・音波等が含まれる。
The recording medium includes a ROM and the like, and the transmission medium includes a transmission medium such as the Internet,
Light, radio waves, sound waves, etc. are included.
【0290】また、上述した本発明のコンピュータは、
CPU等の純然たるハードウェアに限らず、ファームウ
ェアや、OS、更に周辺機器を含むものであっても良
い。
Also, the computer of the present invention described above
It is not limited to pure hardware such as a CPU, but may include firmware, an OS, and peripheral devices.
【0291】なお、以上説明した様に、本発明の構成
は、ソフトウェア的に実現しても良いし、ハードウェア
的に実現しても良い。
As described above, the configuration of the present invention may be realized by software or hardware.
【0292】[0292]
【発明の効果】以上説明したところから明らかなよう
に、本発明は、自由な入力を受け付けることが出来、し
かも自然な音声で情報を提供することが出来る音声によ
る情報提供装置、音声による情報提供方法、及びプログ
ラムを提供することが出来る。
As is apparent from the above description, the present invention provides a voice information providing apparatus and a voice information providing apparatus capable of accepting free input and providing information in a natural voice. Methods and programs can be provided.
【0293】また、本発明は、自由な入力を受け付ける
ことが出来、その入力に誤りがあったとしても、聴取者
が理解可能な音声を出力することが出来る音声による情
報提供装置、音声による情報提供方法、及びプログラム
を提供することが出来る。
Further, the present invention can provide a speech information providing apparatus capable of accepting a free input and outputting a speech that can be understood by a listener even if the input is erroneous. A providing method and a program can be provided.
【0294】また、本発明は、音声、画像、音響等の非
言語的な入力に対しても理解可能な音声に変換すること
が出来る音声による情報提供装置、音声による情報提供
方法、及びプログラムを提供することが出来る。
The present invention also provides a voice information providing apparatus, a voice information providing method, and a program capable of converting non-verbal input such as voice, image, sound, etc. into a voice that can be understood. Can be provided.
【図面の簡単な説明】[Brief description of the drawings]
【図1】本発明の実施の形態1、5の音声による情報提
供システムのブロック図
FIG. 1 is a block diagram of an information providing system using voice according to Embodiments 1 and 5 of the present invention;
【図2】本発明の実施の形態1の動作を示す流れ図FIG. 2 is a flowchart showing the operation of the first embodiment of the present invention.
【図3】(a)本発明の実施の形態1の韻律情報の接続
方法の例を示す図 (b)本発明の実施の形態1の韻律情報の接続方法の別
の例を示す図
3A is a diagram illustrating an example of a method of connecting prosody information according to the first embodiment of the present invention. FIG. 3B is a diagram illustrating another example of a method of connecting prosody information according to the first embodiment of the present invention.
【図4】本発明の実施の形態1の処理の具体例を示す図FIG. 4 is a diagram showing a specific example of a process according to the first embodiment of the present invention;
【図5】本発明の実施の形態1における重要語情報付き
辞書の例を示す図
FIG. 5 is a diagram showing an example of a dictionary with important word information according to the first embodiment of the present invention.
【図6】本発明の実施の形態1における意味クラスデー
タベースの例を示す図
FIG. 6 is a diagram showing an example of a semantic class database according to the first embodiment of the present invention.
【図7】(a)本発明の実施の形態1における標準文型
データベースの例を示す図 (b)本発明の実施の形態1における依存関係データベ
ースの例を示す図
7A is a diagram illustrating an example of a standard sentence pattern database according to the first embodiment of the present invention; FIG. 7B is a diagram illustrating an example of a dependency database according to the first embodiment of the present invention;
【図8】本発明の実施の形態1の処理の別の具体例を示
す図
FIG. 8 is a diagram showing another specific example of the processing according to the first embodiment of the present invention;
【図9】本発明の実施の形態2における音声による情報
提供システムのブロック図
FIG. 9 is a block diagram of an information providing system using voice according to Embodiment 2 of the present invention;
【図10】本発明の実施の形態2の動作を示す流れ図FIG. 10 is a flowchart showing the operation of the second embodiment of the present invention.
【図11】本発明の実施の形態2における処理の具体例
を示す図
FIG. 11 is a diagram showing a specific example of a process according to the second embodiment of the present invention.
【図12】本発明の実施の形態2における英語重要語情
報付き辞書の例を示す図
FIG. 12 is a diagram showing an example of a dictionary with important English word information according to the second embodiment of the present invention.
【図13】本発明の実施の形態2における英語意味クラ
スデータベースの例を示す図
FIG. 13 is a diagram showing an example of an English meaning class database according to the second embodiment of the present invention.
【図14】(a)本発明の実施の形態2における日本語
標準文型データベースの例を示す図 (b)本発明の実施の形態2における英語依存関係デー
タベースの例を示す図
14A is a diagram illustrating an example of a Japanese standard sentence pattern database according to the second embodiment of the present invention; FIG. 14B is a diagram illustrating an example of an English dependency database according to the second embodiment of the present invention;
【図15】本発明の実施の形態3における音声による情
報提供システムのブロック図
FIG. 15 is a block diagram of an information providing system using voice according to Embodiment 3 of the present invention;
【図16】本発明の実施の形態3の動作を示す流れ図FIG. 16 is a flowchart showing the operation of the third embodiment of the present invention.
【図17】本発明の実施の形態3における処理の具体例
を示す図
FIG. 17 is a diagram showing a specific example of a process according to the third embodiment of the present invention.
【図18】本発明の実施の形態4における音声による情
報提供システムのブロック図
FIG. 18 is a block diagram of a voice information providing system according to a fourth embodiment of the present invention.
【図19】本発明の実施の形態4の動作を示す流れ図FIG. 19 is a flowchart showing the operation of the fourth embodiment of the present invention.
【図20】本発明の実施の形態5の動作を示す流れ図FIG. 20 is a flowchart showing the operation of the fifth embodiment of the present invention.
【図21】本発明の実施の形態5における処理の具体例
を示す図
FIG. 21 is a diagram showing a specific example of a process according to the fifth embodiment of the present invention.
【図22】(a)本発明の実施の形態5における標準文
型データベースの例を示す図 (b)本発明の実施の形態5における依存関係データベ
ースの例を示す図
FIG. 22A shows an example of a standard sentence pattern database according to the fifth embodiment of the present invention; FIG. 22B shows an example of a dependency relation database according to the fifth embodiment of the present invention;
【図23】本発明の実施の形態6における音声による情
報提供システムのブロック図
FIG. 23 is a block diagram of a system for providing information by voice according to a sixth embodiment of the present invention;
【図24】本発明の実施の形態6の動作を示す流れ図FIG. 24 is a flowchart showing the operation of the sixth embodiment of the present invention.
【図25】本発明の実施の形態6における処理の具体例
を示す図
FIG. 25 is a diagram showing a specific example of a process according to the sixth embodiment of the present invention.
【図26】本発明の実施の形態1の変形例の音声による
情報提供システムのブロック図
FIG. 26 is a block diagram of a voice information providing system according to a modification of the first embodiment of the present invention;
【図27】本発明の実施の形態1の変形例の動作を示す
流れ図
FIG. 27 is a flowchart showing an operation of a modification of the first embodiment of the present invention.
【図28】本発明の実施の形態1の変形例の標準文型デ
ータベースの例を示す図
FIG. 28 is a diagram showing an example of a standard sentence pattern database according to a modification of the first embodiment of the present invention;
【符号の説明】[Explanation of symbols]
110 テキスト入力部 120 重要語情報付き辞書 121 意味クラスデータベース 122 依存関係データベース 130 重要語抽出部 132 依存関係分析部 150 標準文型検索部 160 非定型部生成部 170 音声合成部 171 非定型部韻律データベース 172 韻律制御部 173 音声素片データベース 174 波形生成部 180 出力部 210 音声入力部 230 音声認識および重要語抽出部 910 画像認識部 930 意味タグ生成部 950 標準文型検索部 110 Text Input Unit 120 Dictionary with Keyword Information 121 Semantic Class Database 122 Dependency Database 130 Keyword Extraction Unit 132 Dependency Analysis Unit 150 Standard Sentence Type Searching Unit 160 Atypical Part Generating Unit 170 Speech Synthesis Unit 171 Atypical Part Prosodic Database 172 Prosody control unit 173 Speech unit database 174 Waveform generation unit 180 Output unit 210 Speech input unit 230 Speech recognition and important word extraction unit 910 Image recognition unit 930 Meaning tag generation unit 950 Standard sentence pattern search unit

Claims (41)

    【特許請求の範囲】[Claims]
  1. 【請求項1】 入力されてきた文から、所定の基準に基
    づいて全部または一部の単語を抽出し、その抽出した単
    語を予め決められた関連情報を利用して標準単語に入れ
    替え、 前記標準単語を用いて予め用意されている複数の標準文
    型の中から前記入力された文と最も関連する標準文型を
    選択し、 選択された前記標準文型の全部または一部の前記標準単
    語を対応する前記単語に入れ替える解析手段と、 少なくとも選択された前記標準文型に予め付与されてい
    る韻律情報を利用して、その入れ替えられた文の音声合
    成を行う音声合成手段とを備え、 前記関連情報とは、予め決められた前記標準単語にその
    標準単語と関連性のある単語を関連つけたものである音
    声による情報提供装置。
    1. Extracting all or part of words from an input sentence based on a predetermined criterion, replacing the extracted words with standard words using predetermined related information, A standard sentence pattern most relevant to the input sentence is selected from a plurality of standard sentence patterns prepared in advance using words, and the standard words corresponding to all or some of the selected standard sentence patterns are selected. Analysis means for replacing the words, and speech synthesis means for performing speech synthesis of the replaced sentence using at least prosodic information given to the selected standard sentence pattern in advance, and the related information, An audio information providing apparatus which associates a word associated with the standard word with the predetermined standard word.
  2. 【請求項2】 前記所定の基準とは、前記関連情報に現
    れる単語を選ぶことである請求項1記載の音声による情
    報提供装置。
    2. The information providing apparatus according to claim 1, wherein the predetermined criterion is to select a word appearing in the related information.
  3. 【請求項3】 入力されてきた文から、所定の基準に基
    づいて全部または一部の単語を抽出し、その抽出した単
    語を用いて予め用意されている複数の標準文型の中から
    前記入力された文と最も関連する標準文型を選択する解
    析手段と、 少なくとも選択された前記標準文型に予め付与されてい
    る韻律情報を利用して、選択された前記標準文型の音声
    合成を行う音声合成手段とを備え、 前記所定の基準とは、複数の前記標準文型に登録されて
    いる単語のいずれかと一致する単語を選ぶことである音
    声による情報提供装置。
    3. Extracting all or a part of words from an input sentence based on a predetermined criterion, and using the extracted words, the input sentence is selected from a plurality of standard sentence patterns prepared in advance. Analyzing means for selecting a standard sentence pattern most relevant to the sentence, and speech synthesizing means for performing speech synthesis of the selected standard sentence pattern using at least prosody information previously assigned to the selected standard sentence pattern. The information providing apparatus using voice, wherein the predetermined criterion is to select a word that matches one of the words registered in the plurality of standard sentence patterns.
  4. 【請求項4】 入力されてきた第1言語の文から、所定
    の基準に基づいて全部または一部の第1言語の単語を抽
    出し、その抽出した第1言語の単語を予め決められた関
    連情報を利用して第2言語の標準単語に入れ替え、 前記第2言語の標準単語を用いて予め用意されている複
    数の第2言語の標準文型の中から前記入力された文と最
    も関連する第2言語の標準文型を選択し、 選択された前記第2言語の標準文型の全部または一部の
    前記第2言語の標準単語をその第2言語の標準単語に対
    応する前記第1言語の単語に対応する前記第2言語の単
    語に入れ替える解析手段と、 少なくとも選択された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、その入れ替えられた
    文の音声合成を行う音声合成手段とを備え、 前記関連情報とは、予め決められた前記第2言語の標準
    単語にその第2言語の標準単語と関連性のある第1言語
    の単語を関連つけたものである音声による情報提供装
    置。
    4. Extracting all or a part of the first language words from the input first language sentence based on a predetermined criterion, and extracting the extracted first language words into a predetermined related language. The information is replaced with a standard word in the second language using the information, and the standard sentence pattern most relevant to the input sentence is selected from a plurality of standard sentence patterns in the second language prepared in advance using the standard word in the second language. Selecting a standard sentence pattern in two languages, and converting all or a part of the selected standard words in the second language into the words in the first language corresponding to the standard words in the second language; Analysis means for replacing the corresponding sentence with the second language word, and speech synthesis for performing speech synthesis on the replaced sentence using at least prosodic information previously assigned to the selected standard sentence pattern of the second language. Means, and the related information and , The information providing device by speech in which attached related word in the first language in the standard word of a predetermined said second language as the standard word of the second language relevant.
  5. 【請求項5】 入力されてきた第1言語の文から、所定
    の基準に基づいて全部または一部の第1言語の単語を抽
    出し、その抽出した第1言語の単語を予め決められた関
    連情報を利用して第1言語の標準単語に入れ替え、 前記第1言語の標準単語を用いて予め用意されている複
    数の第1言語の標準文型の中から前記入力された文と最
    も関連する第1言語の標準文型を選択し、 選択された前記第1言語の標準文型に対応付けられてい
    る予め決められた第2言語の標準文型を特定し、 その特定された第2言語の標準文型の全部または一部の
    前記第2言語の標準単語をその第2言語の標準単語に対
    応する第1言語の標準単語に対応する入力された第1言
    語の単語を第2言語へ翻訳した単語に入れ替える解析手
    段と、 少なくとも選択された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、その入れ替えられた
    文の音声合成を行う音声合成手段とを備え、 前記関連情報とは、予め決められた前記第1言語の標準
    単語にその第1言語の標準単語と関連性のある第1言語
    の単語を関連つけたものである音声による情報提供装
    置。
    5. Extracting all or part of a first language word from an input first language sentence based on a predetermined criterion, and converting the extracted first language word to a predetermined related word. The information is replaced with a standard word of the first language, and the standard sentence pattern of the first language, which is most relevant to the input sentence, is prepared from a plurality of standard sentence patterns of the first language prepared in advance using the standard word of the first language. A standard sentence pattern of one language is selected, and a predetermined standard sentence pattern of a second language associated with the selected standard sentence pattern of the first language is specified, and a standard sentence pattern of the specified second language is identified. All or some of the standard words in the second language are replaced with words translated from the input first language corresponding to the standard words in the first language corresponding to the standard words in the second language into the second language. Analysis means, at least the selected second word Speech synthesis means for performing speech synthesis of the replaced sentence using prosodic information previously assigned to the standard sentence pattern of the first sentence pattern, wherein the related information is a predetermined standard word of the first language. A speech information providing apparatus in which a first language word related to the first language standard word is associated with the first language word.
  6. 【請求項6】 前記所定の基準とは、前記関連情報に現
    れる第1言語の単語を選ぶことである請求項4または5
    記載の音声による情報提供装置。
    6. The predetermined criterion is to select a word in a first language appearing in the related information.
    Information providing device by voice described.
  7. 【請求項7】 入力されてきた第1言語の文から、所定
    の基準に基づいて全部または一部の第1言語の単語を抽
    出し、その抽出した第1言語の単語に対応する第2言語
    の単語を用いて予め用意されている複数の第2言語の標
    準文型の中から前記入力された文と最も関連する第2言
    語の標準文型を選択する解析手段と、 少なくとも選択された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、選択された前記第2
    言語の標準文型の音声合成を行う音声合成手段とを備
    え、 前記所定の基準とは、複数の前記第2言語の標準文型に
    登録されている第2言語の単語に対応する第1言語の単
    語を選ぶことである音声による情報提供装置。
    7. Extracting all or a part of the first language words from the input first language sentence based on a predetermined criterion, and extracting the second language words corresponding to the extracted first language words. Analyzing means for selecting a standard sentence pattern of the second language most relevant to the input sentence from a plurality of standard sentence patterns of the second language prepared in advance using the words of the second language; Utilizing the prosody information previously assigned to the standard sentence pattern of the language, the selected second
    Speech synthesis means for performing speech synthesis of a standard sentence pattern of a language, wherein the predetermined criterion is a word of a first language corresponding to a word of a second language registered in a plurality of standard sentence patterns of the second language The information providing device by voice is to choose.
  8. 【請求項8】 入力されてきた第1言語の文から、所定
    の基準に基づいて全部または一部の第1言語の単語を抽
    出し、その抽出した第1言語の単語を用いて予め用意さ
    れている複数の第1言語の標準文型の中から前記入力さ
    れた第1言語の文と最も関連する第1言語の標準文型を
    選択し、 その選択された第1言語の標準文型に対応する予め決め
    られた第2言語の標準文型を特定する解析手段と、 少なくとも特定された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、特定された前記第2
    言語の標準文型の音声合成を行う音声合成手段とを備
    え、 前記所定の基準とは、複数の前記第1言語の標準文型に
    登録されている第1言語の単語のいずれかと一致する第
    1言語の単語を選ぶことである音声による情報提供装
    置。
    8. Extracting all or a part of the first language words from the input first language sentence based on a predetermined criterion, and using the extracted first language words in advance. A standard sentence pattern of the first language that is most relevant to the input sentence of the first language is selected from the plurality of standard sentence patterns of the first language, and a standard sentence pattern corresponding to the selected standard sentence pattern of the first language is selected. Analyzing means for specifying the determined standard sentence pattern of the second language, and at least the specified second sentence using the prosodic information previously assigned to the specified standard sentence pattern of the second language.
    A speech synthesis unit that performs speech synthesis of a standard sentence pattern of a language, wherein the predetermined criterion is a first language that matches one of words of the first language registered in the plurality of standard sentence patterns of the first language Information providing device by voice, which is to select a word.
  9. 【請求項9】 入力されてきた文から、所定の基準に基
    づいて全部または一部の単語を抽出し、その抽出した単
    語を予め決められた関連情報を利用して標準単語に入れ
    替え、 前記標準単語を用いて予め用意されている複数の標準文
    型の中から前記入力された文と最も関連する標準文型を
    選択し、 選択された前記標準文型に対応する予め決められた応答
    標準文型を特定し、 特定された前記応答標準文型の全部または一部の標準単
    語を対応する前記単語に入れ替える解析手段と、 少なくとも特定された前記応答標準文型に予め付与され
    ている韻律情報を利用して、その入れ替えられた文の音
    声合成を行う音声合成手段とを備え、 前記関連情報とは、予め決められた前記標準単語にその
    標準単語と関連性のある単語を関連つけたものである音
    声による情報提供装置。
    9. Extracting all or some words from an input sentence based on a predetermined criterion, replacing the extracted words with standard words using predetermined related information, A standard sentence pattern most relevant to the input sentence is selected from a plurality of standard sentence patterns prepared in advance using words, and a predetermined response standard sentence pattern corresponding to the selected standard sentence pattern is specified. Analysis means for replacing all or a part of the standard words of the identified response standard sentence pattern with the corresponding words, and replacement using at least the prosody information given in advance to the identified response standard sentence pattern Speech synthesis means for synthesizing a given sentence, wherein the related information is a speech which is a speech obtained by associating a word associated with the standard word with the predetermined standard word. That the information providing apparatus.
  10. 【請求項10】 前記所定の基準とは、前記関連情報に
    現れる単語を選ぶことである請求項9記載の音声による
    情報提供装置。
    10. The apparatus according to claim 9, wherein the predetermined criterion is to select a word appearing in the related information.
  11. 【請求項11】 入力されてきた文から、所定の基準に
    基づいて全部または一部の単語を抽出し、その抽出した
    単語を用いて予め用意されている複数の標準文型の中か
    ら前記入力された文と最も関連する標準文型を選択し、 選択された前記標準文型に対応する予め決められた応答
    標準文型を特定する解析手段と、 少なくとも特定された前記応答標準文型に予め付与され
    ている韻律情報を利用して、特定された前記応答標準文
    型の音声合成を行う音声合成手段とを備え、 前記所定の基準とは、複数の前記標準文型に登録されて
    いる単語と同一の単語を選ぶことである音声による情報
    提供装置。
    11. Extracting all or a part of words from an input sentence based on a predetermined criterion, and using the extracted words, the input word is selected from a plurality of standard sentence patterns prepared in advance. Analyzing means for selecting a standard sentence pattern most relevant to the selected sentence, and identifying a predetermined response standard sentence pattern corresponding to the selected standard sentence pattern, at least a prosody assigned to the specified response standard sentence pattern in advance Voice synthesis means for performing voice synthesis of the specified response standard sentence pattern using information, wherein the predetermined criterion is to select the same word as a word registered in the plurality of standard sentence patterns. Information providing device by voice.
  12. 【請求項12】 前記解析手段は、選択された前記標準
    文型の前記標準単語を前記単語に入れ替える際、選択さ
    れた前記標準文型の前記標準単語のうち、前記単語に対
    応していない標準単語については、そのまま残すまたは
    予め決められた単語に入れ替える請求項1、2、4、5
    〜10のいずれかに記載の音声による情報提供装置。
    12. The analysis unit, when replacing the standard word of the selected standard sentence pattern with the word, among the standard words of the selected standard sentence pattern, the standard word that does not correspond to the word. Is replaced as it is or is replaced with a predetermined word.
    An information providing device by voice according to any one of claims 10 to 10.
  13. 【請求項13】 予め用意されている前記複数の標準文
    型の全部または一部には、予め決められた動作及び/ま
    たは画像データが対応つけられている請求項1〜11の
    いずれかに記載の音声による情報提供装置。
    13. The method according to claim 1, wherein a predetermined operation and / or image data is associated with all or a part of the plurality of standard sentence patterns prepared in advance. Information providing device by voice.
  14. 【請求項14】 前記複数の標準文型の全部または一部
    に予め決められた動作が対応付けられている場合であっ
    て、前記解析手段は、前記標準文型を選択するまたは特
    定する際、その標準文型に対応する動作をも特定し、、 前記音声合成手段が前記音声合成結果を出力する際、特
    定された前記動作が行われる請求項13記載の音声によ
    る情報提供装置。
    14. A case in which a predetermined operation is associated with all or a part of the plurality of standard sentence patterns, and the analysis means selects or specifies the standard sentence pattern when the standard sentence pattern is selected or specified. 14. The information providing apparatus according to claim 13, wherein the operation corresponding to the sentence pattern is also specified, and the specified operation is performed when the voice synthesis unit outputs the voice synthesis result.
  15. 【請求項15】 前記複数の標準文型の全部または一部
    に予め決められた画像が対応付けられている場合であっ
    て、前記解析手段は、前記標準文型を選択するまたは特
    定する際、その標準文型に対応する画像をも特定し、 前記音声合成手段が前記音声合成結果を出力する際、特
    定された前記画像が表示される請求項13記載の音声に
    よる情報提供装置。
    15. A case in which a predetermined image is associated with all or a part of the plurality of standard sentence patterns, and the analyzing means selects or specifies the standard sentence pattern when the standard sentence pattern is selected or specified. 14. The information providing apparatus according to claim 13, wherein an image corresponding to a sentence pattern is also specified, and the specified image is displayed when the voice synthesis unit outputs the voice synthesis result.
  16. 【請求項16】 入力されてくる信号を解析し、その解
    析結果に応じて一つまたは複数の単語を生成する信号処
    理手段を備え、 前記入力されてきた文とは、生成された前記一つまたは
    複数の単語である請求項1〜11のいずれかに記載の音
    声による情報提供装置。
    16. A signal processing means for analyzing an input signal and generating one or a plurality of words according to the result of the analysis, wherein the input sentence is The information providing device by voice according to any one of claims 1 to 11, wherein the information providing device is a plurality of words.
  17. 【請求項17】 入力されてくる前記信号は、音声、
    音、画像、振動、加速度、温度、張力の少なくとも一つ
    以上である請求項16記載の音声による情報提供装置。
    17. The input signal includes voice,
    17. The audio information providing apparatus according to claim 16, wherein the information is at least one of sound, image, vibration, acceleration, temperature, and tension.
  18. 【請求項18】 入力されてくる前記信号が少なくとも
    音声である場合であって、前記信号処理手段は、入力さ
    れてくる前記音声の音声認識を行い、その音声認識結果
    に応じて一つまたは複数の単語を生成する請求項17記
    載の音声による情報提供装置。
    18. The signal processing device according to claim 1, wherein the input signal is at least a voice, wherein the signal processing unit performs voice recognition of the input voice, and performs one or more of the voice recognition in accordance with the voice recognition result. 18. The information providing apparatus by voice according to claim 17, wherein the word is generated.
  19. 【請求項19】 入力されてくる前記信号が少なくとも
    音である場合であって、前記信号処理手段は、入力され
    てくる前記音の音源を認識し、その音源認識結果に応じ
    て一つまたは複数の単語を生成する請求項17記載の音
    声による情報提供装置。
    19. The signal processing device according to claim 19, wherein the input signal is at least a sound, wherein the signal processing unit recognizes a sound source of the input sound, and outputs one or a plurality of sound sources in accordance with the sound source recognition result. 18. The information providing apparatus by voice according to claim 17, wherein the word is generated.
  20. 【請求項20】 入力されてくる前記信号が少なくとも
    画像である場合であって、前記信号処理手段は、入力さ
    れてくる前記画像を解析し、その解析結果に応じて一つ
    または複数の単語を生成する請求項17記載の音声によ
    る情報提供装置。
    20. When the input signal is at least an image, the signal processing means analyzes the input image, and outputs one or a plurality of words according to the analysis result. The information providing apparatus by voice according to claim 17, which generates the information.
  21. 【請求項21】 入力されてきた文は、不完全である可
    能性がある請求項1〜11のいずれかに記載の音声によ
    る情報提供装置。
    21. The apparatus according to claim 1, wherein the sentence may be incomplete.
  22. 【請求項22】 前記不完全である可能性があるとは、
    入力されてきた前記文の全部または一部が脱落している
    可能性がある場合、もしくは入力されてきた文の全部ま
    たは一部が無関係な文に置換されている可能性がある場
    合、もしくは入力されてきた前記文の中に無関係な文が
    挿入されている可能性がある場合である請求項21記載
    の音声による情報提供装置。
    22. The possibility of being incomplete is:
    When there is a possibility that all or part of the input sentence is missing, or there is a possibility that all or part of the input sentence is replaced with an unrelated sentence, or 22. The voice information providing apparatus according to claim 21, wherein an irrelevant sentence may be inserted in the sentence.
  23. 【請求項23】 入力されてきた前記文の全部または一
    部が脱落しているために、もしくは入力されてきた前記
    文の全部または一部が無関係な文に置換されているため
    に、前記解析手段が前記標準文型の選択に失敗した場合
    には、前記音声合成手段は、前記音声合成を行わない請
    求項22記載の音声による情報提供装置。
    23. The analysis according to claim 1, wherein all or part of the input sentence is omitted, or all or part of the input sentence is replaced with an irrelevant sentence. 23. The information providing apparatus according to claim 22, wherein the voice synthesizing unit does not perform the voice synthesis when the unit fails to select the standard sentence pattern.
  24. 【請求項24】 入力されてきた前記分の一部とは、
    文、節、文節、及び単語のいずれかである請求項22ま
    たは23記載の音声による情報提供装置。
    24. The part of the input minute is:
    24. The information providing apparatus by voice according to claim 22, wherein the information providing apparatus is any one of a sentence, a clause, a clause, and a word.
  25. 【請求項25】 前記不完全である可能性があるとは、
    口語表現を含む文法的に完結しない文である可能性があ
    る場合、もしくは単語の羅列である可能性がある場合、
    もしくは誤字脱字を含む可能性がある場合、もしくは記
    号と単語により構成される文ではない表記である可能性
    がある場合である請求項21記載の音声による情報提供
    装置。
    25. The possibility of being incomplete is:
    If there is a possibility that the sentence is not grammatically complete including colloquial expressions, or if it is a sequence of words,
    22. The audio information providing device according to claim 21, wherein the information may be erroneous or misspelled, or may be a notation that is not a sentence composed of symbols and words.
  26. 【請求項26】 入力されてきた前記文が音声認識結果
    の結果生成された文である場合、前記不完全である可能
    性があるとは、前記音声認識結果が認識誤りを含む可能
    性がある場合、または前記音声認識結果が認識に失敗し
    音声認識の対象となった入力音声の全部または一部に対
    応する認識結果を出力していない可能性がある場合であ
    る請求項21記載の音声による情報提供装置。
    26. When the input sentence is a sentence generated as a result of a speech recognition result, the possibility that the sentence is incomplete means that the speech recognition result may include a recognition error. 22. The voice according to claim 21, or a case where the voice recognition result has failed in recognition and there is a possibility that a recognition result corresponding to all or a part of the input voice targeted for voice recognition is not output. Information providing device.
  27. 【請求項27】 前記韻律情報とは、その韻律情報が付
    加された前記標準文型の自然発生音声を録音した音声波
    形である請求項1〜11のいずれかに記載の音声による
    情報提供装置。
    27. The information providing apparatus according to claim 1, wherein the prosody information is a speech waveform obtained by recording a naturally occurring speech of the standard sentence pattern to which the prosody information is added.
  28. 【請求項28】 前記韻律情報とは、その韻律情報が付
    加された前記標準文型の自然発声音声より抽出した情報
    である請求項1〜11のいずれかに記載の音声による情
    報提供装置。
    28. The speech information providing apparatus according to claim 1, wherein the prosody information is information extracted from the standard sentence type naturally uttered speech to which the prosody information is added.
  29. 【請求項29】 抽出された前記情報とは、音声の基本
    周波数パタン、強度パタン、音韻持続時間長パタン、話
    速のうち少なくとも1つ以上を含むことを特徴とする請
    求項28記載の音声による情報提供装置。
    29. The speech according to claim 28, wherein the extracted information includes at least one of a fundamental frequency pattern, an intensity pattern, a phoneme duration time pattern, and a speech speed of the speech. Information providing device.
  30. 【請求項30】 前記韻律情報とは、音韻列、及びモー
    ラ数、及び音節数、及びアクセント、及び文中での位
    置、及び直前あるいは直後のポーズの有無と時間長、及
    び直前あるいは直後のアクセント句のアクセント型、及
    びプロミネンス、及び品詞列、及び文節属性、及び係り
    受け関係のうち少なくとも1つ以上の条件に対応付けら
    れている請求項1〜11のいずれかに記載の音声による
    情報提供装置。
    30. The prosodic information includes a phoneme sequence, a number of mora, a number of syllables, an accent, a position in a sentence, presence or absence and a time length of a pause immediately before or immediately after, and an accent phrase immediately before or immediately after. The information providing apparatus by voice according to any one of claims 1 to 11, wherein the information providing apparatus is associated with at least one condition among accent type, prominence, part-of-speech sequence, phrase attribute, and dependency relationship.
  31. 【請求項31】 前記韻律情報は、韻律生成単位で格納
    されおり、 前記韻律生成単位とは、アクセント句、フレーズ、単
    語、文節あるいは節のいずれかである請求項1〜11の
    いずれかに記載の音声による情報提供装置。
    31. The prosody generation unit is stored in a prosody generation unit, and the prosody generation unit is any one of an accent phrase, a phrase, a word, a phrase, and a clause. Information providing device by voice.
  32. 【請求項32】 入力されてきた文から、所定の基準に
    基づいて全部または一部の単語を抽出し、その抽出した
    単語を予め決められた関連情報を利用して標準単語に入
    れ替えるステップと、 前記標準単語を用いて予め用意されている複数の標準文
    型の中から前記入力された文と最も関連する標準文型を
    選択し、 選択された前記標準文型の全部または一部の前記標準単
    語を対応する前記単語に入れ替えるステップと、 少なくとも選択された前記標準文型に予め付与されてい
    る韻律情報を利用して、その入れ替えられた文の音声合
    成を行うステップとを備え、 前記関連情報とは、予め決められた前記標準単語にその
    標準単語と関連性のある単語を関連つけたものである音
    声による情報提供方法。
    32. extracting all or a part of words from an input sentence based on a predetermined criterion, and replacing the extracted words with standard words using predetermined related information; A standard sentence pattern most relevant to the input sentence is selected from a plurality of standard sentence patterns prepared in advance using the standard words, and all or a part of the selected standard sentence patterns correspond to the standard words. Replacing the word with a word to be performed, and using at least prosodic information previously assigned to the selected standard sentence pattern, performing a speech synthesis of the replaced sentence, and the related information includes: A method for providing information by voice, wherein the determined standard word is associated with a word related to the standard word.
  33. 【請求項33】 入力されてきた文から、所定の基準に
    基づいて全部または一部の単語を抽出し、その抽出した
    単語を用いて予め用意されている複数の標準文型の中か
    ら前記入力された文と最も関連する標準文型を選択する
    ステップと、 少なくとも選択された前記標準文型に予め付与されてい
    る韻律情報を利用して、選択された前記標準文型の音声
    合成を行うステップとを備え、 前記所定の基準とは、複数の前記標準文型に登録されて
    いる単語のいずれかと一致する単語を選ぶことである音
    声による情報提供方法。
    33. All or some words are extracted from an input sentence based on a predetermined criterion, and the input word is extracted from a plurality of standard sentence patterns prepared in advance using the extracted words. Selecting a standard sentence pattern that is most relevant to the sentence, comprising: using at least prosodic information previously assigned to the selected standard sentence pattern, performing speech synthesis of the selected standard sentence pattern, The information providing method by voice, wherein the predetermined criterion is to select a word that matches one of the words registered in the plurality of standard sentence patterns.
  34. 【請求項34】 請求項1記載の音声による情報提供装
    置の、入力されてきた文から、所定の基準に基づいて全
    部または一部の単語を抽出し、その抽出した単語を予め
    決められた関連情報を利用して標準単語に入れ替え、 前記標準単語を用いて予め用意されている複数の標準文
    型の中から前記入力された文と最も関連する標準文型を
    選択し、 選択された前記標準文型の全部または一部の前記標準単
    語を対応する前記単語に入れ替える解析手段と、 少なくとも選択された前記標準文型に予め付与されてい
    る韻律情報を利用して、その入れ替えられた文の音声合
    成を行う音声合成手段との全部または一部としてコンピ
    ュータを機能させるためのプログラム。
    34. The information providing apparatus according to claim 1, wherein all or some words are extracted from the input sentence based on a predetermined criterion, and the extracted words are associated with a predetermined related word. Using information, replace the standard sentence with a standard word, and select a standard sentence pattern most relevant to the input sentence from among a plurality of standard sentence patterns prepared in advance using the standard word, and select the standard sentence pattern of the selected standard sentence pattern. Analysis means for replacing all or a part of the standard words with the corresponding words; and voice for synthesizing the replaced sentences using at least prosodic information previously assigned to the selected standard sentence pattern. A program for causing a computer to function as all or a part of the synthesizing means.
  35. 【請求項35】 請求項3記載の音声による情報提供装
    置の、入力されてきた文から、所定の基準に基づいて全
    部または一部の単語を抽出し、その抽出した単語を用い
    て予め用意されている複数の標準文型の中から前記入力
    された文と最も関連する標準文型を選択する解析手段
    と、 少なくとも選択された前記標準文型に予め付与されてい
    る韻律情報を利用して、選択された前記標準文型の音声
    合成を行う音声合成手段との全部または一部としてコン
    ピュータを機能させるためのプログラム。
    35. The speech information providing apparatus according to claim 3, wherein all or a part of words are extracted from an input sentence based on a predetermined criterion, and prepared in advance using the extracted words. Analyzing means for selecting a standard sentence pattern that is most relevant to the input sentence from among a plurality of standard sentence patterns that have been input, and using at least prosodic information given in advance to the selected standard sentence pattern, A program for causing a computer to function as all or part of a speech synthesis unit that performs speech synthesis of the standard sentence pattern.
  36. 【請求項36】 請求項4記載の音声による情報提供装
    置の、入力されてきた第1言語の文から、所定の基準に
    基づいて全部または一部の第1言語の単語を抽出し、そ
    の抽出した第1言語の単語を予め決められた関連情報を
    利用して第2言語の標準単語に入れ替え、 前記第2言語の標準単語を用いて予め用意されている複
    数の第2言語の標準文型の中から前記入力された文と最
    も関連する第2言語の標準文型を選択し、 選択された前記第2言語の標準文型の全部または一部の
    前記第2言語の標準単語をその第2言語の標準単語に対
    応する前記第1言語の単語に対応する前記第2言語の単
    語に入れ替える解析手段と、 少なくとも選択された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、その入れ替えられた
    文の音声合成を行う音声合成手段との全部または一部と
    してコンピュータを機能させるためのプログラム。
    36. The speech information providing apparatus according to claim 4, wherein all or a part of the first language words are extracted from the input first language sentence based on a predetermined criterion, and the extraction is performed. The words of the first language are replaced with standard words of the second language using predetermined related information, and a plurality of standard sentence patterns of the second language prepared in advance using the standard words of the second language are used. A standard sentence pattern of the second language most relevant to the input sentence is selected from among them, and all or a part of the standard words of the second language selected from the selected standard sentence patterns of the second language are converted to the standard words of the second language. Analyzing means for replacing the word in the second language corresponding to the word in the first language corresponding to the standard word, using at least prosodic information given to the selected standard sentence pattern in the second language at least, Speech synthesis of the replaced sentence A program for causing a computer to function as all or a part of a speech synthesizer to be performed.
  37. 【請求項37】 請求項5記載の音声による情報提供装
    置の、入力されてきた第1言語の文から、所定の基準に
    基づいて全部または一部の第1言語の単語を抽出し、そ
    の抽出した第1言語の単語を予め決められた関連情報を
    利用して第1言語の標準単語に入れ替え、 前記第1言語の標準単語を用いて予め用意されている複
    数の第1言語の標準文型の中から前記入力された文と最
    も関連する第1言語の標準文型を選択し、 選択された前記第1言語の標準文型に対応付けられてい
    る予め決められた第2言語の標準文型を特定し、 その特定された第2言語の標準文型の全部または一部の
    前記第2言語の標準単語をその第2言語の標準単語に対
    応する第1言語の標準単語に対応する入力された第1言
    語の単語を第2言語へ翻訳した単語に入れ替える解析手
    段と、 少なくとも選択された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、その入れ替えられた
    文の音声合成を行う音声合成手段との全部または一部と
    してコンピュータを機能させるためのプログラム。
    37. All or a part of the first language word is extracted from the input first language sentence of the information providing apparatus according to claim 5 based on a predetermined criterion, and the extraction is performed. The first language word is replaced with a first language standard word using predetermined related information, and a plurality of first language standard sentence patterns prepared in advance using the first language standard word are used. A standard sentence pattern of the first language most relevant to the input sentence is selected from among them, and a predetermined standard sentence pattern of the second language associated with the selected standard sentence pattern of the first language is specified. The input first language corresponding to the first language standard word corresponding to the second language standard word corresponding to all or a part of the specified second language standard sentence pattern Solution that replaces the word with the word translated into the second language A computer as all or a part of speech analysis means for performing speech synthesis of the replaced sentence using at least the prosody information given in advance to the selected standard sentence pattern of the second language. Program to make it work.
  38. 【請求項38】 請求項7記載の音声による情報提供装
    置の、入力されてきた第1言語の文から、所定の基準に
    基づいて全部または一部の第1言語の単語を抽出し、そ
    の抽出した第1言語の単語に対応する第2言語の単語を
    用いて予め用意されている複数の第2言語の標準文型の
    中から前記入力された文と最も関連する第2言語の標準
    文型を選択する解析手段と、 少なくとも選択された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、選択された前記第2
    言語の標準文型の音声合成を行う音声合成手段との全部
    または一部としてコンピュータを機能させるためのプロ
    グラム。
    38. A whole or a part of the first language word is extracted from the input first language sentence of the voice information providing device according to claim 7 based on a predetermined standard. A standard sentence pattern of a second language most relevant to the input sentence is selected from a plurality of standard sentence patterns of a second language prepared in advance using words of the second language corresponding to the words of the first language. Analyzing means that performs at least selected prosody information on at least the selected standard sentence pattern of the second language.
    A program for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of a standard sentence pattern of a language.
  39. 【請求項39】 請求項8記載の音声による情報提供装
    置の、入力されてきた第1言語の文から、所定の基準に
    基づいて全部または一部の第1言語の単語を抽出し、そ
    の抽出した第1言語の単語を用いて予め用意されている
    複数の第1言語の標準文型の中から前記入力された第1
    言語の文と最も関連する第1言語の標準文型を選択し、 その選択された第1言語の標準文型に対応する予め決め
    られた第2言語の標準文型を特定する解析手段と、 少なくとも特定された前記第2言語の標準文型に予め付
    与されている韻律情報を利用して、特定された前記第2
    言語の標準文型の音声合成を行う音声合成手段との全部
    または一部としてコンピュータを機能させるためのプロ
    グラム。
    39. The speech information providing apparatus according to claim 8, wherein all or part of the first language words are extracted from the input first language sentence based on a predetermined criterion, and the extraction is performed. Out of a plurality of standard sentence patterns of the first language prepared in advance using the words of the first language,
    Analysis means for selecting a standard sentence pattern of the first language most relevant to the sentence of the language, and identifying a predetermined standard sentence pattern of the second language corresponding to the selected standard sentence pattern of the first language; Using the prosodic information previously assigned to the standard sentence pattern of the second language,
    A program for causing a computer to function as all or part of speech synthesis means for performing speech synthesis of a standard sentence pattern of a language.
  40. 【請求項40】 請求項9記載の音声による情報提供装
    置の、入力されてきた文から、所定の基準に基づいて全
    部または一部の単語を抽出し、その抽出した単語を予め
    決められた関連情報を利用して標準単語に入れ替え、 前記標準単語を用いて予め用意されている複数の標準文
    型の中から前記入力された文と最も関連する標準文型を
    選択し、 選択された前記標準文型に対応する予め決められた応答
    標準文型を特定し、 特定された前記応答標準文型の全部または一部の標準単
    語を対応する前記単語に入れ替える解析手段と、 少なくとも特定された前記応答標準文型に予め付与され
    ている韻律情報を利用して、その入れ替えられた文の音
    声合成を行う音声合成手段との全部または一部としてコ
    ンピュータを機能させるためのプログラム。
    40. The speech information providing apparatus according to claim 9, wherein all or a part of words are extracted from the input sentence based on a predetermined criterion, and the extracted words are determined in a predetermined relation. Using the information, replace the standard sentence with a standard word, and select a standard sentence pattern most relevant to the input sentence from a plurality of standard sentence patterns prepared in advance using the standard word, and Analysis means for identifying a corresponding predetermined response standard sentence pattern, replacing all or some of the standard words of the identified response standard sentence pattern with the corresponding words, and at least pre-assigned to the specified response standard sentence pattern A program for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of the replaced sentence using the prosody information that has been exchanged.
  41. 【請求項41】 請求項11記載の音声による情報提供
    装置の、入力されてきた文から、所定の基準に基づいて
    全部または一部の単語を抽出し、その抽出した単語を用
    いて予め用意されている複数の標準文型の中から前記入
    力された文と最も関連する標準文型を選択し、 選択された前記標準文型に対応する予め決められた応答
    標準文型を特定する解析手段と、 少なくとも特定された前記応答標準文型に予め付与され
    ている韻律情報を利用して、特定された前記応答標準文
    型の音声合成を行う音声合成手段との全部または一部と
    してコンピュータを機能させるためのプログラム。
    41. The speech information providing apparatus according to claim 11, wherein all or some words are extracted from an input sentence based on a predetermined criterion, and prepared in advance using the extracted words. Analyzing means for selecting a standard sentence pattern most relevant to the input sentence from among the plurality of standard sentence patterns that have been input, and identifying a predetermined response standard sentence pattern corresponding to the selected standard sentence pattern; A program for causing a computer to function as all or a part of speech synthesis means for performing speech synthesis of the specified response standard sentence pattern using prosody information given in advance to the response standard sentence pattern.
JP2001163151A 2000-05-31 2001-05-30 Device and method for information provision by voice Pending JP2002175094A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2000163807 2000-05-31
JP2000300061 2000-09-29
JP2000-163807 2000-09-29
JP2000-300061 2000-09-29
JP2001163151A JP2002175094A (en) 2000-05-31 2001-05-30 Device and method for information provision by voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001163151A JP2002175094A (en) 2000-05-31 2001-05-30 Device and method for information provision by voice

Publications (1)

Publication Number Publication Date
JP2002175094A true JP2002175094A (en) 2002-06-21

Family

ID=27343588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001163151A Pending JP2002175094A (en) 2000-05-31 2001-05-30 Device and method for information provision by voice

Country Status (1)

Country Link
JP (1) JP2002175094A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023592A (en) * 2004-07-08 2006-01-26 Sony Corp Voice synthesizer and voice synthesis method
JP2009139677A (en) * 2007-12-07 2009-06-25 Toshiba Corp Voice processor and program therefor
JP2010032918A (en) * 2008-07-30 2010-02-12 Nippon Hoso Kyokai <Nhk> Voice synthesizing method, voice synthesizer, and voice synthesis program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023592A (en) * 2004-07-08 2006-01-26 Sony Corp Voice synthesizer and voice synthesis method
JP2009139677A (en) * 2007-12-07 2009-06-25 Toshiba Corp Voice processor and program therefor
JP2010032918A (en) * 2008-07-30 2010-02-12 Nippon Hoso Kyokai <Nhk> Voice synthesizing method, voice synthesizer, and voice synthesis program

Similar Documents

Publication Publication Date Title
US20020120451A1 (en) Apparatus and method for providing information by speech
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
Ananthakrishnan et al. Automatic prosodic event detection using acoustic, lexical, and syntactic evidence
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JPH0922297A (en) Method and apparatus for voice-to-text conversion
Demenko et al. Implementation of grapheme-to-phoneme rules and extended SAMPA alphabet in Polish text-to-speech synthesis
US20110106792A1 (en) System and method for word matching and indexing
JPH086591A (en) Voice output device
JP2002175094A (en) Device and method for information provision by voice
KR100835374B1 (en) Method for predicting phrase break using static/dynamic feature and Text-to-Speech System and method based on the same
Romsdorfer Polyglot text-to-speech synthesis: Text analysis & prosody control
KR100554950B1 (en) Method of selective prosody realization for specific forms in dialogical text for Korean TTS system
KR20150030337A (en) Apparatus and for building language model for speech recognition
JP2003044073A (en) Accent phrase boundary determining device, and device, method and program for synthesizing voice
JP3446342B2 (en) Natural language processing method and speech synthesizer
KR101097186B1 (en) System and method for synthesizing voice of multi-language
KR100806287B1 (en) Method for predicting sentence-final intonation and Text-to-Speech System and method based on the same
KR100883649B1 (en) Text to speech conversion apparatus and method thereof
Külekci Statistical morphological disambiguation with application to disambiguation of pronunciations in Turkish
JP2000330588A (en) Method and system for processing speech dialogue and storage medium where program is stored
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
Külekçi et al. An infrastructure for Turkish prosody generation in text-to-speech synthesis
Rajeswari et al. Developing Intonation Pattern for Tamil Text To Speech Synthesis System
JP2001117583A (en) Device and method for voice recognition, and recording medium