JP2006189544A - Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program - Google Patents
Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program Download PDFInfo
- Publication number
- JP2006189544A JP2006189544A JP2005000396A JP2005000396A JP2006189544A JP 2006189544 A JP2006189544 A JP 2006189544A JP 2005000396 A JP2005000396 A JP 2005000396A JP 2005000396 A JP2005000396 A JP 2005000396A JP 2006189544 A JP2006189544 A JP 2006189544A
- Authority
- JP
- Japan
- Prior art keywords
- language
- voice quality
- speech
- voice
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、第1の言語で発声され入力された音声信号を第2の言語に通訳し、その通訳結果を合成音声し出力する通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラムに関するものである。 The present invention relates to an interpreting apparatus, an interpreting method, an interpreting method, a recording medium on which an interpreting program is recorded, and an interpreter that interprets an input speech signal uttered in a first language into a second language, synthesizes and outputs the interpretation result It is about the program.
従来、通訳装置は、マイクより入力された音声信号を音声認識手段により自動的に認識し、自動翻訳手段により上記認識結果を所望の外言語に翻訳したのち、音声合成手段により、上記翻訳結果を外言語の音声で合成するという構成により実現されている。 Conventionally, an interpreting apparatus automatically recognizes a speech signal input from a microphone by speech recognition means, translates the recognition result into a desired foreign language by automatic translation means, and then translates the translation result by speech synthesis means. This is realized by the composition of synthesizing with foreign language speech.
ところで、このような通訳装置において、話者の声質に近い自然な通訳結果を得ることを目的として、合成音声の話速を入力の話速に応じて制御するように構成したものも知られている(例えば、特許文献1参照)。 By the way, in such an interpreting apparatus, it is also known that the speech rate of the synthesized speech is controlled according to the input speech rate for the purpose of obtaining a natural interpretation result close to the voice quality of the speaker. (For example, refer to Patent Document 1).
図4は、このように話速を制御するように構成した従来の通訳装置の構成を示すブロック図である。 FIG. 4 is a block diagram showing the configuration of a conventional interpreting apparatus configured to control the speech speed in this way.
図4において、マイク401に向かって発せられた音声は、マイク401によって電気信号に変換され、入力アンプ402によって増幅される。増幅された入力音声信号は、音声分析回路403によって音声認識される。音声認識された結果は、電子翻訳回路404に供給され、ここで所望の外言語に自動的に翻訳される。そして、その後、音声合成回路405によって音声合成され、合成音声信号として出力される。出力された合成音声信号は、出力アンプ406で増幅され、スピーカ407から合成音声として出力される。
In FIG. 4, sound emitted toward the
一方、計測回路408では、入力された音声の話速が計測され、その結果が制御回路409に加えられる。制御回路409は、計測回路408から供給された話速に応じて電子翻訳回路404、搬出速度制御回路410をそれぞれ制御し、合成音声の話速を入力音声の話速に連動するように制御する。
On the other hand, the measurement circuit 408 measures the speech speed of the input voice, and the result is added to the
これにより、スピーカ407から出力される合成音声が、マイク401に入力された入力音声の話速にあったものになり、自然な話速の通訳結果を得ることができる。
As a result, the synthesized speech output from the
なお、文字表示装置411は、翻訳結果を文字として表示するものである。 The character display device 411 displays the translation result as characters.
また、同じように、話者の声質に近い自然な通訳結果を得ることを目的として、合成音声の韻律を話者の入力音声を基に制御するようにしたものも公知である(例えば、特許文献2参照)。 Similarly, for the purpose of obtaining a natural interpretation result close to the voice quality of the speaker, there is also known one in which the prosody of the synthesized speech is controlled based on the input speech of the speaker (for example, a patent Reference 2).
これによれば、第1の言語からこれとは別の第2の言語に翻訳する場合、アクセントが考慮され、アクセントと言う面でより自然な通訳結果を得ることができ、音声理解を高めることができる。
しかしながら、上記した従来の通訳装置では、合成音声の話速を入力音声の話速にあわせて制御するものであったり、合成音声のアクセントを入力音声のアクセントに合わせて適正なものになるように制御するものであったりするだけのものであり、合成音声の話速、アクセントに着目しただけのものであるため、話者の声質にあった適正な合成音声を得ることはできなかった。 However, in the above-described conventional interpreting apparatus, the speech speed of the synthesized speech is controlled in accordance with the speech rate of the input speech, or the accent of the synthesized speech is adjusted to match the accent of the input speech. Since it is only a thing to control and it is only a thing paying attention to the speech speed and accent of a synthetic speech, it was not possible to obtain a proper synthetic speech suitable for the voice quality of the speaker.
本発明は、このような従来の問題に鑑みてなされたものであり、話者の声質にあったより近い合成音声を出力することができる通訳装置、通訳方法、および通訳プログラムを提供するものである。 The present invention has been made in view of such a conventional problem, and provides an interpreting apparatus, an interpreting method, and an interpreting program capable of outputting synthesized speech closer to the voice quality of a speaker. .
本発明の通訳装置は、第1の言語で入力された入力音声を音声認識する音声認識手段と、音声認識された結果を第2の言語に翻訳する翻訳手段と、翻訳された第2の言語を音声合成する音声合成手段と、第1の言語の声質を分析する声質分析手段と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量手段と、声質類似性計量手段で得られた声質類似性計量結果に基づいて音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えた構成を有する。 The interpreting apparatus according to the present invention includes a speech recognition unit that recognizes an input speech input in a first language, a translation unit that translates the speech recognition result into a second language, and a translated second language. Voice synthesis means for voice synthesis, voice quality analysis means for analyzing voice quality of the first language, voice quality similarity measurement means for measuring the similarity between the voice quality of the first language and the voice quality of the second language, And a voice quality control means for controlling the voice quality of the second language synthesized by the voice synthesis means based on the voice quality similarity measurement result obtained by the voice quality similarity measurement means.
この構成により、第1の言語の声質と第2の言語の声質との類似性が声質類似性計量手段によって計量され、その類似性が近づくように音声合成手段が制御されるため、第2の言語の声質が第1の言語の声質に類似し、違和感を極力少なくすることができる。 With this configuration, the similarity between the voice quality of the first language and the voice quality of the second language is measured by the voice quality similarity measurement unit, and the voice synthesis unit is controlled so that the similarity approaches, so the second The voice quality of the language is similar to the voice quality of the first language, and the uncomfortable feeling can be reduced as much as possible.
また、本発明の通訳装置は、音声認識手段が、第1の言語で入力された入力音声信号を文字列または単語または単語列または文または意味表現として認識し、音声合成手段が、第2の言語による文字列または単語または単語列または文として合成する構成を有する。 In the interpreting apparatus of the present invention, the speech recognition means recognizes the input speech signal input in the first language as a character string, a word, a word string, a sentence, or a semantic expression, and the speech synthesis means It has a configuration in which it is synthesized as a character string or a word or a word string or a sentence according to language.
この構成により、第1の言語を文字列または単語または単語列または文または意味表現として認識し、第2の言語を文字列または単語または単語列または文として合成することができる。 With this configuration, the first language can be recognized as a character string, a word, a word string, a sentence, or a semantic expression, and the second language can be synthesized as a character string, a word, a word string, or a sentence.
また、本発明の通訳装置は、声質分析手段が、入力音声の個人性を特徴づけている声質の特徴量を抽出し、声質類似性計量手段が、声質分析手段によって抽出された声質の特徴量を音声合成手段によって音声合成された第2の言語の声質の特徴量と比較する構成を有する。 In the interpreting apparatus of the present invention, the voice quality analysis means extracts the voice quality feature quantity characterizing the individuality of the input speech, and the voice quality similarity measurement means extracts the voice quality feature quantity extracted by the voice quality analysis means. Is compared with the feature quantity of the voice quality of the second language synthesized by speech synthesis means.
この構成により、声質の類似性を、音声の個人性を特徴づけている声質の特徴量で容易に判断することができる。 With this configuration, it is possible to easily determine the similarity of voice quality based on the voice quality feature amount that characterizes the individuality of the voice.
また、本発明の通訳装置は、声質の特徴量が、入力音声信号、および、音声合成された第2の言語の音声信号に含まれる声道特性としてのスペクトル包絡である構成を有する。 The interpreting device of the present invention has a configuration in which the voice quality feature amount is a spectrum envelope as a vocal tract characteristic included in the input speech signal and the speech signal of the second language that is speech-synthesized.
この構成により、声質の特徴量を容易に抽出することができる。 With this configuration, it is possible to easily extract the feature quantity of voice quality.
また、本発明の通訳装置は、声質分析手段が、入力音声信号中の声道特徴量を抽出する声道特徴量抽出手段と、入力音声信号中のピッチ周波数を抽出するピッチ周波数抽出手段とを備え、声質類似性計量手段が、声道特徴量抽出手段によって抽出された声道特徴量と音声合成手段によって音声合成された第2の言語の声道特徴量とを比較する声道特徴量類似性計量手段と、ピッチ周波数抽出手段によって抽出されたピッチ周波数と音声合成手段によって音声合成された第2の言語のピッチ周波数とを比較するピッチ周波数類似性計量手段とを備えた構成を有する。 In the interpreting apparatus of the present invention, the voice quality analyzing means includes vocal tract feature quantity extracting means for extracting the vocal tract feature quantity in the input voice signal, and pitch frequency extracting means for extracting the pitch frequency in the input voice signal. A voice quality similarity metric means for comparing the vocal tract feature quantity extracted by the vocal tract feature quantity extraction means with the vocal tract feature quantity of the second language synthesized by the speech synthesis means. And a pitch frequency similarity measuring unit that compares the pitch frequency extracted by the pitch frequency extracting unit with the pitch frequency of the second language synthesized by the speech synthesizing unit.
この構成により、声道特徴量のみならず、ピッチ周波数も対象として類似性が判断されることになり、個人の特徴をより大きく捕らえ、誰が発生したかをより分かりやすくすることができる。 With this configuration, similarity is determined not only for the vocal tract feature value but also for the pitch frequency, and it is possible to capture the individual features more greatly and make it easier to understand who has occurred.
また、本発明の通訳装置は、入力音声信号の信号パワーを抽出する信号パワー抽出手段を更に備え、信号パワー抽出手段で抽出した信号パワーを基に、音声合成手段によって合成される第2の言語の音声信号の信号パワーを制御する構成を有する。 The interpreting apparatus of the present invention further includes signal power extraction means for extracting the signal power of the input speech signal, and the second language synthesized by the speech synthesis means based on the signal power extracted by the signal power extraction means. The signal power of the audio signal is controlled.
この構成により、第2の言語の信号パワーを第1の言語の信号パワーに合わせて類似するように制御することができ、パワーが大きいときには大きく、小さいときには小さく、任意に調整することができる。 With this configuration, the signal power of the second language can be controlled to be similar to the signal power of the first language, and can be arbitrarily adjusted to be large when the power is large and small when the power is small.
また、本発明の通訳装置は、入力音声信号から入力音声の発声速度を抽出する発声速度抽出手段を更に備え、発声速度抽出手段で抽出した発声速度を基に、音声合成手段によって合成される第2の言語の音声信号の発声速度を制御する構成を有する。 The interpreting apparatus of the present invention further includes an utterance speed extraction means for extracting the utterance speed of the input voice from the input voice signal, and is synthesized by the voice synthesis means based on the utterance speed extracted by the utterance speed extraction means. It has the structure which controls the utterance speed of the audio | voice signal of 2 languages.
この構成により、第2の言語の発声速度を第1の言語の発声速度に合わせて早くしたり、遅くしたりすることができ、第1の言語を発声する人の特徴を更に1つ付加することができる。 With this configuration, the utterance speed of the second language can be increased or decreased in accordance with the utterance speed of the first language, and one more feature of a person who speaks the first language is added. be able to.
さらに、本発明の通訳方法は、第1の言語で入力された入力音声を音声認識する音声認識ステップと、音声認識ステップで音声認識された結果を第2の言語に翻訳する翻訳ステップと、翻訳ステップで翻訳された第2の言語を音声合成する音声合成ステップと、第1の言語で入力された入力音声の声質を分析する声質分析ステップと、第1の言語で入力された入力音声の声質と第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量ステップと、声質類似性計量ステップで得られた声質類似性計量結果に基づいて、音声合成ステップで合成される第2の言語の声質を制御する声質制御ステップとを備えた構成を有する。 Further, the interpretation method of the present invention includes a speech recognition step for recognizing input speech input in a first language, a translation step for translating the result of speech recognition in the speech recognition step into a second language, A speech synthesis step for speech synthesis of the second language translated in the step; a voice quality analysis step for analyzing the voice quality of the input speech input in the first language; and a voice quality of the input speech input in the first language. And a voice quality similarity metric step for measuring the voice quality similarity of the synthesized speech translated into the second language, and a voice quality similarity metric result obtained in the voice quality similarity metric step. And a voice quality control step for controlling the voice quality of the second language.
この構成により、第1の言語の声質と第2の言語の声質とが声質類似性計量ステップで互いに比較され、その結果にしたがって両者の声質の類似性がより近くなるように音声合成の方法が制御されることになり、第2の言語をより第1の言語の音声に近づけることができる。 According to this configuration, the voice quality of the first language and the voice quality of the second language are compared with each other in the voice quality similarity metric step, and the speech synthesis method is performed so that the similarity of the voice quality of both is closer according to the result. As a result, the second language can be brought closer to the voice of the first language.
また、本発明の通訳方法は、音声認識ステップが、第1の言語で入力された入力音声信号を文字列または単語または単語列または文または意味表現として認識し、音声合成ステップが、第2の言語による文字列または単語または単語列または文として合成する構成を有する。 In the interpreting method of the present invention, the speech recognition step recognizes an input speech signal input in the first language as a character string, a word, a word string, a sentence, or a semantic expression, and the speech synthesis step includes a second speech synthesis step. It has a configuration in which it is synthesized as a character string or a word or a word string or a sentence according to language.
この構成により、第1の言語を文字列または単語または単語列または文または意味表現として認識し、第2の言語を文字列または単語または単語列または文として合成することができる。 With this configuration, the first language can be recognized as a character string, a word, a word string, a sentence, or a semantic expression, and the second language can be synthesized as a character string, a word, a word string, or a sentence.
さらに、本発明の記録媒体は、第1の言語で入力された入力音声を音声認識する音声認識ステップと、音声認識ステップで音声認識された結果を第2の言語に翻訳する翻訳ステップと、翻訳ステップで翻訳された第2の言語を音声合成する音声合成ステップと、第1の言語で入力された入力音声の声質を分析する声質分析ステップと、第1の言語で入力された入力音声の声質と第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量ステップと、声質類似性計量ステップで得られた声質類似性計量結果に基づいて
、音声合成ステップで合成される第2の言語の声質を制御する声質制御ステップとをコンピュータに実行させるための通訳プログラムを記録している。
Furthermore, the recording medium of the present invention includes a speech recognition step for recognizing input speech input in a first language, a translation step for translating the result of speech recognition in the speech recognition step into a second language, A speech synthesis step for speech synthesis of the second language translated in the step; a voice quality analysis step for analyzing the voice quality of the input speech input in the first language; and a voice quality of the input speech input in the first language. And a voice quality similarity metric step for measuring the voice quality similarity of the synthesized speech translated into the second language, and a voice quality similarity metric result obtained in the voice quality similarity metric step. And a voice quality control step for controlling the voice quality of the second language.
この構成により、この通訳プログラムを読み出して各ステップを実行し、第1の言語で発声された音声をそれに類似した声質の第2の言語に容易に翻訳することが可能になる。 With this configuration, it is possible to read out this interpreting program and execute each step, and easily translate a voice uttered in the first language into a second language having a voice quality similar to that.
さらに、本発明の通訳プログラムは、第1の言語で入力された入力音声を音声認識する音声認識手順と、音声認識手順で音声認識された結果を第2の言語に翻訳する翻訳手順と、翻訳手順で翻訳された第2の言語を音声合成する音声合成手順と、第1の言語で入力された入力音声の声質を分析する声質分析手順と、第1の言語で入力された入力音声の声質と第2の言語に翻訳された合成音声の声質の類似性を計量する声質類似性計量手順と、声質類似性計量手順で得られた声質類似性計量結果に基づいて、音声合成手順で合成される第2の言語の声質を制御する声質制御手順とをコンピュータに実行させる構成を有する。 Furthermore, the interpreting program of the present invention includes a speech recognition procedure for recognizing an input speech input in a first language, a translation procedure for translating the result of speech recognition in the speech recognition procedure into a second language, A speech synthesis procedure for speech synthesis of the second language translated in the procedure, a voice quality analysis procedure for analyzing the voice quality of the input speech input in the first language, and a voice quality of the input speech input in the first language And a voice quality similarity metric procedure for measuring the voice quality similarity of the synthesized speech translated into the second language, and a voice quality similarity metric result obtained by the voice quality similarity metric procedure. And a voice quality control procedure for controlling the voice quality of the second language.
この構成により、第1の言語で発声された音声をそれに類似した声質の第2の言語に翻訳することをコンピュータで実行させることができる。 With this configuration, it is possible to cause the computer to execute the translation of the voice uttered in the first language into the second language having a voice quality similar to that.
本発明の通訳装置は、第1の言語で入力された入力音声を音声認識する音声認識手段と、音声認識された結果を第2の言語に翻訳する翻訳手段と、翻訳された第2の言語を音声合成する音声合成手段と、第1の言語の声質を分析する声質分析手段と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量手段と、声質類似性計量手段で得られた声質類似性計量結果に基づいて音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えたものであり、第1の言語の声質と第2の言語の声質とが声質類似性計量手段によって計量され、その類似性が近づくように音声合成手段が制御されるため、第2の言語の声質が第1の言語の声質に類似し、違和感を生じることが少なくなるという効果を有する。 The interpreting apparatus according to the present invention includes a speech recognition unit that recognizes an input speech input in a first language, a translation unit that translates the speech recognition result into a second language, and a translated second language. Voice synthesis means for voice synthesis, voice quality analysis means for analyzing voice quality of the first language, voice quality similarity measurement means for measuring the similarity between the voice quality of the first language and the voice quality of the second language, Voice quality control means for controlling the voice quality of the second language synthesized by the voice synthesis means based on the voice quality similarity metric result obtained by the voice quality similarity measurement means. The voice quality of the second language is similar to the voice quality of the first language because the voice quality and the voice quality of the second language are measured by the voice quality similarity measurement means, and the speech synthesis means is controlled so that the similarity is approximated. However, it has the effect of reducing discomfort. That.
以下、本発明の実施の形態について、図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(実施の形態1)
図1は、本発明の実施の形態1における通訳装置の概略構成を示すブロック図である。
(Embodiment 1)
FIG. 1 is a block diagram showing a schematic configuration of an interpreting apparatus according to
本発明の実施の形態1における通訳装置は、図1に示すように、入力音声信号を入力する音声認識部101と、音声認識部101の出力を入力とする翻訳部102と、翻訳部102の出力を入力とする音声合成部103と、入力音声信号を入力とする声質分析部104と、声質分析部104の出力及び音声合成部103の音声合成結果を入力とし、これらの結果に基づいて音声合成部103を制御する声質制御部106とを備えている。
As shown in FIG. 1, the interpretation apparatus according to
次に、本実施の形態における通訳装置について、その動作を説明する。 Next, the operation of the interpreting apparatus in this embodiment will be described.
第1の言語(例えば、日本語)で発声された音声は、図示していないマイクで音声信号に変換され、入力アンプで増幅されて、入力音声信号として音声認識部101に入力される。音声認識部101に入力音声信号が入力されると、音声認識部101が、入力された入力音声信号を認識し、その結果を単語、単語列、文、意味表現など予め指定された形式で出力する。出力された認識結果は、翻訳部102に入力され、ここで、第2の言語(例えば、英語)に翻訳される。翻訳結果は、認識結果と同様、単語、単語列、文などの予め指定された表現形式で出力される。出力された翻訳結果は、音声合成部103に加えられ、ここで音声合成され、合成音声信号を出力する。
音声合成部103は、声質制御可能な音声合成手段であり、声質制御部106の制御の基でそれぞれ異なる声質の合成音声信号を出力することが可能なように構成されている。具体的には、例えば、公知技術であるボコーダに基づく方法(古井貞護著「音声情報処理」、森北出版1998 P40)等を用いるが、この方法に限定されるものではない。
A voice uttered in a first language (for example, Japanese) is converted into a voice signal by a microphone (not shown), amplified by an input amplifier, and input to the
The voice synthesizer 103 is a voice synthesizer capable of voice quality control, and is configured to be able to output synthesized voice signals having different voice qualities under the control of the voice quality controller 106. Specifically, for example, a method based on a vocoder which is a well-known technique (Sadago Furui “Speech Information Processing”, Morikita Publishing 1998 P40) is used, but is not limited to this method.
以下、このことについて、より詳細に説明する。 Hereinafter, this will be described in more detail.
入力音声信号は、音声認識部101に入力されると同時に、声質分析部104にも入力される。音声分析部104は、例えば、入力音声信号に含まれるスペクトル包絡(声道特性)などの音声の個人性を特徴づけている声質の特徴量を抽出する。この特徴量としては、例えば、低次ケプストラム係数等のベクトル量を使用する。
The input voice signal is input to the
音声分析部104が入力音声信号から声質の特徴量を抽出すると、その特徴量が、声質類似性計量部105に入力される。声質類似性計量部105に入力音声信号の声質の特徴量が入力されると、声質類似性計量部105、声質制御部105の制御の基で、音声合成部103によって合成され、出力される合成音声信号の声質が入力音声信号の声質に最も近くなるように音声合成部103を制御する。
When the
すなわち、声質類似性計量部105では、入力音声信号の声質の特徴量と、現在の制御条件を仮定した場合に音声合成部103により合成される音声の声質の特徴量とを互いに比較し、入力音声と出力音声の声質の類似性を計量する。声質の類似性の計量方法としては、例えば、低次ケプストラム係数等のベクトル量のユークリッド距離、或いは、聴覚重み付け距離等を用いる。
That is, the voice quality
このようにして、声質の類似性を計量すると、その結果が声質制御部106に入力される。声質制御部106は、入力された声質の類似性に基づいて、声質の類似性が最適値になるように音声合成部103を制御する。 When the voice quality similarity is measured in this manner, the result is input to the voice quality control unit 106. The voice quality control unit 106 controls the voice synthesis unit 103 so that the voice quality similarity becomes an optimum value based on the input voice quality similarity.
なお、声質の類似性として距離を用いる場合には、距離が小さいほど良好な制御規範である(良く似ている)ことを意味する。 When distance is used as the similarity of voice quality, it means that the smaller the distance, the better the control standard (similarly).
かかる構成によれば、声質類似性計量部105によって入力音声信号の声質と合成音声信号の声質を互いに比較しながら声質制御部106を用いて音声合成部103を制御し、合成音声の声質を入力音声の声質により近いものにすることができる。
According to this configuration, the voice quality
(実施の形態2)
図2は、本発明の実施の形態2における通訳装置の概略構成を示すブロック図である。
(Embodiment 2)
FIG. 2 is a block diagram showing a schematic configuration of the interpreting apparatus according to
本発明の実施の形態2における通訳装置は、図2に示すように、入力音声信号を入力とする音声認識部201と、音声認識部201の出力を入力とする翻訳部202と、翻訳部202の出力を入力とする音声合成部203と、入力音声信号を入力とする声道特徴量抽出部204と、同じく入力音声信号を入力とするピッチ周波数抽出部205と、同じく入力音声信号を入力とする信号パワー抽出部206と、同じく入力音声信号を入力とする音声速度抽出部207と、声道抽出部204の出力を入力とする声道特徴量類似性計量部208と、ピッチ周波数抽出部205の出力を入力とするピッチ周波数類似性計量部209と、声道特徴量類似性計量部208、ピッチ周波数類似性計量部209、信号パワー抽出部206、音声速度抽出部207の出力をそれぞれ入力とし、音声合成部203を制御する声質制御部210とを備えている。
As shown in FIG. 2, the interpreting apparatus according to
次に、本実施の形態における通訳装置について、その動作を説明する。 Next, the operation of the interpreting apparatus in this embodiment will be described.
第1の言語で発声された音声は、図示していないマイクで音声信号に変換され、入力アンプで増幅されて、入力音声信号として音声認識部201に入力される。音声認識部201に入力音声信号が入力されると、音声認識部201が、入力された入力音声信号を認識し、その結果を単語、単語列、文、意味表現など予め指定された形式で出力する。出力された認識結果は、翻訳部202に入力され、ここで、第2の言語に翻訳される。翻訳結果は、認識結果と同様、単語、単語列、文などの予め指定された表現形式で出力される。出力された翻訳結果は、音声合成部203に加えられ、ここで音声合成され、合成音声信号を出力する。
The voice uttered in the first language is converted into a voice signal by a microphone (not shown), amplified by an input amplifier, and input to the
音声合成部203は、声質制御可能な音声合成手段であり、声質制御部210の制御の基でそれぞれ異なる声質の合成音声信号を出力するように構成されている。そして、声質制御部210には、声道特徴量類似性計量部208、ピッチ周波数類似性計量部209、信号パワー抽出部206、発声速度抽出部207の出力が入力されるように構成されている。したがって、声質制御部210は、これらの出力で制御され、その出力に応じて音声合成部203を制御する。
The
以下、このことについて更に詳細に説明する。 This will be described in more detail below.
先ず、声道特徴量抽出部204は、例えば、入力音声信号に含まれるスペクトル包絡(声道特性)などの音声の個人性を特徴づけている声質の特徴量を抽出する。この特徴量としては、例えば、低次ケプストラム係数等のベクトル量を使用する。声質の特徴量を抽出すると、その特徴量が声道特徴量類似性計量部208に供給される。そして、音声合成部203で合成された合成音声の声質の特徴量と比較される。
First, the vocal tract feature
また、ピッチ周波数抽出部205は、入力音声信号のピッチ周波数、または、その推移パターンを抽出する。抽出されたピッチ周波数、または、その推移パターンは、ピッチ周波数類似性計量部209に入力され、ピッチ周波数類似度計量部209で、音声合成部203で合成された合成音声のピッチ周波数、または、その推移パターンと比較される。
The pitch
声道特徴量類似性計量部208で比較され得られた結果と、ピッチ周波数類似性計量部209で比較され得られた結果、並びに、信号パワー抽出部206、発声速度抽出部207でそれぞれ抽出された入力音声信号のパワー、発声速度が、それぞれ声質制御部210に入力される。その結果、次のように、音声合成部203が制御される。
The results obtained by comparison by the vocal tract feature quantity
すなわち、まず、声道特徴量類似性計量部208、ピッチ周波数類似性計量部209、声質制御部210がそれぞれ動作することにより合成音の声質が入力音声に近い声質になるように音声合成部203が制御される。
That is, first, the
声道特徴量類似性計量部208では、入力音声信号の声質の特徴量と、現在の制御条件を仮定した場合に音声合成部203により合成される音声の声質の特徴量とを比較し、入力音声と出力音声の声質の類似性を計量する。声質の類似性の計量方法としては、上記ベクトル量のユークリッド距離あるいは聴覚重み付け距離等を用いればよい。このようにして計量した声質の類似性は、声質制御部210に加えられ、それに基づいて音声合成部203が制御される。したがって、音声合成部203で合成される合成音の声質は、入力音声に近い声質になる。なお、類似性として距離を用いる場合は、距離の値が小さいほど良好な制御規範である(良く似ている)ことを意味する。
The vocal tract feature quantity
ピッチ周波数類似性計量部209では、入力音声信号のピッチ周波数パターンと現在の制御条件を仮定した場合に音声合成部203により合成される音声のピッチ周波数パター
ンの類似性を計量する。ピッチ周波数パターンの類似性も声質制御部210に供給され、それに基づいて音声合成部203が制御される。したがって、音声合成部203で合成される合成音のピッチ周波数パターンは、入力音声に近いピッチ周波数パターンになる。
The pitch frequency
また、声質の制御を行う際に入力音声信号のパワー、および、入力音声の発声速度も参照することになり、合成音のパワー、および、発声速度も入力音声に連動したパワー、および、発声速度になる。 In addition, when controlling the voice quality, the power of the input voice signal and the utterance speed of the input voice are also referred to. The power of the synthesized voice and the utterance speed are also linked to the input voice and the utterance speed. become.
このように、かかる構成によれば、声質特徴量抽出部204、ピッチ周波数抽出部205、信号パワー抽出部206、発声速度抽出部207により声質の特徴をそれぞれ抽出し、声道特徴量類似性計量部208、および、ピッチ周波数類似性計量部209を用いて声道特徴量類似度、ピッチ周波数類似度を算出し、それらを声質制御部210に入力して、声質制御部210で音声合成部203を制御しており、声道特徴量、ピッチ周波数、信号パワー、発声速度をそれぞれ入力音声により近いものにすることができ、より入力音声に近い声質の合成音を得ることができるという効果を有する。
As described above, according to this configuration, the voice quality
(実施の形態3)
図3は、本発明の実施の形態3として、通訳方法を説明するためのフローチャートである。
(Embodiment 3)
FIG. 3 is a flowchart for explaining an interpretation method as the third embodiment of the present invention.
図3において、ステップS301は、第1の言語で発声された音声信号を入力する音声入力ステップである。入力された第1の言語の音声信号は、次の音声認識ステップS302において音声認識され、その結果を単語または単語列または文または意味表現など予め指定された形式で出力する。翻訳ステップS303では、認識結果を第2の言語に翻訳し、翻訳結果を単語または単語列または文などあらかじめ指定された表現形式で出力する。音声合成ステップS304では、翻訳結果を入力し、第2の言語による合成音声信号を出力する。声質分析ステップS305では、例えば、入力音声に含まれるスペクトル包絡(声道特性)などの音声の個人性を特徴づける声質の特徴量を抽出する。この特徴量としては、例えば、低次ケプストラム係数等のベクトル量を使用すればよい。 In FIG. 3, step S301 is a voice input step for inputting a voice signal uttered in the first language. The input speech signal of the first language is speech-recognized in the next speech recognition step S302, and the result is output in a predesignated format such as a word, a word string, a sentence, or a semantic expression. In the translation step S303, the recognition result is translated into the second language, and the translation result is output in a previously designated expression format such as a word, a word string, or a sentence. In speech synthesis step S304, the translation result is input and a synthesized speech signal in the second language is output. In the voice quality analysis step S305, for example, a voice quality feature amount characterizing voice personality such as a spectrum envelope (voice tract characteristic) included in the input voice is extracted. As this feature amount, for example, a vector amount such as a low-order cepstrum coefficient may be used.
声質類似性計量ステップS306と次の声質制御ステップS307とは、互いに連動して処理を行うことにより、合成音の声質が入力音声に近い声質になるように合成音の声質を制御する。 The voice quality similarity measurement step S306 and the next voice quality control step S307 perform processing in conjunction with each other, thereby controlling the voice quality of the synthesized sound so that the voice quality of the synthesized sound is close to that of the input voice.
すなわち、声質類似性計量ステップS306では、入力音声信号の声質の特徴量と、現在の制御条件を仮定した場合に音声合成ステップS304により合成される音声の声質の特徴量とを比較することにより、入力音声と出力音声の声質の類似性を計量する。声質の類似性の計量方法としては、ベクトル量のユークリッド距離あるいは聴覚重み付け距離等を用いればよい。なお、類似性として距離を用いる場合は、距離の値が小さいほど良好な制御規範である(良く似ている)ことを意味する。声質制御ステップS307では、声質の類似性計量の結果が最適値になるように合成音声の制御を行う。 That is, in the voice quality similarity metric step S306, by comparing the voice quality feature quantity of the input voice signal with the voice quality feature quantity of the voice synthesized by the voice synthesis step S304 when the current control condition is assumed, Measure the voice quality similarity between input and output speech. As a method for measuring the similarity of voice quality, a vector quantity of Euclidean distance or auditory weighting distance may be used. When distance is used as the similarity, the smaller the distance value, the better the control standard (similarly). In the voice quality control step S307, the synthesized voice is controlled so that the result of the voice quality similarity metric becomes an optimum value.
かかる方法によれば、声質類似性計量ステップS306と、声質制御ステップS307を用いて入力音声の声質と合成音声の声質を比較しながら合成音声の声質を制御することが可能であり、入力音声に近い声質の合成音声を出力することができる。 According to this method, it is possible to control the voice quality of the synthesized voice while comparing the voice quality of the input voice and the voice quality of the synthesized voice using the voice quality similarity measurement step S306 and the voice quality control step S307. Synthetic voices with similar voice quality can be output.
なお、本実施の形態において、これらのステップを含む通訳プログラムを記録媒体に記録した場合には、この記録媒体をコンピュータなどに装着し、コンピュータを用いてこれらのステップを含むプログラムを読み出し、任意に第1の言語で発声した音声を第2の言語に翻訳し、音声として音声合成することができる。 In this embodiment, when an interpreting program including these steps is recorded on a recording medium, the recording medium is mounted on a computer or the like, and the program including these steps is read using the computer. The speech uttered in the first language can be translated into the second language and synthesized as speech.
また、本実施の形態において、これらのステップを含む通訳プログラムをインターネットなどの通信媒体を介してコンピュータなどに配信あるいは移動などした場合には、配信あるいは移動されたコンピュータはこのプログラムをそのまま実行して、任意に第1の言語で発声した音声を第2の言語に翻訳し、音声として音声合成することができる。 In this embodiment, when an interpreter program including these steps is distributed or moved to a computer or the like via a communication medium such as the Internet, the distributed or moved computer executes the program as it is. The voice uttered in the first language can be arbitrarily translated into the second language and synthesized as a voice.
そして、本実施の形態によれば、翻訳された第2の言語の声質を第1の言語の声質に近づけることができ、例えば、自分が発生したのに他人の声で翻訳されるとか、男性が発声したのに女性の声で翻訳されるとかといった違和感を生じることが極力少なくなり、より違和感の少ない翻訳を可能にする。 According to the present embodiment, the voice quality of the translated second language can be brought close to the voice quality of the first language. Is less likely to cause a sense of incongruity, such as being translated by a woman's voice, but enables translation with less sense of incongruity.
なお、上記各実施の形態において、第1の言語とは、翻訳される側の言語を意味し、第2の言語とは、翻訳された後の言語を意味している。すなわち、上記実施の形態のように日本語を英語に翻訳するのであれば、日本語が第1の言語、英語が第2の言語である。そして、同じ日本語でも、大阪弁を標準語に翻訳するのであれば、大阪弁が第1の言語、標準語が第2の言語である。すなわち、第1、第2の言語には、所謂、各国の言語のみならず、方言、現地語、その他言い回しの異なる全ての言語を含む。 In each of the above embodiments, the first language means the language to be translated, and the second language means the translated language. That is, if Japanese is translated into English as in the above embodiment, Japanese is the first language and English is the second language. If the Japanese dialect is translated into the standard language even in the same Japanese language, the Osaka dialect is the first language and the standard language is the second language. That is, the first and second languages include not only so-called national languages but also dialects, local languages, and all other languages with different expressions.
本発明の通訳装置は、第1の言語で入力された入力音声を音声認識する音声認識手段と、音声認識された結果を第2の言語に翻訳する翻訳手段と、翻訳された第2の言語を音声合成する音声合成手段と、第1の言語の声質を分析する声質分析手段と、第1の言語の声質と第2の言語の声質との類似性を計量する声質類似性計量手段と、声質類似性計量手段で得られた声質類似性計量結果に基づいて音声合成手段によって音声合成される第2の言語の声質を制御する声質制御手段とを備えたものであり、第1の言語の声質と第2の言語の声質とが声質類似性計量手段によって計量され、その類似性が近づくように音声合成手段が制御されるため、第2の言語の声質が第1の言語の声質に類似し、違和感を生じることが極力少なくなリ、音声合成を行う各種機器に有用である。 The interpreting apparatus according to the present invention includes a speech recognition unit that recognizes an input speech input in a first language, a translation unit that translates the speech recognition result into a second language, and a translated second language. Voice synthesis means for voice synthesis, voice quality analysis means for analyzing voice quality of the first language, voice quality similarity measurement means for measuring the similarity between the voice quality of the first language and the voice quality of the second language, Voice quality control means for controlling the voice quality of the second language synthesized by the voice synthesis means based on the voice quality similarity metric result obtained by the voice quality similarity measurement means. The voice quality of the second language is similar to the voice quality of the first language because the voice quality and the voice quality of the second language are measured by the voice quality similarity measurement means, and the speech synthesis means is controlled so that the similarity is approximated. And speech synthesis that minimizes the sense of discomfort It is useful in various types of equipment to perform.
101、201 音声認識部
102、202 翻訳部
103、203 音声合成部
104 声質分析部
105 声質類似性計量部
106、210 声質制御部
204 声道特徴量抽出部
205 ピッチ周波数抽出部
206 信号パワー抽出部
207 発声速度抽出部
208 声道特徴量類似性計量部
209 ピッチ周波数類似性計量部
101, 201
Claims (11)
A speech recognition procedure for recognizing input speech input in a first language; a translation procedure for translating a speech recognition result in the speech recognition procedure into a second language; and the first translated in the translation procedure. A speech synthesis procedure for speech synthesis of two languages, a voice quality analysis procedure for analyzing voice quality of input speech input in the first language, a voice quality of input speech input in the first language, and the second A voice quality similarity metric procedure for measuring the similarity of voice quality of synthesized speech translated into the language of the voice and a voice quality similarity metric result obtained by the voice quality similarity metric procedure are synthesized by the voice synthesis procedure. An interpreting program for causing a computer to execute a voice quality control procedure for controlling the voice quality of the second language.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005000396A JP2006189544A (en) | 2005-01-05 | 2005-01-05 | Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005000396A JP2006189544A (en) | 2005-01-05 | 2005-01-05 | Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006189544A true JP2006189544A (en) | 2006-07-20 |
Family
ID=36796834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005000396A Withdrawn JP2006189544A (en) | 2005-01-05 | 2005-01-05 | Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006189544A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008097003A (en) * | 2006-10-12 | 2008-04-24 | Qnx Software Systems (Wavemakers) Inc | Adaptive context for automatic speech recognition systems |
JP2014215302A (en) * | 2013-04-22 | 2014-11-17 | カシオ計算機株式会社 | Speech translation device, method for speech translation, and program |
CN113593579A (en) * | 2021-07-23 | 2021-11-02 | 马上消费金融股份有限公司 | Voiceprint recognition method and device and electronic equipment |
JP2022510752A (en) * | 2018-10-25 | 2022-01-28 | フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー | Natural language translation in AR |
US20220084500A1 (en) * | 2018-01-11 | 2022-03-17 | Neosapience, Inc. | Multilingual text-to-speech synthesis |
JP2022107032A (en) * | 2018-01-11 | 2022-07-20 | ネオサピエンス株式会社 | Text-to-speech synthesis method using machine learning, device and computer-readable storage medium |
-
2005
- 2005-01-05 JP JP2005000396A patent/JP2006189544A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008097003A (en) * | 2006-10-12 | 2008-04-24 | Qnx Software Systems (Wavemakers) Inc | Adaptive context for automatic speech recognition systems |
JP2014215302A (en) * | 2013-04-22 | 2014-11-17 | カシオ計算機株式会社 | Speech translation device, method for speech translation, and program |
US20220084500A1 (en) * | 2018-01-11 | 2022-03-17 | Neosapience, Inc. | Multilingual text-to-speech synthesis |
JP2022107032A (en) * | 2018-01-11 | 2022-07-20 | ネオサピエンス株式会社 | Text-to-speech synthesis method using machine learning, device and computer-readable storage medium |
US11769483B2 (en) * | 2018-01-11 | 2023-09-26 | Neosapience, Inc. | Multilingual text-to-speech synthesis |
JP7355306B2 (en) | 2018-01-11 | 2023-10-03 | ネオサピエンス株式会社 | Text-to-speech synthesis method, device, and computer-readable storage medium using machine learning |
JP2022510752A (en) * | 2018-10-25 | 2022-01-28 | フェイスブック・テクノロジーズ・リミテッド・ライアビリティ・カンパニー | Natural language translation in AR |
JP7284252B2 (en) | 2018-10-25 | 2023-05-30 | メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー | Natural language translation in AR |
CN113593579A (en) * | 2021-07-23 | 2021-11-02 | 马上消费金融股份有限公司 | Voiceprint recognition method and device and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8886538B2 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
JP4085130B2 (en) | Emotion recognition device | |
JP4536323B2 (en) | Speech-speech generation system and method | |
US20130041669A1 (en) | Speech output with confidence indication | |
US20070213987A1 (en) | Codebook-less speech conversion method and system | |
US20020111794A1 (en) | Method for processing information | |
Doi et al. | Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models | |
US20060129399A1 (en) | Speech conversion system and method | |
Picart et al. | Analysis and synthesis of hypo and hyperarticulated speech | |
KR20190062274A (en) | Response sentence generation apparatus, method and program, and voice interaction system | |
JPH0922297A (en) | Method and apparatus for voice-to-text conversion | |
JP5040778B2 (en) | Speech synthesis apparatus, method and program | |
Konno et al. | Whisper to normal speech conversion using pitch estimated from spectrum | |
JPH11175082A (en) | Voice interaction device and voice synthesizing method for voice interaction | |
TWI467566B (en) | Polyglot speech synthesis method | |
JP2010128103A (en) | Speech synthesizer, speech synthesis method and speech synthesis program | |
JP2014062970A (en) | Voice synthesis, device, and program | |
Sharma et al. | Development of Assamese text-to-speech synthesis system | |
JP2006189544A (en) | Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program | |
KR101560833B1 (en) | Apparatus and method for recognizing emotion using a voice signal | |
WO2023279976A1 (en) | Speech synthesis method, apparatus, device, and storage medium | |
JP2006030609A (en) | Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program | |
JP7406418B2 (en) | Voice quality conversion system and voice quality conversion method | |
JP3685648B2 (en) | Speech synthesis method, speech synthesizer, and telephone equipped with speech synthesizer | |
KR101095867B1 (en) | Apparatus and method for producing speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071026 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20071113 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080717 |