JP2010224392A - Utterance support device, method, and program - Google Patents
Utterance support device, method, and program Download PDFInfo
- Publication number
- JP2010224392A JP2010224392A JP2009073796A JP2009073796A JP2010224392A JP 2010224392 A JP2010224392 A JP 2010224392A JP 2009073796 A JP2009073796 A JP 2009073796A JP 2009073796 A JP2009073796 A JP 2009073796A JP 2010224392 A JP2010224392 A JP 2010224392A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- vibration
- voice
- power value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、発話補助装置、方法及びプログラムに関し、例えば、声帯切除をした利用者が音声合成装置を用いて発話する際に、心理的な自信喪失感を改善できるように補助する装置に適用し得るものである。 The present invention relates to an utterance assisting device, method, and program, and is applied to, for example, an apparatus that assists a user who has excised vocal cords so as to improve psychological loss of confidence when speaking using a speech synthesizer. To get.
例えば、入力されたテキストを音声に変換し、合成音声を出力する音声合成装置があり、このような音声合成装置は、様々な利用分野に利用されている。 For example, there is a speech synthesizer that converts input text into speech and outputs synthesized speech, and such speech synthesizer is used in various fields of use.
従来の音声合成方法としては、例えば特許文献1に記載される技術がある。特許文献1に記載されているように、従来の音声合成方法は、言語処理部が、入力された日本語テキストの形態素解析、構文解析を行い、アクセント位置付きのかな文字列を生成する。韻律パターン生成部で、言語処理部201からのアクセント位置付きのかな文字列から、韻律情報(例えば、個々の音素の継続時間長、個々の時間区間(フレーム)での声の高さ、および無音区間が存在する場合その継続時間長)を算出する。そして、音素波形生成部は、韻律生成部20からの韻律情報に基づいて合成音声波形を生成して出力するというものである。
As a conventional speech synthesis method, there is a technique described in
ところで、音声合成装置の利用態様として、例えば、病気や事故等により声帯を切除した者が音声合成装置を利用する場合がある。 By the way, as a usage mode of the speech synthesizer, for example, a person who has excised the vocal cords due to illness or accident may use the speech synthesizer.
例えば、声帯切除前に自身の音声を録音して音声データをデータベース化しておき、自身が入力したテキストを、自身の声(声質)で自身の口調(話し方)で合成音声を出力するというものである。これにより、利用者個人の特性や感情表現、発話の自然性といった本人性を再現することができる。 For example, you can record your own voice and create a database of voice data before excision of vocal cords, and output synthesized voice with your own voice (voice quality) and your own tone (speaking method). is there. As a result, it is possible to reproduce the identity of the user, such as personal characteristics, emotional expression, and naturalness of speech.
しかしながら、このような利用態様においては、次のような課題が生じ得る。 However, in such a usage mode, the following problems may occur.
通常、健常者は、自身が発話した音声を、発話者本人の耳だけでなく、喉や頬骨などから直接伝わる振動も感じ取っており、これにより自身の発話音声を聴取している。 Normally, a healthy person feels not only the speaker's own ears but also vibrations transmitted directly from the throat, cheekbones, and the like, thereby listening to his / her speech.
しかし、声帯を切除した者が、上記のような音声合成装置を利用して本人性を再現した合成音声を出力する場合、耳から発話音性を聴取できたとしても、喉や頬骨などから直接伝わる振動を感じ取ることができない。 However, when a person who has excised the vocal cords outputs synthesized speech that reproduces his / her identity using a speech synthesizer as described above, even if he / she can hear the utterance sound from his / her ears, I can't feel the vibrations.
自身の生の声は通常、骨に伝導し、鼓膜を振動させて耳に届く声が耳からの声により優先される。これに対して、合成音声は、他人の声同様、口から発した声が空気中を伝わって耳から聞いた声であり、自身の持つ「自分の声」とのイメージとの間にギャップが生じ得ることがある。また、合成音声の不完全さに起因する「自分の声」とのイメージとの間のギャップが生じ得ることがある。例えば、合成音声の品質の劣化に伴い、自分らしくない声質となったり、話し方や間の取り方が異なったりすることがある。 The voice of one's own life is usually conducted to the bone, and the voice reaching the ear by vibrating the eardrum is prioritized by the voice from the ear. Synthetic speech, on the other hand, is a voice that is heard from the ear as the voice uttered from the mouth, like other people's voice, and there is a gap between it and the image of its own voice. It can happen. In addition, there may be a gap between the image of “your voice” due to imperfection of the synthesized speech. For example, with the deterioration of the quality of the synthesized speech, the voice quality may not be unique, and the way of speaking and taking time may differ.
このような場合、発話者は、不快感を感じ自信を持って発言することができなくなってしまうことが、しばしば発生する。 In such a case, it often happens that the speaker feels uncomfortable and cannot speak with confidence.
このような合成音声の不完全さに起因する心理的な自信の喪失に対する改善策として、人間の発話・認知機構に基づく情報の補償が有効である。 Compensation of information based on human speech / cognitive mechanisms is effective as an improvement measure against such psychological loss of confidence resulting from the imperfection of synthesized speech.
つまり、音声の発話時における喉や頬骨などから直接伝わる振動を、合成音声の生成タイミングにあわせて合成音声から擬似的に生成し、合成音声の出力タイミングにこれを感じ取ることができれば、自身が、今発話しているという強い実感を得ることができ、また、合成音声の不完全さに起因する自信喪失感を軽減することができる。 In other words, if the vibration directly transmitted from the throat and cheekbones at the time of speech utterance is artificially generated from the synthesized voice according to the synthesized voice generation timing, and this can be felt at the synthesized voice output timing, It is possible to obtain a strong feeling that the user is speaking, and to reduce the feeling of loss of confidence due to the imperfection of the synthesized speech.
そのため、音声合成装置を利用する利用者が、音声発話時のタイミングに合わせて、合成音声に応じた振動を直接感じ取ってもらい、心理的な自信喪失感を軽減することができる発話補助装置、方法及びプログラムが求められている。 Therefore, the user who uses the speech synthesizer can directly feel the vibration corresponding to the synthesized speech in accordance with the timing at the time of speech utterance, and can reduce the feeling of loss of psychological confidence. And a program is needed.
第1の本発明の発話補助装置は、(1)テキスト入力手段を通じて入力されたテキストに基づいて音声波形を生成する音声波形生成手段と、(2)音声波形生成手段からの音声波形に基づき所定の時間区間毎の波形パワー値を算出する波形パワー算出手段と、(3)波形パワー算出手段からの各時間区間の波形パワー値に応じた物理振動量を求める物理振動変換手段と、(4)各時間区間の波形パワーに応じた物理振動量に基づく振動を発話者に与える振動伝導手段とを備えることを特徴とする。 The speech assisting device according to the first aspect of the present invention includes: (1) a speech waveform generation unit that generates a speech waveform based on text input through a text input unit; and (2) a predetermined waveform based on a speech waveform from the speech waveform generation unit. Waveform power calculating means for calculating a waveform power value for each time interval of (3), (3) physical vibration converting means for obtaining a physical vibration amount corresponding to the waveform power value of each time interval from the waveform power calculating means, and (4) Vibration conduction means for providing a speaker with vibration based on the amount of physical vibration corresponding to the waveform power of each time section.
第2の本発明の発話補助方法は、テキスト入力手段及び振動伝導手段を備える発話補助装置の発話補助方法であって、(1)音声波形生成手段が、テキスト入力手段を通じて入力されたテキストに基づいて音声波形を生成する音声波形生成工程と、(2)波形パワー算出手段が、音声波形生成手段からの音声波形に基づき所定の時間区間毎の波形パワー値を算出する波形パワー算出工程と、(3)物理振動変換手段が、波形パワー算出手段からの各時間区間の波形パワー値に応じた物理振動量を求め、この物理振動量を振動伝導手段に供給する物理振動変換工程とを有することを特徴とする。 The speech assisting method of the second aspect of the present invention is an speech assisting method of an speech assisting device comprising a text input means and a vibration conducting means. (1) The speech waveform generating means is based on text input through the text input means. (2) a waveform power calculation step in which the waveform power calculation means calculates a waveform power value for each predetermined time interval based on the voice waveform from the voice waveform generation means; 3) The physical vibration converting means has a physical vibration converting step of obtaining a physical vibration amount corresponding to the waveform power value of each time section from the waveform power calculating means and supplying the physical vibration amount to the vibration conducting means. Features.
第3の本発明の発話補助プログラムは、テキスト入力手段及び振動伝導手段を備える発話補助装置を、(1)テキスト入力手段を通じて入力されたテキストに基づいて音声波形を生成する音声波形生成手段、(2)音声波形生成手段からの音声波形に基づき所定の時間区間毎の波形パワー値を算出する波形パワー算出手段と、(3)波形パワー算出手段からの各時間区間の波形パワー値に応じた物理振動量を求め、この物理振動量を振動伝導手段に供給する物理振動変換手段として機能させることを特徴とする。 According to a third aspect of the present invention, there is provided a speech assist program comprising: (1) a speech waveform generating means for generating a speech waveform based on text input through a text input means; 2) Waveform power calculation means for calculating a waveform power value for each predetermined time interval based on the voice waveform from the voice waveform generation means; and (3) Physical corresponding to the waveform power value of each time interval from the waveform power calculation means. The vibration amount is obtained, and this physical vibration amount is made to function as a physical vibration conversion means for supplying the vibration conduction means.
本発明によれば、音声合成装置を利用する利用者が、音声発話時のタイミングに合わせて、合成音声に応じた振動を直接感じ取ってもらい、心理的な自信喪失感を軽減することができる。 ADVANTAGE OF THE INVENTION According to this invention, the user who uses a speech synthesizer can directly feel the vibration according to a synthetic | combination voice according to the timing at the time of speech utterance, and can reduce a psychological loss of self-confidence.
(A)第1の実施形態
以下では、本発明の発話補助装置、方法及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(A) 1st Embodiment Below, the 1st Embodiment of the speech assistance apparatus, method, and program of this invention is described, referring drawings.
(A−1)第1の実施形態の構成
図1は、第1の実施形態の発話補助装置の構成を説明する構成図である。図1において、第1の実施形態は、テキスト入力部101、音声合成部102、パワー算出部103、振動生成部104、振動伝導部105、出力部106を少なくとも有して構成される。
(A-1) Configuration of the First Embodiment FIG. 1 is a configuration diagram illustrating the configuration of the speech assisting device of the first embodiment. In FIG. 1, the first embodiment includes at least a
音声合成部102、パワー算出部103及び振動生成部104は、例えば、パーソナルコンピュータ等の情報処理装置が実現する機能である。これらの機能は、ソフトウェア処理により実現することができ、例えば、CPU、ROM、RAM、EEPROM等のハードウェア構成を備える情報処理装置において、ROMに格納される処理プログラムをCPUが読み出し実行することにより、これらの機能が実現される。
The
テキスト入力部101は、利用者の操作により所望のテキスト入力を行うものであり、入力されたテキストデータを音声合成部102に与えるものである。テキスト入力部101は、例えばキーボード、タッチパネルなどが該当する。
The
音声合成部102は、テキスト入力部101から入力されたテキストデータに基づいて、フレーム(所定の処理時間区間)毎あるいは呼気段落単位で合成音声波形を生成して、合成音声波形をパワー算出部103及び出力部106に与えるものである。
The
音声合成部102による音声合成方法としては、例えば特許文献1に記載されるような既存の方法を広く適用することができる。ここでは、例えば図2を参照しながら音声合成方法を説明する。
As a speech synthesis method by the
図2は、音声合成部102の内部構成を示す。なお、音声合成部102の内部構成については、特開2007−233216号公報に記載されている内容を適用可能である。図2に示すように、音声合成部102は、言語処理部201、韻律生成部202、波形生成部203、一時格納部204、単語辞書205、音声素片データベース206を少なくとも有する。
FIG. 2 shows the internal configuration of the
言語処理部201は、入力テキス文字列の形態素解析や構文解析を行い、アクセント、イントネーション等を決定し、アクセント位置付きのかな文字列(中間言語)を韻律生成部202に与えるものである。
The
言語処理部201は、単語辞書205を参照して、入力テキスト文字列に対して形態素解析、構文解析等のテキスト処理を行い、音声合成の単位である音素単位に分割し、解析によって得られた韻律情報を付して合成ターゲットとして出力するものである。ここで、単語辞書205には、各単語の読み仮名、文法情報、アクセント型、アクセント結合規則などが登録された辞書である。
The
また、言語処理部201は、単語辞書205のアクセント結合規則を参照しながら、単語系列の文法的又は意味的なまとまりに応じてアクセント位置を付与するものである。
Further, the
さらに、言語処理部201は、アクセント位置を付与した文法的又は意味的なまとまり(アクセント句)から係り受けを判断し、係り受けのあるアクセント句を呼気段落として形成するものである。
Further, the
韻律生成部202は、言語処理部201から出力された合成ターゲットを構成するターゲット音素列に対し、合成すべき音声の韻律に対応する音響特徴量パラメータ(ターゲットパラメータ)を生成し、各音素に付するターゲット音素からなるターゲット音素列として出力するものである。
The
ここで、韻律情報は、音声合成に必要なパラメータであり、例えば、音声素片、各音素の継続時間長、ピッチ(個々のフレームでの声の高さ)、無音区間が存在する場合にはその継続時間長などが該当する。 Here, the prosodic information is a parameter necessary for speech synthesis. For example, when there is a speech segment, a duration length of each phoneme, a pitch (a voice height in each frame), and a silent section, The duration time is applicable.
また、音声素片データベース206には、例えば声帯切除前に、声帯切除をする利用者から収録した音声データを分析、加工した音声素片データをデータベース化したものである。
The
波形生成部203は、韻律生成部202からターゲット音素列が与えられると、音声素片データベース206を参照して、音素片データを取り出して音声素片データの波形を合成ターゲットに従って互いに接続し、音声波形を生成し出力するものである。波形生成部203による波形生成方法としては、種々の方法を適用することができ、例えば、音声素片をピッチ周期毎にずらして重ね合わせる波形重畳法などを適用することができる。
When the target phoneme sequence is given from the
一時格納部204は、波形生成部203により生成された合成音声波形を一時的に格納した後、格納した合成音声波形を出力するものである。これは、合成音声波形の生成処理の時間効率(すなわち、生成波形データの生成ビットレート)が一定でない場合が生じ得る。例えば、入力されるテキスト文字列が多い場合と少ない場合とでは、合成音声波形の生成に必要なCPU処理量が大きく異なる場合等がある。この場合、フレーム単位あるいは呼気段落単位で生成された合成音声波形を一時格納部204に一旦格納することで、後続処理を一定のビットレートで行うようにすることができる。
The
パワー算出部103は、音声合成部102から合成音声波形を受け取り、所定の時間区間の波形パワー値を算出し、各時間区間の波形パワー値の時系列変化を求めるものである。また、パワー算出部103は、算出した各時間区間の波形パワーを振動生成部104に与えるものである。
The
図3は、パワー算出部103の内部構成を示す内部構成図である。図3に示すように、パワー算出部103は、窓掛け部301、波形パワー算出部302を少なくとも有する。
FIG. 3 is an internal configuration diagram showing an internal configuration of the
窓掛け部301は、音声合成部102からの合成音声波形から、所定の時間区間を窓掛けにより切り出し、例えばハニング窓、ハミング窓などの窓掛け処理を行うものである。
The
図4は、合成音声波形に対して所定の時間区間の窓掛け処理を説明する説明図である。 FIG. 4 is an explanatory diagram for explaining a windowing process in a predetermined time interval with respect to the synthesized speech waveform.
ここでは、1つのフレーム区間の信号の強さを算出するために、そのフレームを代表する波形データを切り出す処理を行う。図4に示すように、第1の実施形態ではフレームの中心時刻を窓の中心として、フレーム間隔の2倍の大きさのハニング窓にて切り出しを行う。窓関数は、ハミング窓、ガウス窓、テーパ窓等、適宜変えても良い、また窓長はパワーの移動平均値の時間分解能であり、フレーム周期の2倍を基本として、利用用途に応じて、適宜変更しても良い。 Here, in order to calculate the strength of the signal in one frame section, a process of cutting out waveform data representing that frame is performed. As shown in FIG. 4, in the first embodiment, the center time of a frame is used as the center of the window, and clipping is performed with a Hanning window that is twice the frame interval. The window function may be changed as appropriate, such as a Hamming window, a Gaussian window, a tapered window, etc., and the window length is the time resolution of the moving average value of power, and is based on twice the frame period, depending on the application. You may change suitably.
第1の実施形態では、この切り出し波形の各サンプル値を2乗値を累積したものを当該フレーム区間の波形パワー値とする。ここで、算出する波形パワー値の時系列情報は、生成された合成音声のパワー時系列の移動平均値であり、その算出方法として、絶対値を累積するなど、波形の振幅を数値化できる方法であれば適宜変えてもよい。 In the first embodiment, each sample value of the cut-out waveform is obtained by accumulating a square value as the waveform power value of the frame section. Here, the time series information of the waveform power value to be calculated is a moving average value of the power time series of the generated synthesized speech, and as a calculation method thereof, a method of quantifying the waveform amplitude, such as accumulating absolute values Any change may be made accordingly.
後述するように、振動生成部104により波形パワーに応じた物理振動量に変換し、振動伝導部105により物理振動量に応じた振動を出力ことになるが、波形パワーに応じた振動を出力するまでの感度(応答性)を良くするために、比較的短時間の時間区間とする。
As will be described later, the
波形パワー算出部302は、窓掛け部301により切り出された所定の時間区間の波形データ(窓掛け波形データ)の波形パワー値を算出するものである。
The waveform
ここで、波形パワー算出部302による波形パワー値の算出方法としては、例えば窓掛け波形データに対して、所定のサンプリング周波数によりサンプリングを行い、窓掛け波形データのサンプル値を求める。そして、この窓掛け波形データの各サンプル値を2乗したものを1フレーム区間内で累積した値を、当該フレーム区間の波形パワー値とする。
Here, as a calculation method of the waveform power value by the waveform
なお、波形パワー算出部302による波形パワー値の算出方法は、上記の例に限定されるものではなく、窓掛け波形データの各サンプル値を移動平均することができれば良いので、例えば、各サンプル値の絶対値を累積した値を、当該フレーム区間の波形パワー値としても良い。
Note that the method of calculating the waveform power value by the waveform
振動生成部104は、パワー算出部103により算出された各フレーム区間の波形パワー値に基づいて物理振動量を求め、その物理振動量を振動伝導部105に与えるものである。
The
ここで、振動生成部104による各フレーム区間の波形パワー値から物理振動量を生成する方法としては、例えば、波形パワー値の大きさに比例した物理振動量を生成する方法を適用することができる。
Here, as a method of generating a physical vibration amount from the waveform power value of each frame section by the
図5は、波形パワー値の大きさに応じて物理振動量を生成する一例を示す図である。振動生成部104は、図5に示すような比例関係を示す関係情報を保持しておく。そして、パワー算出部103から各フレームの波形パワー値を受け取ると、振動生成部104は、図5に示すような関係情報を参照して、対応する物理振動量を求める。つまり、振動生成部104は、各フレームの波形パワー値に所定の定数を乗じることにより物理振動量を求める。
FIG. 5 is a diagram illustrating an example of generating the physical vibration amount according to the magnitude of the waveform power value. The
また、別の方法として、振動生成部104は、各フレーム区間の波形パワー値を量子化し、その量子化値に応じた物理振動量を求めるようにしてもよい。この場合、振動生成部104は、各フレーム区間の波形パワー値の量子化値に対応する複数の物理振動量を予め設定しておき、対応する物理信号量を選択するようにしても良いし、また量子化により得られた量子化値に所定の定数を乗じて物理振動量を求めるようにしても良い。
As another method, the
振動伝導部105は、振動生成部104で生成された物理振動量に応じて物理的に振動するものであり、利用者(人体)の喉や頬骨や頸部等に振動を伝えるものである。振動伝導部105は、例えば、振動器(例えばバイブレータ)や骨伝導出力装置(例えば骨伝導スピーカ等)などが該当する。
The
これにより、合成音声の生成タイミングに合わせて、合成音声から擬似的に生成した振動を、利用者に直接伝えることができる。そのため、利用者自身が、今発話したことを実感することができ、合成音声の不完全さに起因する自信喪失感を軽減させることができる。 Thereby, the vibration artificially generated from the synthesized speech can be directly transmitted to the user in accordance with the generation timing of the synthesized speech. Therefore, the user himself / herself can feel that he / she has spoken, and the feeling of loss of confidence due to the imperfection of the synthesized speech can be reduced.
また、振動伝導部105は、人体の皮膚に貼付ができるように、例えばバイブレータを包んだ柔らかい布パッドや皮膚貼付用テープなどの装着部材が付されており、これにより利用者の喉や頸部等に装着する。
In addition, the
出力部106は、音声合成部102により合成された合成音声波形に基づいて合成音声を出力するものであり、例えば、スピーカ等が該当する。
The
(A−2)第1の実施形態の動作
次に、第1の実施形態の発話補助装置100を用いた発話補助方法の動作について図6を参照しながら説明する。
(A-2) Operation of the First Embodiment Next, the operation of the speech assist method using the speech assist device 100 of the first embodiment will be described with reference to FIG.
まず、発話補助装置100を利用する利用者は、例えばキーボードなどのテキスト入力部101を用いて、所望のテキスト文字列を入力する(ステップS101)。
First, the user who uses the speech assisting apparatus 100 inputs a desired text character string using the
テキスト入力部101に入力されたテキスト文字列は音声合成部102に与えられ、音声合成部102において、テキスト文字列は合成音声波形が生成される(ステップS102)。
The text character string input to the
音声合成部102により合成された合成音声波形は、パワー算出部103に与えられ、パワー算出部103により、短時間でなるフレームの時間区間の波形パワー値がフレーム毎に算出される(ステップS103)。
The synthesized speech waveform synthesized by the
パワー算出部103では、音声合成波形から1フレームの時間区間を切り出し、例えばハニング窓やハミング窓等の窓処理を行う。パワー算出部103は、この1フレームの時間区間を窓処理することにより、切り出された窓掛け波形データの各サンプル値を2乗したものを累積した2乗平均値を求めて、これを当該フレームの波形パワー値とする。
The
また、パワー算出部103は、このような波形パワー算出処理を各フレーム間隔で行うことで、窓掛け波形データの各フレームの波形パワーの時系列を得る。
Further, the
次に、パワー算出部103により算出された各フレームの波形パワーは、振動生成部104に与えられる。振動生成部104では、各フレームの波形パワー値に応じた物理振動量が求められる(ステップS104)。
Next, the waveform power of each frame calculated by the
振動生成部104では、各フレームの波形パワー値の大きさに比例するよう、振動伝導部105を振動させる物理振動量を求めることができればよく、例えば、各フレームの波形パワー値に所定の定数を乗算して物理振動量を求めたり、各フレームの波形パワー値を量子化し、その量子化値に対応する物理振動量を求めたりすること等で実現できる。
The
また、振動生成部104は、各フレームの波形パワー値に応じた物理振動量を求めるが、パワー算出部103が各フレームの波形パワー値を時系列で求めるため、振動生成部104が求める物理振動量も各フレームについて時系列のものとなる。
The
振動伝導部105は、振動生成部104により生成された物理振動量により利用者に対して振動を伝導する(ステップS105)。
The
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、利用者がテキスト入力すると、スピーカ等の出力部から合成音声が出力されると共に、利用者の頸部等に合成音声の大きさに応じた振動がフィードバックされるので、利用者に心理的な側面でのより強い安心感を与えることができる。
(A-3) Effects of the First Embodiment As described above, according to the first embodiment, when a user inputs text, a synthesized speech is output from an output unit such as a speaker, and the user's Since vibration corresponding to the magnitude of the synthesized speech is fed back to the neck or the like, it is possible to give the user a stronger sense of security in a psychological aspect.
(B)他の実施形態
第1の実施形態では、生成される音声波形の短時間パワーをバイブレータ等の振動伝導部を用いて頸部等にフィードバックする方法を説明したが、骨伝導スピーカなどを用いることで代替することも可能である。
(B) Other Embodiments In the first embodiment, the method of feeding back the short-time power of the generated speech waveform to the neck or the like using a vibration conducting unit such as a vibrator has been described. It is also possible to substitute by using it.
100…振動伝導部、101…テキスト入力部、102…音声合成部、103…パワー算出部103…振動生成部、105…振動伝導部、106…出力部。
DESCRIPTION OF SYMBOLS 100 ... Vibration conduction part, 101 ... Text input part, 102 ... Speech synthesis part, 103 ...
Claims (6)
上記音声波形生成手段からの上記音声波形に基づき所定の時間区間毎の波形パワー値を算出する波形パワー算出手段と、
上記波形パワー算出手段からの上記各時間区間の波形パワー値に応じた物理振動量を求める物理振動変換手段と、
上記各時間区間の波形パワー値に応じた物理振動量に基づく振動を発話者に与える振動伝導手段と
を備えることを特徴とする発話補助装置。 Speech waveform generation means for generating a speech waveform based on text input through the text input means;
Waveform power calculation means for calculating a waveform power value for each predetermined time interval based on the voice waveform from the voice waveform generation means;
Physical vibration conversion means for obtaining a physical vibration amount according to the waveform power value of each time interval from the waveform power calculation means;
An utterance assisting device comprising: vibration conduction means for providing a speaker with vibration based on a physical vibration amount corresponding to the waveform power value in each time interval.
上記振動伝導手段が、発話者の喉、頬骨又は頸部に接触可能なものであり、上記音声出力手段から音声が出力されるタイミングで、当該出力音声に対応する上記時間区間の波形パワー値に応じた振動を発話者に伝えるものである
ことを特徴とする請求項1に記載の発話補助装置。 Voice output means for outputting voice corresponding to the voice waveform from the voice waveform generation means;
The vibration conducting means is capable of contacting the throat, cheekbone or neck of the speaker, and at the timing when the voice is output from the voice output means, the waveform power value of the time interval corresponding to the output voice is obtained. The utterance assisting device according to claim 1, wherein the corresponding vibration is transmitted to a speaker.
音声波形生成手段が、上記テキスト入力手段を通じて入力されたテキストに基づいて音声波形を生成する音声波形生成工程と、
波形パワー算出手段が、上記音声波形生成手段からの上記音声波形に基づき所定の時間区間毎の波形パワー値を算出する波形パワー算出工程と、
物理振動変換手段が、上記波形パワー算出手段からの上記各時間区間の波形パワー値に応じた物理振動量を求め、この物理振動量を上記振動伝導手段に供給する物理振動変換工程と
を有することを特徴とする発話補助方法。 An utterance assisting method of an utterance assisting device comprising text input means and vibration conducting means,
A voice waveform generation step for generating a voice waveform based on the text input through the text input means;
A waveform power calculation step in which a waveform power calculation means calculates a waveform power value for each predetermined time interval based on the voice waveform from the voice waveform generation means;
A physical vibration converting means for obtaining a physical vibration amount corresponding to the waveform power value of each time interval from the waveform power calculating means and supplying the physical vibration amount to the vibration conducting means; An utterance assistance method characterized by
上記テキスト入力手段を通じて入力されたテキストに基づいて音声波形を生成する音声波形生成手段、
上記音声波形生成手段からの上記音声波形に基づき所定の時間区間毎の波形パワー値を算出する波形パワー算出手段と、
上記波形パワー算出手段からの上記各時間区間の波形パワー値に応じた物理振動量を求め、この物理振動量を上記振動伝導手段に供給する物理振動変換手段
として機能させることを特徴とする発話補助プログラム。 An utterance assisting device comprising a text input means and a vibration conduction means,
Speech waveform generation means for generating a speech waveform based on the text input through the text input means;
Waveform power calculating means for calculating a waveform power value for each predetermined time interval based on the voice waveform from the voice waveform generating means;
An utterance assist characterized by obtaining a physical vibration amount corresponding to the waveform power value of each time interval from the waveform power calculation means and functioning as a physical vibration conversion means for supplying the physical vibration amount to the vibration conduction means program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009073796A JP2010224392A (en) | 2009-03-25 | 2009-03-25 | Utterance support device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009073796A JP2010224392A (en) | 2009-03-25 | 2009-03-25 | Utterance support device, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010224392A true JP2010224392A (en) | 2010-10-07 |
Family
ID=43041619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009073796A Pending JP2010224392A (en) | 2009-03-25 | 2009-03-25 | Utterance support device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010224392A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101742092B1 (en) * | 2016-08-16 | 2017-06-15 | 장준형 | Computer-readable Recording Media recorded with Program for displaying Characters as a form of Vibration to visually impaired persons |
CN108831502A (en) * | 2018-05-04 | 2018-11-16 | 深圳市沃特沃德股份有限公司 | Caution sound identified off-line method and device |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000308198A (en) * | 1999-02-16 | 2000-11-02 | Gm & M:Kk | Hearing and |
JP2003150188A (en) * | 2001-08-31 | 2003-05-23 | Hiraiwa Tekkosho:Kk | Interaction support device for hearing-impaired person |
JP2003163716A (en) * | 2001-11-26 | 2003-06-06 | Sanyo Electric Co Ltd | Communication device |
JP2003208188A (en) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | Japanese text voice synthesizing method |
JP3498705B2 (en) * | 1997-09-08 | 2004-02-16 | 株式会社電制 | Electric artificial larynx |
JP2004260649A (en) * | 2003-02-27 | 2004-09-16 | Toshiba Corp | Portable information terminal device |
JP2008242234A (en) * | 2007-03-28 | 2008-10-09 | Tatsu Ifukube | Electronic artificial larynx |
-
2009
- 2009-03-25 JP JP2009073796A patent/JP2010224392A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3498705B2 (en) * | 1997-09-08 | 2004-02-16 | 株式会社電制 | Electric artificial larynx |
JP2000308198A (en) * | 1999-02-16 | 2000-11-02 | Gm & M:Kk | Hearing and |
JP2003150188A (en) * | 2001-08-31 | 2003-05-23 | Hiraiwa Tekkosho:Kk | Interaction support device for hearing-impaired person |
JP2003163716A (en) * | 2001-11-26 | 2003-06-06 | Sanyo Electric Co Ltd | Communication device |
JP2003208188A (en) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | Japanese text voice synthesizing method |
JP2004260649A (en) * | 2003-02-27 | 2004-09-16 | Toshiba Corp | Portable information terminal device |
JP2008242234A (en) * | 2007-03-28 | 2008-10-09 | Tatsu Ifukube | Electronic artificial larynx |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101742092B1 (en) * | 2016-08-16 | 2017-06-15 | 장준형 | Computer-readable Recording Media recorded with Program for displaying Characters as a form of Vibration to visually impaired persons |
CN108831502A (en) * | 2018-05-04 | 2018-11-16 | 深圳市沃特沃德股份有限公司 | Caution sound identified off-line method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10490181B2 (en) | Technology for responding to remarks using speech synthesis | |
JP4125362B2 (en) | Speech synthesizer | |
JP4355772B2 (en) | Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program | |
US8484035B2 (en) | Modification of voice waveforms to change social signaling | |
Doi et al. | Alaryngeal speech enhancement based on one-to-many eigenvoice conversion | |
JP2023539888A (en) | Synthetic data augmentation using voice conversion and speech recognition models | |
Raitio et al. | Synthesis and perception of breathy, normal, and lombard speech in the presence of noise | |
Raitio et al. | Analysis and synthesis of shouted speech | |
Vojtech et al. | The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech | |
Konno et al. | Whisper to normal speech conversion using pitch estimated from spectrum | |
JP6648805B2 (en) | Voice control method, voice control device, and program | |
JPH11175082A (en) | Voice interaction device and voice synthesizing method for voice interaction | |
JP2010224392A (en) | Utterance support device, method, and program | |
Duez | Acoustico-phonetic characteristics of filled pauses in spontaneous French speech: preliminary results | |
Petrushin et al. | Whispered speech prosody modeling for TTS synthesis | |
JP5518621B2 (en) | Speech synthesizer and computer program | |
JP6424419B2 (en) | Voice control device, voice control method and program | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JP3575919B2 (en) | Text-to-speech converter | |
CN113255313B (en) | Music generation method, device, electronic equipment and storage medium | |
Takeuchi et al. | Hands-free wearable electrolarynx using linear predictive coding residual waves and listening evaluation | |
KR20040015605A (en) | Method and apparatus for synthesizing virtual song | |
JP4056647B2 (en) | Waveform connection type speech synthesis apparatus and method | |
JP2908720B2 (en) | Synthetic based conversation training device and method | |
WO2015019835A1 (en) | Electric artificial larynx device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121211 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130409 |