JP5052107B2 - Voice reproduction device and voice reproduction method - Google Patents
Voice reproduction device and voice reproduction method Download PDFInfo
- Publication number
- JP5052107B2 JP5052107B2 JP2006317304A JP2006317304A JP5052107B2 JP 5052107 B2 JP5052107 B2 JP 5052107B2 JP 2006317304 A JP2006317304 A JP 2006317304A JP 2006317304 A JP2006317304 A JP 2006317304A JP 5052107 B2 JP5052107 B2 JP 5052107B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit
- bone conduction
- data
- conduction sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、体内伝達音から音声を再生する音声再現装置及び音声再現方法に関する。 The present invention relates to a sound reproduction device and a sound reproduction method for reproducing sound from in-body transmitted sound.
近年、人対人の通信コミュニケーションは、従来の固定電話を用いたものから携帯電話を用いたモバイルコミュニケーションに主流が移行しており、国内だけでも数千万台もの携帯電話が普及している。また、コミュニケーションを媒介する方法として単なる音声の伝送のみでなく、メールや写真、TV電話など様々な情報の伝達技術が次々に開発され実際に普及している。
しかし、やはり携帯電話の主な利用目的は人対人の対話であるため、その普及による社会的な悪影響も多く、図書館など静かな場所での携帯電話の通話、深夜の大声で通話、電車内での通話などは迷惑行為とも言えるものである。しかしそうした行為に対しては、社会的なモラルに反する行為として啓発の努力をするしかなく、実際にはそうした行為を止めることば困難である。
そうした現状を試み、実際には発話することなく音声の出力(合成)が可能な体内伝導音声からの音声の認識原理に基づく「無音声電話」の技術が提案されている(非特許文献1,2参照)。
In recent years, the mainstream of person-to-person communication communication has shifted from mobile telephones using conventional fixed telephones to mobile communication using mobile telephones, and tens of millions of mobile telephones have become widespread in Japan alone. Also, as a method of mediating communication, not only simple voice transmission but also various information transmission techniques such as e-mails, photographs, and videophones have been developed one after another and are in widespread use.
However, since the main purpose of using mobile phones is person-to-person dialogues, there are many social adverse effects due to their spread. Mobile phone calls in quiet places such as libraries, loud calls late at night, on the train Calls such as can be said to be a nuisance. However, it is difficult to stop such acts in practice, as it is only an effort to raise awareness as an act contrary to social morals.
A trial of such a present situation, and a technique of “no voice call” based on the principle of speech recognition from body-conducted speech that can output (synthesize) speech without actually speaking is proposed (Non-Patent
このような技術によって、原理的には体内伝導音から音声を再現し伝送することができる見通しが得られている。
「背景技術」で述べたように、原理的には体内伝導音からの音声の再現は可能となった。しかし、実用面では、利用者が容易な形で利用者個人の音声を再現することが困難であるという問題点がある。以下にその問題点を示す。 As described in "Background Art", in principle, it is possible to reproduce sound from body conduction sounds. However, in practice, there is a problem that it is difficult for the user to reproduce the voice of the individual user in an easy manner. The problems are shown below.
前述した「無音声電話」を通常用いられている電話のように利用するためには、当然話者の個性が再現された音声を生成する必要がある。そのためには個人の音声や体内伝導音をある程度集めて学習を行う必要がある。しかし、そのような音声収集の際、利用者は単調で面白みもない発話を長時間行わなければならない。こうした発声作業は一般的には好まれない。そのため、こうした手順を必要とする機器は普及が困難になるため、実際にはこうした学習方法をとることができず個人の再現が困難になるという問題がある。このような課題は体内伝導音から音声を再生する技術一般に共通するものであり、前述した「無音声電話」に限るものではない。
本発明はこのような点に鑑みてなされたものであり、利用者に煩雑な作業をさせることなく、体内伝達音から利用者個人の音声を再生することが可能な技術を提供することを目的とする。
In order to use the above-described “voiceless phone” like a phone that is usually used, it is naturally necessary to generate a voice in which the individuality of the speaker is reproduced. In order to do so, it is necessary to collect a certain amount of individual voices and body conduction sounds for learning. However, during such voice collection, the user must utter a monotonous and uninteresting utterance for a long time. Such vocalization is generally not preferred. For this reason, since it is difficult to disseminate devices that require such procedures, there is a problem in that it is difficult to actually use such a learning method and it is difficult to reproduce an individual. Such a problem is common to the technology for reproducing sound from in-body conduction sound, and is not limited to the above-mentioned “voiceless telephone”.
The present invention has been made in view of these points, and an object of the present invention is to provide a technique capable of reproducing a user's personal voice from in-vivo transmitted sound without causing the user to perform complicated operations. And
本発明では上記課題を解決するために、発話に起因する体内伝導音を集音する体内伝導音集音部と、音声を集音する音声集音部と、声帯運動を伴う発話時に体内伝導音集音部で集音された体内伝達音のデータと、これと同時に音声集音部で集音された音声のデータとを時間的に同期させ、これらを体内伝導音と音声とを対応付ける音声対応付けモデルを学習させるために計算機に送信し、さらに、声帯運動を伴わない発話時に体内伝導音集音部で集音された体内伝達音のデータを計算機に送信する第1送信部と、声帯運動を伴わない発話時に体内伝導音集音部で集音された体内伝達音のデータに対して計算機が音声対応付けモデルを用いて生成した音声のデータを受信する第1受信部と、を有する音声再現装置が提供される。 In the present invention, in order to solve the above-mentioned problems, a body conduction sound collection unit that collects body conduction sound caused by speech, a sound collection unit that collects speech, and a body conduction sound during speech with vocal cord movement Voice correspondence that synchronizes temporally the data of the body-transmitted sound collected by the sound collection unit and the data of the sound collected by the sound collection unit at the same time, and associates these with the body conduction sound A first transmission unit that transmits to the computer to learn the attached model, and further transmits to the computer the data of the body-transmitted sound collected by the body-conducted sound collection unit during speech without accompanying vocal cord movement, and vocal cord movement A first receiving unit that receives voice data generated by a computer using a voice association model with respect to in-vivo transmitted sound data collected by the in-body conduction sound collecting unit during utterance without speech A reproduction device is provided.
なお「発話に起因する体内伝達音」とは、発話時に口周囲や舌等の発話器官の運動によって生じ、人間の軟部組織の振動によって伝達される音を意味する。また「発話に起因する体内伝導音」には、声帯運動を伴う発話に起因する体内伝導音と、声帯運動を伴わない発話に起因する体内伝導音とを含む。また「声帯運動」とは、声帯を振動させたり声門を狭めたりする運動を意味し、「声帯運動を伴わない発話」とは、「非可聴つぶやき(Non-Audible Murmur: NAM)」を意味する。 The “internally transmitted sound due to speech” means sound transmitted by vibration of a human soft tissue caused by movement of a speech organ such as the periphery of the mouth or tongue during speech. In addition, the “body conduction sound caused by speech” includes body conduction sound caused by speech accompanied by vocal cord movement and body conduction sound caused by speech not accompanied by vocal cord movement. “Glottal movement” means movement that vibrates the vocal cords and narrows the glottis, and “utterance without vocal cord movement” means “Non-Audible Murmur (NAM)”. .
ここで本発明の音声再現装置は、声帯運動を伴う通常の発話時に、音声集音部によって通常の音声を集音するとともに、体内伝導音集音部によって当該発話に起因する体内伝導音を集音する。そして、当該音声再現装置は、このように集音した音声のデータと体内伝達音のデータとを時間的に同期させ、これらを体内伝導音と音声とを対応付ける音声対応付けモデルを学習させるために計算機に送信する。計算機は、このように時間的に同期した音声のデータと体内伝達音のデータとを用い、音声対応付けモデルの学習を行うことができる。このように本発明では、通常の発話時に収集したデータのみによって学習データを収集する構成であるため、利用者は学習データ収集のために予め単調で面白みもない発話を長時間行う必要はない。また、本発明では、一般的に最も多用されると考えられる通常通話時に学習を行うため、利用者に学習作業に関する負担をかけることなく、モデル学習を十分に行うことができる。なお、「体内伝導音集音」は、口周囲や舌等の発話器官の運動によって生じる音であり、発話が声帯運動を伴うか否かによって影響を受けることはほとんどない。よって、声帯運動を伴う通常の発話時に集音された体内伝導音から抽出した特徴量を学習データとして用いることに問題はない。逆に、本発明では、声帯運動を伴う通常の発話から音声と体内伝導音集音とを同時に集話するため、音声と体内伝導音集音とを別々に集話する場合に比べて適切な学習データが収集できる。また、本発明では、音声と体内伝導音とを同時に集話するため、学習データ収集時点でそれらを時間的に同期させることも容易である。そのため、学習時に統計的にこれらを対応付ける場合に比べて学習時の演算数を低減できる。さらには、対応付けの誤りによってモデルの分散が増加し、結果的に再現音声の品質が劣化してしまうことも殆どない。 Here, the speech reproduction device of the present invention collects normal speech by the sound collection unit during normal speech accompanied by vocal cord movement, and collects in-body conduction sound resulting from the utterance by the in-body conduction sound collection unit. Sound. Then, the sound reproduction device synchronizes temporally the sound data collected in this way and the data of the in-vivo transmission sound, and learns a sound association model that associates the conduction sound with the sound in the body. Send to the computer. The computer can learn the voice association model by using the time-synchronized voice data and the in-vivo transmission sound data. As described above, according to the present invention, learning data is collected only by data collected at the time of normal utterance. Therefore, the user does not need to perform a monotonous and uninteresting utterance in advance for collecting learning data for a long time. Further, in the present invention, learning is performed during a normal call that is generally considered to be most frequently used, so that model learning can be sufficiently performed without placing a burden on the learning work on the user. Note that “in-body conduction sound collection” is a sound generated by the movement of a speech organ such as the periphery of the mouth or tongue, and is hardly affected by whether or not the speech is accompanied by vocal cord movement. Therefore, there is no problem in using the feature value extracted from the body conduction sound collected during normal speech accompanied by vocal cord movement as learning data. On the contrary, in the present invention, since speech and in-vivo conduction sound collection are collected simultaneously from normal speech accompanied by vocal cord movement, it is more appropriate than collecting speech and in-body conduction sound collection separately. Learning data can be collected. In the present invention, since the voice and the body conduction sound are collected simultaneously, it is easy to synchronize them at the time of learning data collection. Therefore, the number of operations during learning can be reduced as compared with a case where these are statistically associated with each other during learning. Furthermore, the variance of the model increases due to an error in association, and as a result, the quality of reproduced speech is hardly degraded.
また、本発明の音声再現装置は、好ましくは、第1受信部が受信した音声のデータから音声を再生する音声再生部をさらに有する。これにより、体内伝導音から発話を再生する際に再生された音声を発話者にフィードバックすることができる。通常、人が発声する場合は常に自分の音声を聴取することで自分の発話を制御している。実際、後天的な聴覚障害者でも発話が困難になるという傾向があるし、自分の声が開き取れない環境での発話を長く続けていると非常に崩れた発話になったり、発話自体が困難になったりする。体内伝導音から再生された音声を利用者にフィードバックすることにより、利用者は良好に体内伝導音による発話を行うことができる。 In addition, the audio reproduction device of the present invention preferably further includes an audio reproduction unit that reproduces audio from audio data received by the first reception unit. Thereby, the sound reproduced when reproducing the utterance from the body conduction sound can be fed back to the speaker. Usually, when a person speaks, his / her speech is controlled by listening to his / her voice. In fact, even people with acquired hearing disabilities tend to have difficulty in speaking, and if they continue speaking in an environment where their voice cannot be opened for a long time, the speech may become very corrupted or the speech itself is difficult It becomes. By feeding back the sound reproduced from the body conduction sound to the user, the user can satisfactorily speak by the body conduction sound.
また、本発明の音声再現装置は、好ましくは、発話に起因する骨導音の集音及び骨導音の再生を行う骨導振動部をさらに有する。そして、第1送信部は、さらに、声帯運動を伴う発話時に体内伝導音集音部で集音された体内伝達音のデータと、これと同時に骨導振動部で集音された骨導音のデータとを時間的に同期させ、これらを体内伝導音と骨導音とを対応付ける骨導音対応付けモデルを学習させるために計算機に送信する。また、第1受信部は、声帯運動を伴わない発話時に体内伝導音集音部で集音された体内伝達音のデータに対して計算機が骨導音対応付けモデルを用いて生成した骨導音のデータを受信し、骨導振動部は、第1受信部が受信した骨導音のデータから骨導音を再生する。この場合、体内伝導音集から再生した骨導音を発話者にフィードバックすることができる。 In addition, the sound reproduction device of the present invention preferably further includes a bone conduction vibration unit that collects bone conduction sound due to speech and reproduces the bone conduction sound. The first transmission unit further transmits the data of the body conduction sound collected by the body conduction sound collection unit during speech with vocal cord movement and the bone conduction sound collected by the bone conduction vibration unit at the same time. The data is temporally synchronized, and these are transmitted to the computer in order to learn a bone conduction sound association model that correlates the body conduction sound and the bone conduction sound. In addition, the first receiving unit generates a bone conduction sound generated by the computer using the bone conduction sound association model with respect to the data of the body conduction sound collected by the body conduction sound collection unit during speech without accompanying vocal cord movement. The bone conduction vibration unit reproduces the bone conduction sound from the bone conduction sound data received by the first reception unit. In this case, the bone conduction sound reproduced from the body conduction sound collection can be fed back to the speaker.
前述のように体内伝達音から再現した音声のみを発話者にフィードバックする場合、そのフィードバック音は発話者の耳のみから聴取される。この場合、発話者は自分の発話した音声を録音したものを聞く場合に感じるような違和感を持つ。その理由は、通常人間は自分の発話した音声を頭蓋内で伝わる音声と耳から聞こえる音声とで重畳して内耳で聴取しており、耳のみで聴取した音声は通常人が聴取する音と異なるからである。これに対し、本発明の当該好ましい構成では、体内伝導音集から再生した骨導音を発話者にフィードバックできるため、発話者は違和感なく体内伝導音による発話を行うことができる。 As described above, when only the sound reproduced from the body-transmitted sound is fed back to the speaker, the feedback sound is heard only from the speaker's ear. In this case, the speaker feels uncomfortable as if he / she listened to a recording of his / her speech. The reason for this is that humans usually listen to the inner ear by superimposing the voice spoken in the skull and the sound heard from the ear, and the sound heard only by the ear is different from the sound normally heard by the human. Because. On the other hand, in the preferable configuration of the present invention, since the bone conduction sound reproduced from the body conduction sound collection can be fed back to the speaker, the speaker can utter the body conduction sound without a sense of incongruity.
また、音声のみが発話者にフィードバックされて聴取される構成の場合、場合によっては、発話者が発話した音声と話し相手が発話した音声とが重なってしまい、相手の音声の聴取が困難になってしまうこともある。これに対し、骨導音を発話者にフィードバックする構成ではこのような問題は生じず、相手の発話の聞き取りが阻害されることなく円滑な対話が可能となる。骨導音は話し相手の音声と錯綜しないからである。 In addition, in the case of a configuration in which only the voice is fed back to the speaker and listened, in some cases, the voice spoken by the speaker and the voice spoken by the other party overlap, making it difficult to listen to the other party's voice. Sometimes it ends up. On the other hand, such a problem does not occur in the configuration in which the bone conduction sound is fed back to the speaker, and smooth conversation is possible without obstructing the listening of the partner's speech. This is because the bone conduction sound does not confuse the voice of the other party.
また、図書館等の非常に静粛な環境では、ヘッドフォンからの音漏れも問題となる場合もあり、こうした環境では体内伝達音から再現した音声のフィードバックそのものが難しい。これに対し、骨導音を発話者にフィードバックする構成ではこのような問題は生じない。骨導音は音漏れを生じないため、環境に依存することなく、再生された発話を発話者にフィードバックすることができる。 Also, in a very quiet environment such as a library, sound leakage from headphones may be a problem, and in such an environment, it is difficult to provide feedback of the sound reproduced from the body-transmitted sound. On the other hand, such a problem does not occur in the configuration in which the bone conduction sound is fed back to the speaker. Since the bone conduction sound does not cause sound leakage, the reproduced utterance can be fed back to the speaker without depending on the environment.
また、この構成では、利用者は骨導音対応付けモデルの学習データ収集の為に予め単調で面白みもない発話を長時間行う必要はなく、一般的に最も多用されると考えられる通常通話時に学習を行うため、利用者に学習作業に関する負担をかけることなく、モデル学習を十分に行うことができる。さらに、この構成では、声帯運動を伴う通常の発話から骨導音と体内伝導音集音とを同時に集話するため、骨導音と体内伝導音集音とを別々に集話する場合に比べて適切な学習データが収集でき、それらを時間的に同期させることも容易である。 In addition, in this configuration, the user does not need to make a monotonous and interesting utterance for a long time in order to collect learning data of the bone-conducted sound correspondence model, and is generally considered to be most frequently used during normal calls. Since learning is performed, model learning can be sufficiently performed without placing a burden on the learning work on the user. Furthermore, in this configuration, since the bone conduction sound and the body conduction sound collection sound are collected simultaneously from the normal utterance accompanied by the vocal cord movement, the bone conduction sound and the body conduction sound collection sound are collected separately. Therefore, it is easy to collect appropriate learning data and synchronize them in time.
また、本発明の音声再現装置は、好ましくは、声帯運動を伴う発話時であるか声帯運動を伴わない発話時であるかを示す入力操作を受け付ける発話状態入力部をさらに有する。発話状態入力部に対する入力操作が声帯運動を伴う発話時を示すものであった場合、第1送信部は、体内伝導音集音部で集音された体内伝達音のデータと、これと同時に音声集音部で集音された音声のデータとを時間的に同期させて計算機に送信し、音声再生部は、音声の再生を行わず、発話状態入力部に対する入力操作が声帯運動を伴わない発話時を示すものであった場合、第1送信部は、体内伝導音集音部で集音された体内伝達音のデータのみを計算機に送信し、第1受信部は、音声のデータを受信し、音声再生部は、当該音声のデータから音声を再生する。なお、「体内伝達音のデータのみを計算機に送信」とは、体内伝達音のデータと一緒に音声のデータや骨導音のデータを計算機に送信しないことを意味する。体内伝達音のデータと制御データ等を一緒に計算機に送信することも「体内伝達音のデータのみを計算機に送信」に含まれる。
これにより、モデル学習時と体内伝導音からの音声再生時との切り替えを容易に実現できる。
The speech reproduction apparatus of the present invention preferably further includes an utterance state input unit that receives an input operation indicating whether the utterance is accompanied by vocal cord movement or the utterance does not involve vocal cord movement. When the input operation to the utterance state input unit indicates an utterance accompanied by vocal cord movement, the first transmission unit transmits the in-vivo transmission sound data collected by the in-body conduction sound collection unit and the voice at the same time. The voice data collected by the sound collection unit is sent to the computer in time synchronization, and the voice playback unit does not play back the voice, and the input operation to the speech state input unit does not involve vocal cord movement. In the case of indicating the time, the first transmission unit transmits only the data of the in-vivo transmission sound collected by the in-body conduction sound collection unit to the computer, and the first reception unit receives the audio data. The sound reproduction unit reproduces sound from the sound data. Note that “transmit only in-body transmission sound data to the computer” means that voice data and bone conduction sound data are not transmitted to the computer together with in-body transmission sound data. Transmitting only the data of internal body sound and control data together to the computer is also included in “send only body sound data to computer”.
As a result, it is possible to easily realize switching between model learning and sound reproduction from the body conduction sound.
また、本発明の音声再現装置は、好ましくは、声帯運動を伴う発話時であるか声帯運動を伴わない発話時であるかを示す入力操作を受け付ける発話状態入力部をさらに有する。発話状態入力部に対する入力操作が声帯運動を伴う発話時を示すものであった場合、第1送信部は、体内伝導音集音部で集音された体内伝達音のデータと、これと同時に骨導振動部で集音された骨導音のデータとを時間的に同期させて計算機に送信し、骨導振動部は、骨導音の再生を行わず、発話状態入力部に対する入力操作が声帯運動を伴わない発話時を示すものであった場合、第1送信部は、体内伝導音集音部で集音された体内伝達音のデータのみを計算機に送信し、第1受信部は、骨導音のデータを受信し、骨導振動部は、当該骨導音のデータから骨導音を再生する。
これにより、モデル学習時と体内伝導音からの音声再生時との切り替えを容易に実現できる。
The speech reproduction apparatus of the present invention preferably further includes an utterance state input unit that receives an input operation indicating whether the utterance is accompanied by vocal cord movement or the utterance does not involve vocal cord movement. When the input operation to the utterance state input unit indicates an utterance accompanied by vocal cord movement, the first transmission unit transmits the data of the body-transmitted sound collected by the body conduction sound collection unit and the bone at the same time. The bone conduction sound data collected by the conduction vibration unit is temporally synchronized and transmitted to the computer. The bone conduction vibration unit does not reproduce the bone conduction sound, and the input operation to the utterance state input unit is a vocal cord. In the case of indicating an utterance without movement, the first transmission unit transmits only the data of the in-vivo transmission sound collected by the internal conduction sound collection unit to the computer, and the first reception unit The bone conduction vibration unit receives the sound conduction data and reproduces the bone conduction sound from the bone conduction sound data.
As a result, it is possible to easily realize switching between model learning and sound reproduction from the body conduction sound.
また、本発明の音声再現装置は、好ましくは、計算機は、音声再現装置から送信されたデータを受信する第2受信部と、体内伝達音のデータを用い、体内伝達音の特徴量を抽出する第1特徴量抽出部と、音声のデータを用い、音声の特徴量を抽出する第2特徴量抽出部と、時間的に同期した体内伝達音の特徴量と音声の特徴量とを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の音声の特徴量との対応関係を示す音声対応付けモデルのパラメータを算出する音声学習部と、音声学習部で算出されたパラメータと、体内伝達音の特徴量とを用い、体内伝達音の特徴量に対応する音声の特徴量を算出する音声対応付けモデル適用部と、音声対応付けモデル適用部で算出された音声の特徴量を用い、音声のデータを生成する音声復元部と、音声復元部で生成された音声のデータを音声再現装置に送信する第2送信部と、を有し、第2受信部が時間的に同期した体内伝達音のデータと音声のデータとを受信した場合、第1特徴量抽出部は、第2受信部が受信した体内伝達音のデータを用いて体内伝達音の特徴量を抽出し、第2特徴量抽出部は、第2受信部が受信した音声のデータを用いて音声の特徴量を抽出し、音声学習部は、これらの特徴量を用いて音声対応付けモデルのパラメータを算出し、第2受信部が体内伝達音のデータのみを受信した場合、第1特徴量抽出部は、第2受信部が受信した体内伝達音のデータを用いて体内伝達音の特徴量を抽出し、音声対応付けモデル適用部は、抽出された体内伝達音の特徴量と音声学習部で算出されたパラメータとを用い、当該体内伝達音の特徴量に対応する音声の特徴量を算出し、音声復元部は、算出された音声の特徴量を用いて音声のデータを生成し、第2送信部は、音声復元部で生成された音声のデータを音声再現装置に送信する。 In the sound reproduction device of the present invention, preferably, the computer uses the second reception unit that receives data transmitted from the sound reproduction device and the data of the in-vivo transmission sound to extract the feature amount of the in-body transmission sound. The first feature quantity extraction unit, the second feature quantity extraction unit that extracts voice feature quantity using voice data, and the temporally synchronized in-vivo transmitted sound feature quantity and voice feature quantity correspond to each other A learning unit that calculates a parameter of a speech association model indicating a correspondence relationship between a feature amount of an arbitrary in-vivo transmitted sound and a feature amount of an arbitrary speech, and a speech learning unit. The voice association model application unit for calculating the feature amount of the voice corresponding to the feature amount of the in-vivo transmission sound, and the voice of the voice calculated by the voice association model application unit Using features, audio And a second transmission unit that transmits the audio data generated by the audio restoration unit to the audio reproduction device, and the second reception unit synchronizes with time. When the data and the voice data are received, the first feature amount extraction unit extracts the feature amount of the in-vivo transmission sound using the in-vivo transmission sound data received by the second reception unit, and the second feature amount extraction unit Uses the speech data received by the second receiving unit to extract speech feature values, the speech learning unit uses these feature values to calculate parameters of the speech association model, and the second receiving unit When only the in-body transmission sound data is received, the first feature amount extraction unit extracts the in-body transmission sound feature amount using the in-body transmission sound data received by the second reception unit, and the speech association model application unit Is the extracted feature value of the internal transmission sound and the parameter calculated by the speech learning unit. The voice feature amount corresponding to the feature amount of the in-vivo transmitted sound is calculated, and the voice restoration unit generates voice data using the calculated voice feature amount, and the second transmission unit Transmits the voice data generated by the voice restoration unit to the voice reproduction device.
ここで、当該計算機は、第2受信部が時間的に同期した体内伝達音のデータと音声のデータとを受信したか、体内伝達音のデータのみを受信したかによって、モデル学習処理とモデル適用処理とを切り替えている。これにより、音声再現装置で煩雑な処理を行うことなく、発話者の発話状態に応じて、モデル学習処理とモデル適用処理とを適宜切り替えることができる。 Here, the computer performs model learning processing and model application depending on whether the second receiving unit has received time-synchronized in-vivo transmission sound data and audio data or only in-body transmission sound data. Switching between processing. Thus, the model learning process and the model application process can be appropriately switched according to the utterance state of the speaker without performing complicated processes in the voice reproduction device.
また、本発明の音声再現装置は、好ましくは、計算機は、音声再現装置から送信されたデータを受信する第2受信部と、体内伝達音のデータを用い、体内伝達音の特徴量を抽出する第1特徴量抽出部と、骨導音のデータを用い、骨導音の特徴量を抽出する第3特徴量抽出部と、時間的に同期した体内伝達音の特徴量と骨導音の特徴量とを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の骨導音の特徴量との対応関係を示す骨導音対応付けモデルのパラメータを算出する骨導音学習部と、骨導音学習部で算出されたパラメータと、体内伝達音の特徴量とを用い、体内伝達音の特徴量に対応する骨導音の特徴量を算出する骨導音対応付けモデル適用部と、骨導音対応付けモデル適用部で算出された骨導音の特徴量を用い、骨導音のデータを生成する骨導音復元部と、骨導音復元部で生成された骨導音のデータを音声再現装置に送信する第2送信部と、を有し、第2受信部が時間的に同期した体内伝達音のデータと骨導音のデータとを受信した場合、第1特徴量抽出部は、第2受信部が受信した体内伝達音のデータを用いて体内伝達音の特徴量を抽出し、第3特徴量抽出部は、第2受信部が受信した骨導音のデータを用いて骨導音の特徴量を抽出し、骨導音学習部は、これらの特徴量を用いて骨導音対応付けモデルのパラメータを算出し、第2受信部が体内伝達音のデータのみを受信した場合、第1特徴量抽出部は、第2受信部が受信した体内伝達音のデータを用いて体内伝達音の特徴量を抽出し、骨導音対応付けモデル適用部は、抽出された体内伝達音の特徴量と骨導音学習部で算出されたパラメータとを用い、当該体内伝達音の特徴量に対応する骨導音の特徴量を算出し、骨導音復元部は、算出された骨導音の特徴量を用いて骨導音のデータを生成し、第2送信部は、骨導音復元部で生成された骨導音のデータを音声再現装置に送信する。 In the sound reproduction device of the present invention, preferably, the computer uses the second reception unit that receives data transmitted from the sound reproduction device and the data of the in-vivo transmission sound to extract the feature amount of the in-body transmission sound. A first feature quantity extraction unit; a third feature quantity extraction unit that extracts bone conduction sound feature data using bone conduction sound data; and a time-synchronized in-body transmission sound feature quantity and bone conduction sound feature Bones that calculate the parameters of the bone conduction sound correlation model that indicates the correspondence between the feature quantities of any body-borne sound and any bone conduction sound by learning processing. Use bone conduction sound to calculate bone conduction sound feature quantity corresponding to body conduction sound feature quantity using parameters calculated by bone conduction learning section, bone conduction sound learning section and body conduction sound feature quantity Bone conduction sound calculated by the attachment model application unit and the bone conduction sound matching model application unit A bone conduction sound restoration unit that generates bone conduction sound data using the collected amount, and a second transmission unit that transmits the bone conduction sound data generated by the bone conduction sound restoration unit to the sound reproduction device. When the second reception unit receives the time-synchronized in-body transmission sound data and bone conduction sound data, the first feature amount extraction unit uses the in-body transmission sound data received by the second reception unit. The third feature amount extraction unit extracts the bone conduction sound feature amount using the bone conduction sound data received by the second reception unit, and the bone conduction sound learning unit When the parameters of the bone conduction sound association model are calculated using these feature amounts, and the second reception unit receives only the data of the in-vivo transmission sound, the first feature amount extraction unit receives the second reception unit. The feature value of the body conduction sound is extracted using the data of the body conduction sound thus obtained, and the bone conduction sound matching model application unit Using the feature amount of the reaching sound and the parameter calculated by the bone conduction sound learning unit, the feature amount of the bone conduction sound corresponding to the feature amount of the in-vivo transmission sound is calculated, and the bone conduction sound restoration unit is calculated The bone conduction sound data is generated using the feature value of the bone conduction sound, and the second transmission unit transmits the bone conduction sound data generated by the bone conduction sound restoration unit to the sound reproducing device.
ここで、当該計算機は、第2受信部が時間的に同期した体内伝達音のデータと骨導音のデータとを受信したか、体内伝達音のデータのみを受信したかによって、モデル学習処理とモデル適用処理とを切り替えている。これにより、音声再現装置で煩雑な処理を行うことなく、発話者の発話状態に応じて、モデル学習処理とモデル適用処理とを適宜切り替えることができる。 Here, the computer performs model learning processing depending on whether the second receiving unit receives the data of the body conduction sound and the data of the bone conduction sound that are synchronized in time or only the data of the body conduction sound. Switching between model application processing. Thus, the model learning process and the model application process can be appropriately switched according to the utterance state of the speaker without performing complicated processes in the voice reproduction device.
以上のように本発明では、利用者に煩雑な作業をさせることなく、体内伝達音から利用者個人の音声を再生することができる。 As described above, according to the present invention, it is possible to reproduce the user's personal voice from the in-body transmitted sound without causing the user to perform complicated work.
以下、本発明を実施するための最良の形態を図面を参照して説明する。
〔第1実施形態〕
以下、この発明の第1実施形態を述べる。
<構成>
図1(a)は、本形態のシステム全体の構成を例示した概念図である。
The best mode for carrying out the present invention will be described below with reference to the drawings.
[First Embodiment]
The first embodiment of the present invention will be described below.
<Configuration>
FIG. 1A is a conceptual diagram illustrating the configuration of the entire system of this embodiment.
図1(a)に例示するように、本形態のシステムは、音声再現装置10と計算機20とを具備し、それらは接続線30を介して通信可能に電気信号的に接続されている。音声再現装置10は、体内伝導音から再現された音声を再生するためのヘッドフォンやイヤホンなどのスピーカ11(「音声再生部」に相当)、体内伝導音を収音するための体内伝導音用マイク12(「体内伝導音集音部」に相当)、通常音声を収音するための音声集音用マイク13(「音声集音部」に相当)、それらと電気的に接続された本体14及び声帯運動を伴う発話時であるか声帯運動を伴わない発話時であるかを示す入力操作を受け付ける切り替えスイッチ14a(「発話状態入力部」に相当)を有している。
As illustrated in FIG. 1A, the system according to the present embodiment includes an audio reproduction device 10 and a
ここで、体内伝導音用マイク12は、例えば、非特許文献2に記載された体表接着聴診器型マイクロフォンである。なお、最適な体内伝導音の集音のためには、この体内伝導音用マイク12が具備する振動板の上部の一部が、発話者の頭蓋底の耳孔のすぐ後ろの「乳様突起」と呼ばれる骨部分にかかるように取り付けることが望ましい(非特許文献2参照)。また、計算機20は、CPU(Central Processing Unit)やRAM(Random‐Access Memory)等から構成される一般的なPC(Personal Computer)でもよいし、CPUやRAM等を内蔵する携帯電話やPDA(Personal Digital Assistant)のような携帯機器であってもよいし、さらには本形態専用の計算処理可能な機器であってもよい。また、音声再現装置10と計算機20とは、別々の筺体内に構成されてもよいし、同一の筺体内に構成されてもよい。また、接続線30には、音声ケーブル、光ファイバ、ネットワークケーブル等、音声や体内伝導音声の伝送形式に対応した形態ものを用いればよい。音声再現装置10と計算機20とは、単にデジタル的に接続されていてもよいし、モデム等のネットワーク接続機器を通して接続されてもよい。また、音声再現装置10でD/A変換やA/D変換を行なわない構成とし、音声再現装置10と計算機20とをD/A変換器やA/D変換器を介して接続してもよい。
Here, the body conduction
図1(b)は、本形態の本体14の構成を例示した概念図である。
図1(b)に例示するように、本形態の本体14は、切り替えスイッチ14a、制御部14b、スイッチ14c,14d、A/D変換器14e,14f、同期部14g、D/A変換器14h、アンプ14i、送信部14j及び受信部14kを具備する。なお、制御部14b及び同期部14gは、例えば公知のコンピュータに所定のプログラムが読み込まれることにより構成されるものである。また、送信部14jや受信部14kは、伝送形式に対応した通信機器(例えば、ネットワークカードや光伝送モジュールなど)である。またA/D変換器14e,14fは、物理的な回路としては1個であってもよい。
FIG. 1B is a conceptual diagram illustrating the configuration of the
As illustrated in FIG. 1B, the
図1(b)に例示するように、受信部14kはスイッチ14cを介してD/A変換器14hと電気的に接続され、D/A変換器14hはアンプ14iを介してスピーカ11に電気的に接続される。また、送信部14jは、同期部14gと接続される。同期部14gは、スイッチ14dとA/D変換器14fとを介して音声集音用マイク13に電気的に接続され、A/D変換器14eを介して体内伝導音用マイク12に電気的に接続される。また、切り替えスイッチ14aは、その出力信号が制御部14bに入力可能に構成され、制御部14bはスイッチ14c,14dに対して制御信号を供給可能に構成される。なお、本体14は、制御部14bの制御のもと各処理を実行する。
また、本形態の計算機20には所定のプログラムが読み込まれ、CPUがそのプログラムを実行することにより各機能構成が実現される。図2は、このように実現される本形態の計算機20の機能構成を例示したブロック図である。
As illustrated in FIG. 1B, the receiving
Also, a predetermined program is read into the
図2に例示するように、本形態の計算機20は、受信部20a、判定部20b、第1特徴量抽出部20c、第2特徴量抽出部20d、記憶部20e,20g、音声学習部20f、音声対応付けモデル適用部20h、音声復元部20i、送信部20j、一時メモリ20k及び制御部20mを具備する。ここで、受信部20a及び送信部20jは、CPUの制御のもと駆動する伝送形式に対応した通信機器であり、記憶部20e,20g及び一時メモリ20kは、例えばRAM、レジスタ、ハードディスク又はそれらを複合した記憶領域である。また、判定部20b、第1特徴量抽出部20c、第2特徴量抽出部20d、音声学習部20f、音声対応付けモデル適用部20h、音声復元部20i及び制御部20mは、CPU上で所定のプログラムが実行されることにより構成されるものである。なお、計算機20は、制御部20mの制御のもと各処理を実行する。また、特に明記しない限り、各処理によって算出されたデータは一旦一時メモリ20kに格納され、必要に応じて読み出されるものとする。
As illustrated in FIG. 2, the
<音声再現装置10の動作>
次に、本形態の音声再現装置10の動作について説明する。
利用者は、声帯運動を伴う通常の発話を行うか、声帯振動を伴わない発話を行うかに応じ、切り替えスイッチ14aを切り替える。切り替えスイッチ14aのスイッチング状態は電気信号として制御部14bに入力される。制御部14bは、入力された電気信号が示す切り替えスイッチ14aのスイッチング状態に応じ、スイッチ14c,14dを以下のように制御する。
<Operation of the sound reproduction device 10>
Next, the operation of the sound reproduction device 10 of this embodiment will be described.
The user switches the
すなわち、切り替えスイッチ14aが声帯運動を伴う発話を示す状態にスイッチングされた場合、制御部14bは、スイッチ14cをOFFにし、スイッチ14dをONとする。一方、切り替えスイッチ14aが声帯運動を伴わない発話を示す状態にスイッチングされた場合、制御部14bは、スイッチ14cをONにし、スイッチ14dをOFFとする。このような状態において、声帯運動を伴う発話又は声帯運動を伴わない発話が行われると、音声再現装置10は以下のように動作する。
In other words, when the
[声帯運動を伴う発話時の動作(スイッチ14c:OFF,スイッチ14d:ON)]
発話者が声帯運動を伴う発話を行う場合、発話された通常の音声は音声集音用マイク13で集音されてアナログ電気信号に変換される。それと同時に、この発話に伴う体内伝達音が体内伝導音用マイク12で集音されてアナログ電気信号に変換される。集音された体内伝達音のアナログ電気信号と音声のアナログ電気信号とは、それぞれA/D変換器14e,14fでデジタル電気信号に変換され、同期部14gに入力される。同期部14gは、体内伝達音のデジタル電気信号と音声のデジタル電気信号とを時間的に同期させ、送信部14jに送る。なお、この同期は、例えば入力された順に、体内伝達音のデジタル電気信号と音声のデジタル電気信号とを離散時間毎に対応付けることによって行われる。また、時間的に同期させた体内伝達音のデジタル電気信号と音声のデジタル電気信号とには、制御部14bの制御のもと、例えば、信号の種別を示すデータなどの制御用データも付加される。送信部14jは、送られたデジタル電気信号をデジタルデータとして、或いは、特定のプロトコルに基づくネットワークデータとして、接続線30を経由して計算機20に送信する。なお、音声再現装置10にA/D変換器14e,14fを設けず、集音された体内伝達音のアナログ電気信号と音声のアナログ電気信号と時間的に同期させたアナログ電気信号をそのまま計算機20に送信する構成としてもよい。この場合には、計算機20がアナログ電気信号からデジタル信号への変換を行う。
[Operation when speaking with vocal cord movement (switch 14c: OFF,
When the speaker utters with vocal cord movement, the normal voice uttered is collected by the
このように計算機20に送信されたデータは、計算機20が体内伝導音と音声とを対応付ける音声対応付けモデルを学習するために用いられる。計算機20の処理は後述する。また、切り替えスイッチ14aが声帯運動を伴う発話を示す状態にスイッチングされている場合、制御部14bはスピーカ11や骨導振動子115での再生動作を実行させない。
The data transmitted to the
[声帯運動を伴わない発話時の動作(スイッチ14c:ON,スイッチ14d:OFF)]
発話者が声帯運動を伴わない発話を行う場合、その発話に伴う体内伝達音は、体内伝導音用マイク12で集音されてアナログ電気信号に変換される。集音された体内伝達音は、A/D変換器14fでデジタル電気信号に変換され、同期部14gに入力される。同期部14gは、制御部14bの制御のもと、当該体内伝達音のデジタル電気信号に対し、例えば、信号の種別を示すデータなどの制御用データを付加し、送信部14jに送る。送信部14jは、送られたデジタル電気信号をデジタルデータとして、或いは、特定のプロトコルに基づくネットワークデータとして、接続線30を経由して計算機20に送信する。なお、集音された体内伝達音のアナログ電気信号をそのまま計算機20に送信する構成としてもよい。この場合には、計算機20がアナログ電気信号からデジタル電気信号への変換を行う。
[Operation when speaking without vocal cord movement (switch 14c: ON,
When a speaker performs an utterance without accompanying vocal cord movement, the in-body transmission sound accompanying the utterance is collected by the in-body conduction
計算機20は、送られた体内伝達音のデータに対し、音声対応付けモデルを用いて音声のデータを生成し、生成した音声のデータをデジタル電気信号として音声再現装置10に送信する(計算機20の動作は後述)。計算機20から送信された音声のデジタル電気信号は音声再現装置10の受信部14kで受信され、スイッチ14cを介してD/A変換器14hに入力される。D/A変換器14hは、入力された音声のデジタル電気信号をアナログ信号に変換してスピーカ11に入力する。スピーカ11は、入力された音声のアナログ信号に基づいた音声を、利用者が設定するか予め設定された音量で再生する。なお、計算機20から音声のアナログ信号が伝送される構成の場合には、D/A変換器14hは不要であり、スピーカ11は伝送された音声のアナログ信号から音声再生を行う。
The
<計算機20の動作>
次に、計算機20の動作を例示する。
図3は、本形態の計算機20の動作を説明するためのフローチャートである。以下、この図に従い、本形態の計算機20の動作を例示する。
まず、音声再現装置10から送信された電気信号は受信部20aで受信される(ステップS1)。受信された電気信号は、必要に応じて計算機20での処理に適したデータに変換され、変換されたデータは一時メモリ20kにバッファされ、例えば、フレーム単位で判定部20bに送られる。
<Operation of
Next, the operation of the
FIG. 3 is a flowchart for explaining the operation of the
First, the electrical signal transmitted from the audio reproduction device 10 is received by the receiving
判定部20bは、送られた受信データが音声データを含むか否かを判定する(ステップS2)。この判定は、例えば、判定部20bが、受信データが具備する制御用データを参照して行う。ここで、受信データが音声データを含むと判定された場合には、以下のステップS3からS6の処理が実行され、受信データが音声データを含まないと判定された場合には、以下のステップS7からS10の処理が実行される。この制御は制御部20mが行う。
The
[受信データが音声データを含むと判定された場合(S3〜S6)]
まず、第1特徴量抽出部20cが、判定部20bから転送された体内伝達音のデータを分析し、当該体内伝達音の特徴量〔Yj(j=1,....,J、Jは自然数)〕を抽出する(ステップS3)。また、第2特徴量抽出部20dが、判定部20bから転送された音声のデータ(ステップS3の体内伝達音のデータと時間的に同期した音声のデータ)を分析し、音声の特徴量(Xj)を抽出する(ステップS4)。ここで抽出する特徴量としては、例えばスペクトル、基本周波数、音源成分、非周期成分やそれらの動的特徴(一次時間差分、二次時間差分)等を例示できる。また分析方法には、例えば、LPC分析法、ケプストラム分析法、STRAIGHT分析法などの周知の方法を用いる。また、自然数Jは抽出する特徴量の種別数を示し、jは抽出する特徴量の種別に対応する識別子である。
次に、第1特徴量抽出部20cで抽出された体内伝達音の特徴量(Yj)と、第2特徴量抽出部20dで抽出された音声の特徴量(Xj)とを、例えば、所定の時間区間であるフレーム単位で対応付けて記憶部20eに格納する(ステップS5)。
[When it is determined that the received data includes audio data (S3 to S6)]
First, the first feature
Next, the in-vivo transmission sound feature value (Y j ) extracted by the first feature
次に、音声学習部20fが、相互に対応付けられた体内伝達音の特徴量(Yj)と音声の特徴量(Xj)とを記憶部20eから読み込み、これらを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の音声の特徴量との対応関係を示す音声対応付けモデルのパラメータを算出する(ステップS6)。この処理は特徴量の種別毎(j毎)にそれぞれ実行され、算出された音声対応付けモデルのパラメータはj毎に記憶部20gに格納される。なお、音声対応付けモデルとしては、例えば、非特許文献1と同様、混合正規分布モデル(GMM: Gaussian Mixture Model)を用いることができる。ただし、非特許文献1の手法では動的計画法を用いて両特徴量の対応付けを行っているが、本形態の場合、両特徴量は時間的に同期しているデータであり、動的計画法による対応付けは不要である。この点も本形態の特徴である。すなわち本形態の場合、動的計画法による両特徴量の対応付けが不要であるため、計算機20での計算時間を短縮できるという効果、並びに、対応付けの誤りによってモデルの分散が増加し、結果的に再現音声の品質劣化を引き起こすという問題を発生させないという効果を有する。なお、ステップS6は必ずしも毎回実行する必要はなく、所定数組の特徴量Xj,Yjが収集されるたびに実行してもよい。
Next, the speech learning unit 20f reads from the storage unit 20e the feature values (Y j ) and the sound feature values (X j ) of the in-vivo transmission sound that are associated with each other, and learning data that corresponds to these features. Then, by the learning process, a parameter of the voice association model indicating the correspondence relationship between the feature quantity of any in-body transmitted sound and the feature quantity of any voice is calculated (step S6). This process is executed for each type of feature quantity (for each j), and the calculated parameters of the voice association model are stored in the storage unit 20g for each j. As the voice association model, for example, a mixed normal distribution model (GMM: Gaussian Mixture Model) can be used as in
[モデル学習の具体例]
以下にモデル学習の具体例を示す。
この具体例の音声対応付けモデルは以下のGMMである。
Specific examples of model learning are shown below.
The voice association model of this specific example is the following GMM.
また、GMMの学習には周知のEMアルゴリズムを利用することが一般的である(例えば、K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi and T. Kitamura, "Speech parameter generation algorithm for HMM-based speech synthesis", Proc. ICASSP'2000, pp. 1315-1318等参照)。以下にEMアルゴリズムを用いたGMMの学習方法を例示する。
まず、特徴量Xj,Yjについて以下のような関係を定義できる。
In addition, it is common to use a well-known EM algorithm for GMM learning (for example, K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi and T. Kitamura, “Speech parameter generation algorithm for HMM”). -based speech synthesis ", Proc. ICASSP'2000, pp. 1315-1318). A GMM learning method using the EM algorithm will be exemplified below.
First, the following relationships can be defined for the feature amounts X j and Y j .
また、EMアルゴリズムのMステップでは、上記Eステップで用いたパラメータMm j,Σm jが代入された式(4)によって算出されるQを最大化するパラメータλm jを次のEステップにおけるパラメータλm jの値する。具体的には、例えば、上記Eステップで用いたパラメータMm j,Σm jが代入され、パラメータλm jを変数とした式(4)をλm jで偏微分し、その偏微分結果が0となるλm jを次のEステップにおけるパラメータλm jの値する。さらに、このMステップでは、上記Eステップで用いたλm jが代入された式(4)において、学習データである複数の特徴量Xj,Yjに対してパラメータMm j,Σm jを決定した場合にQが最大となるようにパラメータMm j,Σm jを決定する。このパラメータMm j,Σm jの決定は、例えば、パラメータMm jに関する変数の偏微分によって行う。すなわち、まず、学習データである複数の特徴量Xj,Yjとmとを対応付ける関数FによってパラメータMm j,Σm jを表現する。そして、このように表現したパラメータMm j,Σm jと上記Eステップで用いたλm jとが代入された式(4)を関数Fの変数によって偏微分し、その偏微分結果が0となる関数Fの変数を決定して、次のEステップにおけるパラメータMm j,Σm jを決定する。 In the M step of the EM algorithm, the parameter λ m j for maximizing Q calculated by the equation (4) substituted with the parameters M m j and Σ m j used in the E step is used in the next E step. The value of the parameter λ m j . Specifically, for example, the parameters M m j and Σ m j used in the E step are substituted, and the equation (4) with the parameter λ m j as a variable is partially differentiated by λ m j , and the partial differentiation result thereof There 0 become lambda m j to the value of the parameter lambda m j in the next E-step. Further, in this M step, in the formula (4) in which λ m j used in the E step is substituted, the parameters M m j , Σ m j are used for a plurality of feature amounts X j , Y j as learning data. Parameters M m j and Σ m j are determined so that Q is maximized. The determination of the parameters M m j and Σ m j is performed by, for example, partial differentiation of a variable related to the parameter M m j . That is, first, the parameters M m j and Σ m j are expressed by a function F that associates a plurality of feature amounts X j and Y j that are learning data with m. Then, the equation (4) in which the parameters M m j and Σ m j expressed as described above and λ m j used in the E step is substituted is partially differentiated by the variable of the function F, and the partial differentiation result is 0. And the parameters M m j and Σ m j in the next E step are determined.
そして、上記のようなEステップとMステップとをQが所定範囲に収束するまで繰り返し、Qが所定範囲に収束した際の各パラメータλm j,Mm j,Σm jをGMMのモデルパラメータとして決定する。
また、各パラメータλm j,Mm j,Σm jが決定された場合、式(2)と式(4)とを照合すれば、変換行列Wj mとバイアス定数bj mとが
Wj m=Σm YjXj・(Σm Yj)-1 …(5)
bj m=μm Xj‐Σm YjXj・(Σm Yj)-1・μm Yj …(6)
のように定まる([モデル学習の具体例]の説明終わり)。
Then, the E step and the M step as described above are repeated until Q converges to a predetermined range, and the parameters λ m j , M m j , and Σ m j when Q converges to the predetermined range are changed as model parameters of the GMM. Determine as.
Further, when the parameters λ m j , M m j , and Σ m j are determined, if the equations (2) and (4) are collated, the transformation matrix W j m and the bias constant b j m are obtained.
W j m = Σ m YjXj・ (Σ m Yj ) -1 (5)
b j m = μ m Xj ‐Σ m YjXj・ (Σ m Yj ) −1・ μ m Yj … (6)
(End of explanation of [Specific example of model learning]).
[受信データが音声データを含まないと判定された場合(S7〜S10)]
まず、第1特徴量抽出部20cが、判定部20bから転送された体内伝達音のデータを分析し、当該体内伝達音の特徴量(Yj’)を抽出する(ステップS7)。抽出された体内伝達音の特徴量(Yj’)は音声対応付けモデル適用部20hに転送される。音声対応付けモデル適用部20hは、記憶部20gから読み込んだ音声対応付けモデルのパラメータと体内伝達音の特徴量(Yj’)とを用い、各jについて、体内伝達音の特徴量(Yj’)に対応する音声の特徴量(Xj’)を算出する(ステップS8)。具体的には、例えば、前述の式(5)(6)の演算結果と体内伝達音の特徴量(Yj’)とを式(2)に代入し、その演算結果をXj’とする。
[When it is determined that the received data does not include audio data (S7 to S10)]
First, the first feature
算出された音声の特徴量(Xj’)は音声復元部20iに転送され、音声復元部20iは音声の特徴量(Xj’)から音声波形を合成し、音声データを生成する(ステップS9)。音声波形データの合成は、特徴量(Xj’)を抽出する際の分析方法と対となる合成方法によって行う。例えば、第2特徴量抽出部20dがLPC分析法によって特徴量を抽出する構成であれば、音声復元部20iはLPC合成法によって合成を行う。また、第2特徴量抽出部20dがケプストラム分析法によって特徴量を抽出する構成であれば、音声復元部20iはケプストラム合成法によって合成を行う。また、第2特徴量抽出部20dがSTRAIGHT分析法によって特徴量を抽出する構成であれば、音声復元部20iはSTRAIGHT合成法によって合成を行う。
音声復元部20iで生成された音声データは送信部20jから音声再現装置10に送信され、前述のように音声再現装置10のスピーカ11で再生される。
The calculated speech feature quantity (X j ′) is transferred to the
The audio data generated by the
〔第2実施形態〕
次に、この発明の別な実施形態を述べる。本形態は、体内伝導音から音声だけではなく骨導音をも再生する形態である。以下では、第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については説明を簡略化する。
[Second Embodiment]
Next, another embodiment of the present invention will be described. In this embodiment, not only a voice but also a bone conduction sound is reproduced from the body conduction sound. Below, it demonstrates centering around difference with 1st Embodiment, and simplifies description about the matter which is common in 1st Embodiment.
<構成>
図4は、本形態のシステム全体の構成を例示した概念図である。なお、図4において第1実施形態と共通する部分については図1(a)と同じ符号を付した。
図4に例示するように、本形態のシステムは、音声再現装置110と計算機120とを具備し、それらは接続線30を介して通信可能に電気信号的に接続されている。音声再現装置110は、発話に起因する骨導音の集音及び骨導音の再生を行う骨導振動子(「骨導振動部」に相当)、スピーカ11(「音声再生部」に相当)、体内伝導音用マイク12(「体内伝導音集音部」に相当)、音声集音用マイク13(「音声集音部」に相当)、本体14及び切り替えスイッチ14a(「発話状態入力部」に相当)を有している。なお、第1実施形態と同様、計算機120は、一般的なPCでもよいし、CPUやRAM等を内蔵する携帯機器であってもよいし、さらには本形態専用の計算処理可能な機器であってもよい。また、音声再現装置110と計算機120とは、別々の筺体内に構成されてもよいし、同一の筺体内に構成されてもよい。また、音声再現装置110でD/A変換やA/D変換を行わない構成とし、音声再現装置110と計算機120とをD/A変換器やA/D変換器を介して接続してもよい。
<Configuration>
FIG. 4 is a conceptual diagram illustrating the configuration of the entire system of this embodiment. In FIG. 4, the same reference numerals as those in FIG. 1A are assigned to portions common to the first embodiment.
As illustrated in FIG. 4, the system according to the present embodiment includes an audio reproduction device 110 and a
図5は、本形態の本体114の構成を例示した概念図である。なお、図5において第1実施形態と共通する部分については図1(b)と同じ符号を付した。
図5に例示するように、本形態の本体114は、切り替えスイッチ14a、制御部14b、スイッチ14c,14d,114a,114b、A/D変換器14e,14f,114c、同期部14g、D/A変換器14h,114b、アンプ14i、送信部14j及び受信部14kを具備する。なお、A/D変換器14e,14f,114cは、物理的な回路としては1個であってもよく、D/A変換器14h,114bも、物理的な回路としては1個であってもよい。
FIG. 5 is a conceptual diagram illustrating the configuration of the
As illustrated in FIG. 5, the
図5に例示するように、受信部14kは、スイッチ114bを介してD/A変換器114dと電気的に接続され、D/A変換器114dは骨導振動子115に電気的に接続される。また、受信部14kは、スイッチ14cを介してD/A変換器14hと電気的に接続され、D/A変換器14hはアンプ14iを介してスピーカ11に電気的に接続される。また、送信部14jは、同期部14gと接続される。同期部14gは、スイッチ114aとA/D変換器114cとを介して骨導振動子115に電気的に接続され、スイッチ14dとA/D変換器14fとを介して音声集音用マイク13に電気的に接続され、A/D変換器14eを介して体内伝導音用マイク12に電気的に接続される。また、切り替えスイッチ14aは、その出力信号が制御部14bに入力可能に構成され、制御部14bはスイッチ14c,14d,114a,114bに対して制御信号を供給可能に構成される。なお、本体114は、制御部14bの制御のもと各処理を実行する。
As illustrated in FIG. 5, the receiving
また、本形態の計算機120には所定のプログラムが読み込まれ、CPUがそのプログラムを実行することにより各機能構成が実現される。図6は、このように実現される本形態の計算機120の機能構成を例示したブロック図である。なお、図6において第1実施形態と共通する部分については図2と同じ符号を付した。
In addition, a predetermined program is read into the
図6に例示するように、本形態の計算機120は、受信部20a、判定部20b、第1特徴量抽出部20c、第2特徴量抽出部20d、第3特徴量抽出部120d、記憶部120e,120g、音声学習部20f、骨導音学習部120f、音声対応付けモデル適用部20h、骨導音対応付けモデル適用部120h、音声復元部20i、骨導音復元部120i、送信部20j、一時メモリ20k及び制御部20mを具備する。ここで、第3特徴量抽出部120d、骨導音学習部120f、骨導音対応付けモデル適用部120h及び骨導音復元部120iは、CPU上で所定のプログラムが実行されることにより構成されるものである。なお、計算機120は、制御部20mの制御のもと各処理を実行する。
As illustrated in FIG. 6, the
<音声再現装置110の動作>
次に、本形態の音声再現装置110の動作について説明する。
利用者は、声帯運動を伴う通常の発話を行うか、声帯振動を伴わない発話を行うかに応じ、切り替えスイッチ14aを切り替える。切り替えスイッチ14aのスイッチング状態は電気信号として制御部14bに入力される。制御部14bは、入力された電気信号が示す切り替えスイッチ14aのスイッチング状態に応じ、スイッチ14c,14d,114a,114bを以下のように制御する。
<Operation of the sound reproduction device 110>
Next, the operation of the sound reproduction device 110 of this embodiment will be described.
The user switches the
すなわち、切り替えスイッチ14aが声帯運動を伴う発話を示す状態にスイッチングされた場合、制御部14bは、スイッチ14cをOFFにし、スイッチ14dをONとし、スイッチ114aをONにし、スイッチ114bをOFFとする。一方、切り替えスイッチ14aが声帯運動を伴わない発話を示す状態にスイッチングされた場合、制御部14bは、スイッチ14cをONにし、スイッチ14dをOFFとし、スイッチ114aをOFFにし、スイッチ114bをONとする。このような状態において、声帯運動を伴う発話又は声帯運動を伴わない発話が行われると、音声再現装置110は以下のように動作する。
That is, when the
[声帯運動を伴う発話時の動作(スイッチ14c:OFF,スイッチ14d:ON,スイッチ114a:ON,スイッチ114b:OFF)]
発話者が声帯運動を伴う発話を行う場合、発話された通常の音声は音声集音用マイク13で集音されてアナログ電気信号に変換される。それと同時に、この発話に伴う骨導音が骨導振動子115で集音されてアナログ電気信号に変換され、体内伝達音が体内伝導音用マイク12で集音されてアナログ電気信号に変換される。体内伝達音のアナログ電気信号と骨導音のアナログ電気信号と音声のアナログ電気信号とは、それぞれA/D変換器14e,114c,14fでデジタル電気信号に変換され、同期部14gに入力される。同期部14gは、体内伝達音のデジタル電気信号と骨導音のデジタル電気信号と音声のデジタル電気信号とを時間的に同期させ、送信部14jに送る。なお、第1実施形態と同様、これらの信号には、制御部14bの制御のもと、例えば、信号の種別を示すデータなどの制御用データも付加される。送信部14jは、送られたデジタル電気信号をデジタルデータとして、或いは、特定のプロトコルに基づくネットワークデータとして、接続線30を経由して計算機120に送信する。なお、第1実施形態で述べた変形例のように、集音された体内伝達音と骨導音と音声をアナログ信号のまま計算機120に送信する構成としてもよい。この場合には、計算機120がアナログ電気信号からデジタル信号への変換を行う。
[Operation during utterance with vocal cord movement (switch 14c: OFF,
When the speaker utters with vocal cord movement, the normal voice uttered is collected by the
このように計算機120に送信されたデータは、計算機120が体内伝導音と音声とを対応付ける音声対応付けモデル及び体内伝導音と骨同音とを対応付ける骨導音対応付けモデルを学習するために用いられる。計算機120の処理は後述する。また、切り替えスイッチ14aが声帯運動を伴う発話を示す状態にスイッチングされている場合、制御部14bはスピーカ11に再生動作を実行させない。
The data transmitted to the
[声帯運動を伴わない発話時の動作(スイッチ14c:ON,スイッチ14d:OFF,スイッチ114a:OFF,スイッチ114b:ON)]
発話者が声帯運動を伴わない発話を行う場合、その発話に伴う体内伝達音は、体内伝導音用マイク12で集音されてアナログ電気信号に変換される。集音された体内伝達音は、A/D変換器14fでデジタル電気信号に変換され、同期部14gに入力される。同期部14gは、制御部14bの制御のもと、当該体内伝達音のデジタル電気信号に対し、例えば、信号の種別を示すデータなどの制御用データを付加し、送信部14jに送る。送信部14jは、送られたデジタル電気信号をデジタルデータとして、或いは、特定のプロトコルに基づくネットワークデータとして、接続線30を経由して計算機120に送信する。なお、集音された体内伝達音のアナログ電気信号をそのまま計算機120に送信する構成としてもよい。この場合には、計算機120がアナログ電気信号からデジタル電気信号への変換を行う。
[Operation during utterance without vocal cord movement (switch 14c: ON,
When a speaker performs an utterance without accompanying vocal cord movement, the in-body transmission sound accompanying the utterance is collected by the in-body conduction
計算機120は、送られた体内伝達音のデータに対し、音声対応付けモデルを用いて音声のデータを生成し、骨導音対応付けモデルを用いて骨導音のデータを生成し、生成したこれらのデータをデジタル電気信号として音声再現装置110に送信する(計算機120の動作は後述)。計算機120から送信された音声及び骨導音のデジタル電気信号は音声再現装置110の受信部14kで受信される。音声のデジタル電気信号はスイッチ14cを介してD/A変換器14hに入力される。D/A変換器14hは、入力された音声のデジタル電気信号をアナログ信号に変換してスピーカ11に入力する。また、骨導音のデジタル電気信号はスイッチ114bを介してD/A変換器114dに入力される。D/A変換器114dは、入力された骨導音のデジタル電気信号をアナログ信号に変換して骨導振動子115に入力する。スピーカ11は、入力された音声のアナログ信号に基づいた音声を、利用者が設定するか予め設定された音量で再生し、骨導振動子115は、入力された骨導音のアナログ信号に基いた骨同音を再生する。なお、計算機120から骨導音のアナログ信号が伝送される構成の場合には、D/A変換器114dは不要であり、骨導振動子115は伝送された骨導音のアナログ信号から骨導音の再生を行う。
The
<計算機120の動作>
次に、計算機120の動作を例示する。図7は、本形態の計算機120の動作を説明するためのフローチャートである。以下、この図に従い、本形態の計算機120の動作を例示する。
まず、音声再現装置110から送信された電気信号は受信部20aで受信される(ステップS21)。受信された電気信号は、必要に応じて計算機120での処理に適したデータに変換され、変換されたデータは一時メモリ20kにバッファされ、例えば、フレーム単位で判定部20bに送られる。
判定部20bは、送られた受信データが音声データや骨導音データを含むか否かを判定する(ステップS22)。ここで、受信データが音声データや骨導音データを含むと判定された場合には、以下のステップS23からS29の処理が実行され、受信データが音声データを含まないと判定された場合には、以下のステップS30からS35の処理が実行される。この制御は制御部20mが行う。
<Operation of
Next, the operation of the
First, the electrical signal transmitted from the audio reproduction device 110 is received by the receiving
The
[受信データが音声データを含むと判定された場合(S23〜S29)]
まず、第1特徴量抽出部20cが、判定部20bから転送された体内伝達音のデータを分析し、当該体内伝達音の特徴量(Yj)を抽出する(ステップS23)。また、第2特徴量抽出部20dが、判定部20bから転送された音声のデータ(ステップS23の体内伝達音のデータと時間的に同期した音声のデータ)を分析し、音声の特徴量(Xj)を抽出する(ステップS24)。さらに、第3特徴量抽出部120dが、判定部20bから転送された骨導音のデータ(ステップS23の体内伝達音のデータと時間的に同期した骨導音のデータ)を分析し、骨導音の特徴量(Zj)を抽出する(ステップS24)。なお、ここで抽出する各特徴量は、第1実施形態で例示したものと同様である。
[When it is determined that the received data includes audio data (S23 to S29)]
First, the first feature
次に、第1特徴量抽出部20cで抽出された体内伝達音の特徴量(Yj)と、第2特徴量抽出部20dで抽出された音声の特徴量(Xj)とを、例えば、所定の時間区間であるフレーム単位で対応付けて記憶部120eに格納する(ステップS26)。また、第1特徴量抽出部20cで抽出された体内伝達音の特徴量(Yj)と、第3特徴量抽出部120dで抽出された骨導音の特徴量(Zj)とを、例えば、所定の時間区間であるフレーム単位で対応付けて記憶部120eに格納する(ステップS27)。
Next, the in-vivo transmission sound feature value (Y j ) extracted by the first feature
次に、音声学習部20fが、相互に対応付けられた体内伝達音の特徴量(Yj)と音声の特徴量(Xj)とを記憶部20eから読み込み、これらを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の音声の特徴量との対応関係を示す音声対応付けモデルのパラメータを算出する(ステップS28)。また、骨導音学習部120fが、相互に対応付けられた体内伝達音の特徴量(Yj)と骨導音の特徴量(Zj)とを記憶部120eから読み込み、これらを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の骨導音の特徴量との対応関係を示す骨導音対応付けモデルのパラメータを算出する(ステップS29)。なお、骨導音対応付けモデルは、例えば、非特許文献1と同様、混合正規分布モデル(GMM)であり、その学習方法は例えば第1実施形態で述べた通りである。なお、第1実施形態で述べたのと同様、本形態の骨導音対応付けモデルの学習においても、動的計画法による両特徴量の対応付けが不要であるため、計算機120での計算時間を短縮できるという効果、並びに、対応付けの誤りによってモデルの分散が増加し、結果的に再現骨導音の品質劣化を引き起こすという問題を発生させないという効果が得られる。なお、ステップS28,S29は必ずしも毎回実行する必要はなく、所定数組の特徴量Xj,Yj及び特徴量Zj,Yjが収集されるたびに実行してもよい。
Next, the speech learning unit 20f reads from the storage unit 20e the feature values (Y j ) and the sound feature values (X j ) of the in-vivo transmission sound that are associated with each other, and learning data that corresponds to these features. Then, by the learning process, the parameter of the voice association model indicating the correspondence between the feature quantity of any in-body transmitted sound and the feature quantity of any voice is calculated (step S28). Further, the bone conduction sound learning unit 120f reads in-vivo transmission sound feature values (Y j ) and bone conduction sound feature values (Z j ) associated with each other from the storage unit 120e, and these correspond to each other. As a learning data to be obtained, a bone conduction sound association model parameter indicating a correspondence relationship between a feature quantity of an arbitrary in-vivo transmitted sound and a feature quantity of an arbitrary bone conduction sound is calculated by learning processing (step S29). Note that the bone conduction sound association model is, for example, a mixed normal distribution model (GMM), as in
[受信データが音声データを含まないと判定された場合(S30〜S35)]
まず、第1特徴量抽出部20cが、判定部20bから転送された体内伝達音のデータを分析し、当該体内伝達音の特徴量(Yj’)を抽出する(ステップS30)。抽出された体内伝達音の特徴量(Yj’)は音声対応付けモデル適用部20hと骨導音対応付けモデル適用部120hに転送される。
[When it is determined that the received data does not include audio data (S30 to S35)]
First, the first feature
第1実施形態と同様、音声対応付けモデル適用部20hは、記憶部20gから読み込んだ音声対応付けモデルのパラメータと体内伝達音の特徴量(Yj’)とを用い、各jについて、体内伝達音の特徴量(Yj’)に対応する音声の特徴量(Xj’)を算出する(ステップS31)。算出された音声の特徴量(Xj’)は音声復元部20iに転送され、音声復元部20iは音声の特徴量(Xj’)から音声波形を合成し、音声データを生成する(ステップS32)。
Similar to the first embodiment, the speech association
また、骨導音対応付けモデル適用部120hは、記憶部20gから読み込んだ骨導音対応付けモデルのパラメータと体内伝達音の特徴量(Yj’)とを用い、各jについて、体内伝達音の特徴量(Yj’)に対応する骨導音の特徴量(Zj’)を算出する(ステップS33)。算出された骨導音の特徴量(Zj’)は骨導音復元部120iに転送され、骨導音復元部120iは骨導音の特徴量(Zj’)から骨導音波形を合成し、骨導音データを生成する(ステップS34)。
音声復元部20iで生成された音声データと骨導音データは送信部20jから音声再現装置110に送信され、前述のように音声再現装置110のスピーカ11と骨導振動子115で再生される。
Further, the bone conduction sound association
The voice data and the bone conduction data generated by the
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、第1,第2実施形態において、声帯運動を伴わない発話時にスイッチ14cをOFFとすることができる構成としてもよい。これにより、フィードバック音の漏れが問題となるような静寂な環境でも本システムを利用できる。特に第2実施形態では、音声によるフィードバックを行わなくても骨導音でのフィードバックが可能であるため、声帯運動を伴わない発話時にスイッチ14cをOFFとできる構成は有効である。
[Modifications, etc.]
The present invention is not limited to the embodiment described above. For example, in the first and second embodiments, the
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
本発明の産業上の利用分野としては、例えば、非可聴つぶやき(NAM)を用いた無音電話等を例示できる。 As an industrial application field of the present invention, for example, a silent telephone using a non-audible tweet (NAM) can be exemplified.
10,100 音声再現装置
20,120 計算機
10,100 Voice reproduction device 20,120 Computer
Claims (4)
発話に起因する体内伝達音を集音する体内伝達音集音部と、
音声を集音する音声集音部と、
声帯運動を伴う発話時に上記体内伝達音集音部で集音された体内伝達音のデータと、これと同時に上記音声集音部で集音された音声のデータとを時間的に同期させ、これらを体内伝達音と音声とを対応付ける音声対応付けモデルを学習させるために計算機に送信し、さらに、声帯運動を伴わない発話時に上記体内伝達音集音部で集音された体内伝達音のデータを上記計算機に送信する第1送信部と、
上記声帯運動を伴わない発話時に上記体内伝達音集音部で集音された体内伝達音のデータに対して上記計算機が上記音声対応付けモデルを用いて生成した音声のデータを受信する第1受信部と、
上記第1受信部が受信した上記音声のデータから音声を再生する音声再生部と、
発話に起因する骨導音の集音及び骨導音の再生を行う骨導振動部と、を有し、
上記第1送信部は、
さらに、声帯運動を伴う発話時に上記体内伝達音集音部で集音された体内伝達音のデータと、これと同時に上記骨導振動部で集音された骨導音のデータとを時間的に同期させ、これらを体内伝達音と骨導音とを対応付ける骨導音対応付けモデルを学習させるために上記計算機に送信し、
上記第1受信部は、
上記声帯運動を伴わない発話時に上記体内伝達音集音部で集音された体内伝達音のデータに対して上記計算機が上記骨導音対応付けモデルを用いて生成した骨導音のデータを受信し、
上記骨導振動部は、
上記第1受信部が受信した上記骨導音のデータから骨導音を再生する、
ことを特徴とする音声再現装置。 In a sound reproduction device that reproduces sound from internal body sound,
An in-body transmission sound collection unit that collects in-body transmission sounds resulting from utterances;
An audio collection unit that collects audio,
Synchronize temporally the in-vivo transmitted sound data collected by the in-vivo transmitted sound collection unit and the voice data collected by the voice collection unit at the same time when speaking with vocal cord movement. Is transmitted to a computer for learning a voice correspondence model that correlates the body-transmitted sound and voice, and the body-transmitted sound data collected by the body-transmitted sound collecting unit during speech without accompanying vocal cord movement A first transmitter for transmitting to the computer;
First reception in which the computer receives voice data generated by using the voice association model with respect to in-vivo transmitted sound data collected by the in-vivo transmitted sound collecting unit during utterance not accompanied by vocal cord movement And
An audio reproduction unit for reproducing audio from the audio data received by the first reception unit;
A bone conduction vibration part that collects bone conduction sound due to speech and reproduces bone conduction sound, and
The first transmitter is
Furthermore, in-situ transmission sound data collected by the in-vivo sound collection unit during speech with vocal cord movement and simultaneously with the bone conduction sound data collected by the bone-conduction vibration unit in time. To synchronize and send these to the computer to learn the bone conduction sound correspondence model that correlates the body conduction sound and the bone conduction sound,
The first receiver is
The computer receives bone conduction sound data generated by the computer using the bone conduction sound correspondence model with respect to the body conduction sound data collected by the body sound collection section during speech without the vocal cord movement. And
The bone conduction vibration part is
Reproducing bone conduction sound from the bone conduction sound data received by the first receiving unit;
An audio reproduction device characterized by that.
声帯運動を伴う発話時であるか声帯運動を伴わない発話時であるかを示す入力操作を受け付ける発話状態入力部を更に有し、
上記発話状態入力部に対する入力操作が声帯運動を伴う発話時を示すものであった場合、上記第1送信部は、上記体内伝達音集音部で集音された体内伝達音のデータと、これと同時に上記骨導振動部で集音された骨導音のデータとを時間的に同期させて計算機に送信し、上記骨導振動部は、骨導音の再生を行わず、
上記発話状態入力部に対する入力操作が声帯運動を伴わない発話時を示すものであった場合、上記第1送信部は、上記体内伝達音集音部で集音された体内伝達音のデータのみを上記計算機に送信し、上記第1受信部は、上記骨導音のデータを受信し、上記骨導振動部は、当該骨導音のデータから骨導音を再生する、
ことを特徴とする音声再現装置。 The sound reproduction device according to claim 1,
An utterance state input unit that accepts an input operation indicating whether the utterance is accompanied by vocal cord movement or the utterance not accompanied by vocal cord movement;
When the input operation to the utterance state input unit indicates an utterance accompanied by vocal cord movement, the first transmission unit is configured to transmit in-vivo transmission sound data collected by the in-vivo transmission sound collection unit, At the same time, the bone conduction sound data collected by the bone conduction vibration unit is temporally synchronized and transmitted to the computer, and the bone conduction vibration unit does not reproduce the bone conduction sound.
When the input operation to the utterance state input unit indicates an utterance that does not involve vocal cord movement, the first transmission unit receives only the data of the in-vivo transmission sound collected by the in-body transmission sound collection unit. Transmitting to the computer, the first receiving unit receives the bone conduction sound data, the bone conduction vibration unit reproduces the bone conduction sound from the bone conduction data,
An audio reproduction device characterized by that.
上記計算機は、
音声再現装置から送信されたデータを受信する第2受信部と、
体内伝達音のデータを用い、体内伝達音の特徴量を抽出する第1特徴量抽出部と、
骨導音のデータを用い、骨導音の特徴量を抽出する第3特徴量抽出部と、
時間的に同期した体内伝達音の特徴量と骨導音の特徴量とを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の骨導音の特徴量との対応関係を示す骨導音対応付けモデルのパラメータを算出する骨導音学習部と、
上記骨導音学習部で算出されたパラメータと、体内伝達音の特徴量とを用い、体内伝達音の特徴量に対応する骨導音の特徴量を算出する骨導音対応付けモデル適用部と、
上記骨導音対応付けモデル適用部で算出された骨導音の特徴量を用い、骨導音のデータを生成する骨導音復元部と、
上記骨導音復元部で生成された骨導音のデータを音声再現装置に送信する第2送信部と、を有し、
上記第2受信部が時間的に同期した体内伝達音のデータと骨導音のデータとを受信した場合、上記第1特徴量抽出部は、上記第2受信部が受信した体内伝達音のデータを用いて体内伝達音の特徴量を抽出し、上記第3特徴量抽出部は、上記第2受信部が受信した骨導音のデータを用いて骨導音の特徴量を抽出し、上記骨導音学習部は、これらの特徴量を用いて上記骨導音対応付けモデルのパラメータを算出し、
上記第2受信部が体内伝達音のデータのみを受信した場合、上記第1特徴量抽出部は、上記第2受信部が受信した体内伝達音のデータを用いて体内伝達音の特徴量を抽出し、上記骨導音対応付けモデル適用部は、抽出された体内伝達音の特徴量と上記骨導音学習部で算出されたパラメータとを用い、当該体内伝達音の特徴量に対応する骨導音の特徴量を算出し、上記骨導音復元部は、算出された骨導音の特徴量を用いて骨導音のデータを生成し、上記第2送信部は、上記骨導音復元部で生成された骨導音のデータを音声再現装置に送信する、
ことを特徴とする音声再現装置。 The sound reproduction device according to claim 1 or 2,
The above calculator
A second receiver for receiving data transmitted from the sound reproduction device;
A first feature amount extraction unit for extracting a feature amount of in-vivo transmitted sound using in-body transmitted sound data;
A third feature quantity extraction unit for extracting the feature quantity of the bone conduction sound using the bone conduction sound data;
The feature values of the internal transmission sound and the bone conduction sound that are synchronized in time are used as learning data that correspond to each other. A bone conduction sound learning unit for calculating a parameter of a bone conduction sound correspondence model indicating a correspondence relationship of
A bone-conducted sound association model applying unit that calculates the bone-conducted sound feature amount corresponding to the body-conducted sound feature amount using the parameters calculated by the bone-conducted sound learning unit and the body-conducted sound feature amount; ,
Using the bone conduction sound feature amount calculated by the bone conduction sound association model application unit, a bone conduction sound restoration unit that generates bone conduction sound data;
A second transmission unit for transmitting the bone conduction sound data generated by the bone conduction sound restoration unit to the sound reproduction device;
When the second receiving unit receives the temporally synchronized body-transmitted sound data and bone conduction sound data, the first feature amount extracting unit receives the body-transmitted sound data received by the second receiving unit. The third feature amount extraction unit extracts the bone conduction sound feature amount using the bone conduction sound data received by the second reception unit, and extracts the bone conduction sound feature amount. The sound conduction learning unit calculates the parameters of the bone conduction sound association model using these feature amounts,
When the second receiving unit receives only in-vivo transmission sound data, the first feature amount extraction unit extracts the in-body transmission sound feature amount using the in-vivo transmission sound data received by the second receiving unit. The bone conduction sound matching model application unit uses the extracted feature value of the body conduction sound and the parameter calculated by the bone conduction sound learning unit, and uses the extracted feature value of the body conduction sound to correspond to the feature value of the body conduction sound. The bone conduction sound restoration unit generates bone conduction sound data using the calculated bone conduction sound feature amount, and the second transmission unit calculates the bone conduction sound restoration unit. Send the bone conduction sound data generated in step 1 to the sound reproduction device.
An audio reproduction device characterized by that.
体内伝達音集音部が、発話に起因する体内伝達音を集音するステップと、
音声集音部が、音声を集音するステップと、
第1特徴量抽出部が、声帯運動を伴う発話時に上記体内伝達音集音部で集音された体内伝達音のデータを用い、当該体内伝達音の特徴量を抽出するステップと、
第2特徴量抽出部が、声帯運動を伴う発話時に上記音声集音部で集音された音声のデータを用い、当該音声の特徴量を抽出するステップと、
音声学習部が、同じ集音時間に対応する体内伝達音の特徴量と音声の特徴量とを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の音声の特徴量との対応関係を示す音声対応付けモデルのパラメータを算出するステップと、
上記第1特徴量抽出部が、声帯運動を伴わない発話時に上記体内伝達音集音部で集音された体内伝達音のデータを用い、当該体内伝達音の特徴量を抽出するステップと、
音声対応付けモデル適用部が、上記音声学習部で算出されたパラメータと、声帯運動を伴わない発話時に上記体内伝達音集音部で集音された体内伝達音の特徴量とを用い、体内伝達音の特徴量に対応する音声の特徴量を算出するステップと、
音声復元部が、上記音声対応付けモデル適用部で算出された音声の特徴量を用い、音声のデータを生成するステップと、
音声再生部が、上記音声のデータから音声を再生するステップと、
骨導振動部が、発話に起因する骨導音を集音するステップと、
第3特徴量抽出部が、声帯運動を伴う発話時に上記骨導振動部で集音された骨導音のデータを用い、当該骨導音の特徴量を抽出するステップと、
骨導音学習部が、同じ集音時間に対応する体内伝達音の特徴量と骨導音の特徴量とを相互に対応する学習データとし、学習処理によって、任意の体内伝達音の特徴量と任意の骨導音の特徴量との対応関係を示す骨導音対応付けモデルのパラメータを算出するステップと、
骨導音対応付けモデル適用部が、上記骨導音学習部で算出されたパラメータと、声帯運動を伴わない発話時に上記体内伝達音集音部で集音された体内伝達音の特徴量とを用い、体内伝達音の特徴量に対応する骨導音の特徴量を抽出するステップと、
骨導音復元部が、上記音声対応付けモデル適用部で算出された骨導音の特徴量を用い、骨導音のデータを生成するステップと、
上記骨導振動部が、上記骨導音のデータから骨導音を再生するステップと、
を有することを特徴とする音声再現方法。 In the sound reproduction method to reproduce the sound from the internal transmission sound,
A step in which a body-transmitted sound collecting unit collects body-transmitted sound resulting from utterance;
A step of collecting a sound by a sound collecting unit;
A step of extracting a feature amount of the in-vivo transmitted sound using a data of the in-vivo transmitted sound collected by the in-vivo transmitted sound collecting portion at the time of utterance accompanied by vocal cord movement;
A step of extracting a feature amount of the voice by using the voice data collected by the voice collecting unit at the time of utterance accompanied by a vocal cord movement;
The speech learning unit sets the feature values of the in-vivo transmission sound and the feature amount of the speech corresponding to the same sound collection time as learning data corresponding to each other, and the learning process performs the feature amount of the arbitrary in-vivo transmission sound and the Calculating a parameter of a voice association model indicating a correspondence relationship with a feature amount;
The first feature quantity extraction unit extracts the feature quantity of the in-vivo transmission sound using the data of the in-body transmission sound collected by the in-body transmission sound collection section at the time of utterance not accompanied by vocal cord movement;
The voice association model application unit uses the parameters calculated by the voice learning unit and the feature amount of the internal transmission sound collected by the internal transmission sound collection unit at the time of utterance not accompanied by vocal cord movement. Calculating a voice feature amount corresponding to the sound feature amount;
A step of generating a voice data using a voice feature amount calculated by the voice correlation model applying unit;
An audio reproduction unit reproducing audio from the audio data;
A step of collecting a bone conduction sound caused by an utterance by the bone conduction vibration unit;
A step of extracting a feature quantity of the bone conduction sound using a data of the bone conduction sound collected by the bone conduction vibration section at the time of utterance accompanied by vocal cord movement;
The bone conduction sound learning unit uses the feature values of the body conduction sound and the bone conduction sound corresponding to the same sound collection time as learning data corresponding to each other. Calculating a bone conduction sound correspondence model parameter indicating a correspondence relationship with a feature quantity of an arbitrary bone conduction sound;
The bone conduction sound association model application unit calculates the parameters calculated by the bone conduction sound learning unit and the feature amount of the internal body transmission sound collected by the internal body sound collection unit during speech without accompanying vocal cord movement. Extracting a bone conduction sound feature quantity corresponding to the body conduction sound feature quantity;
A step of generating bone conduction sound data by using the bone conduction sound feature amount calculated by the voice association model application unit, the bone conduction sound restoration unit;
The bone conductive vibrating portion includes the steps of reproducing the bone-conducted sound from the data of the bone-conduction sound,
An audio reproduction method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006317304A JP5052107B2 (en) | 2006-11-24 | 2006-11-24 | Voice reproduction device and voice reproduction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006317304A JP5052107B2 (en) | 2006-11-24 | 2006-11-24 | Voice reproduction device and voice reproduction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129524A JP2008129524A (en) | 2008-06-05 |
JP5052107B2 true JP5052107B2 (en) | 2012-10-17 |
Family
ID=39555351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006317304A Expired - Fee Related JP5052107B2 (en) | 2006-11-24 | 2006-11-24 | Voice reproduction device and voice reproduction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5052107B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018057202A1 (en) * | 2016-09-22 | 2018-03-29 | Intel Corporation | Audio signal emulation method and apparatus |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3306784B2 (en) * | 1994-09-05 | 2002-07-24 | 日本電信電話株式会社 | Bone conduction microphone output signal reproduction device |
JP2001350499A (en) * | 2000-06-06 | 2001-12-21 | Canon Inc | Voice information processor, communication device, information processing system, voice information processing method and storage medium |
JP3678694B2 (en) * | 2001-11-02 | 2005-08-03 | Necビューテクノロジー株式会社 | Interactive terminal device, call control method thereof, and program thereof |
JP2005173476A (en) * | 2003-12-15 | 2005-06-30 | Canon Inc | Voice conversion apparatus and its control method, and program |
-
2006
- 2006-11-24 JP JP2006317304A patent/JP5052107B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018057202A1 (en) * | 2016-09-22 | 2018-03-29 | Intel Corporation | Audio signal emulation method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2008129524A (en) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10475467B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
Nakamura et al. | Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech | |
Nakajima et al. | Non-audible murmur (NAM) recognition | |
EP1538865B1 (en) | Microphone and communication interface system | |
JP6113302B2 (en) | Audio data transmission method and apparatus | |
JP4327241B2 (en) | Speech enhancement device and speech enhancement method | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
Ince | Digital Speech Processing: Speech Coding, Synthesis and Recognition | |
Maruri et al. | V-Speech: noise-robust speech capturing glasses using vibration sensors | |
US20190138603A1 (en) | Coordinating Translation Request Metadata between Devices | |
JP4940414B2 (en) | Audio processing method, audio processing program, and audio processing apparatus | |
JP2000152394A (en) | Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing | |
JP5052107B2 (en) | Voice reproduction device and voice reproduction method | |
Westall et al. | Speech technology for telecommunications | |
JP2007240654A (en) | In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method | |
WO2020208926A1 (en) | Signal processing device, signal processing method, and program | |
JP4418867B2 (en) | Silent voice input device, telephone and information processing device | |
JP4297433B2 (en) | Speech synthesis method and apparatus | |
JP7296214B2 (en) | speech recognition system | |
JP2000231558A (en) | Communication equipment, communicating method and recording medium with communication control program recorded thereon | |
CN118355675A (en) | Synthetic based clear hearing method in noisy conditions | |
Song et al. | Smart Wristwatches Employing Finger-Conducted Voice Transmission System | |
JP2024085304A (en) | Information processing device and information processing method, computer program, learning device, teleconferencing system, and support device | |
KR20240149084A (en) | Artificial Intelligence Integrated Voice Device | |
Riccio et al. | Voice based remote data base access |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110628 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120724 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |