JP2007240654A - In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method - Google Patents

In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method Download PDF

Info

Publication number
JP2007240654A
JP2007240654A JP2006060052A JP2006060052A JP2007240654A JP 2007240654 A JP2007240654 A JP 2007240654A JP 2006060052 A JP2006060052 A JP 2006060052A JP 2006060052 A JP2006060052 A JP 2006060052A JP 2007240654 A JP2007240654 A JP 2007240654A
Authority
JP
Japan
Prior art keywords
conduction
analysis
linear prediction
conversion
lsf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006060052A
Other languages
Japanese (ja)
Inventor
Sakae Fujimaki
栄 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2006060052A priority Critical patent/JP2007240654A/en
Publication of JP2007240654A publication Critical patent/JP2007240654A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Headphones And Earphones (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Telephone Set Structure (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an in-body conduction ordinary voice conversion learning device, an in-body conduction ordinary voice conversion device, a mobile phone, an in-body conduction ordinary voice conversion learning method, and an in-body conduction ordinary voice conversion method, capable of improving voice quality of in-body conduction ordinary voice. <P>SOLUTION: A linear prediction analysis is performed on the in-body conduction ordinary voice which conducts through in-body soft tissue, which is taken from a skin surface on sternocleidal papillary muscle directly under mastoid bones of a skull under ear lobes. Moreover, the linear prediction analysis is performed on air conduction sound. Based on the analysis results, a mixture normal distribution model is learned by a GMM (Gaussian Mixture Model) learning means 13, and stored in a GMM storing memory 14. The in-body conduction ordinary voice is converted into quasi air conduction sound by using the learning results stored in the GMM storing memory 14. With this configuration, voice communication is comfortably performed with the voice quality close to the air conduction sound even in very noisy environment. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法に関し、特に乳様突起直下の皮膚表面に装着されたマイクロフォン(肉伝導(登録商標)マイクロフォン)で採取された、体内軟部組織を伝導する音声(体内伝導通常音声)の音質を改善する体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法に関する。   TECHNICAL FIELD The present invention relates to a body conduction normal speech conversion learning device, a body conduction normal speech conversion device, a mobile phone, a body conduction normal speech conversion learning method, and a body conduction normal speech conversion learning method, and in particular, a microphone mounted on the skin surface immediately below a mastoid process. (Body conduction normal speech conversion learning device, body conduction normal speech conversion learning device, mobile phone, which improves the sound quality of speech (internal conduction normal speech) collected by (meat conduction (registered trademark) microphone) and conducted through the soft tissue in the body, The present invention relates to a normal conduction speech conversion learning method and a normal conduction speech conversion method.

特許文献1に記載の、耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面に装着され、体内軟部組織を伝導する振動音を採取する肉伝導(登録商標)マイクロフォンは、構造的に外部雑音が入りにくい。この特徴を生かして、騒音が大きい環境における音声認識、音声通話への入力として、体内伝導通常音声を使用する検討が進められている。
WO2004/021738
Meat conduction (registered trademark) that is attached to the skin surface on the thoracic papillary muscle, directly below the mastoid process of the cranial bone, and collects the vibration sound that conducts the soft tissue in the body, as described in Patent Document 1. ) Microphone is structurally resistant to external noise. Taking advantage of this feature, studies are underway to use normal body-conducted speech as an input to speech recognition and speech communication in a noisy environment.
WO2004 / 021738

一般的に、音声は、声帯の規則振動により生じる規則波(ピッチ)または気道の狭めで生ずる乱流雑音を音源とし、のどから口蓋にかけての調音器官を経て出力される。体内伝導通常音声は、調音器官からやや離れた、耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取されるため、体内軟部組織を伝導する過程で高周波数成分が減衰し、その結果、通常の気伝導マイクロフォンで採取した音声(以後、気伝導音と呼ぶ)に比べて、やや明瞭性を欠いた、こもったような音になってしまうという問題があった。   In general, the sound is output through the articulating organ from the throat to the palate using a regular wave (pitch) generated by regular vibration of the vocal cords or turbulent noise generated by narrowing the airway as a sound source. Intracorporeal normal speech is collected from the skin surface above the thoracic papillary muscle, just below the mastoid of the skull, just below the pinna, slightly away from the articulatory organ. The problem is that the high frequency components are attenuated, resulting in a muffled sound that is slightly less clear than the sound collected by a normal air conduction microphone (hereinafter referred to as air conduction sound). was there.

本発明は上述した従来技術の問題点を解決するためになされたものであり、その目的は体内伝導通常音声の音質を改善することのできる体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法を提供することである。   The present invention has been made in order to solve the above-described problems of the prior art, and the object thereof is a body conduction normal speech conversion learning device and a body conduction normal speech conversion device capable of improving the sound quality of body conduction normal speech. It is intended to provide a mobile phone, a body conduction normal speech conversion learning method, and a body conduction normal speech conversion learning method.

本発明の請求項1による体内伝導通常音声変換学習装置は、
耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第1の線形予測分析手段と、気伝導音について線形予測分析を行う第2の線形予測分析手段と、
前記第1の線形予測分析手段の分析結果と前記第2の線形予測分析手段の分析結果とに基づいて混合正規分布モデルを学習するGMM学習手段と、を含むことを特徴とする。このような構成によれば、騒音が大きい環境においても、快適に気伝導音に近い音質で音声通話することが可能となるための混合正規分布モデルを得ることができる。
The internal conduction normal speech conversion learning device according to claim 1 of the present invention,
First linear predictive analysis that performs linear predictive analysis on normal body conduction speech conducted through the soft tissue of the body, taken from the surface of the skin on the thoracic papillary muscle, just below the mastoid process of the skull, below the auricle. Means, second linear prediction analysis means for performing linear prediction analysis on the air conduction sound,
GMM learning means for learning a mixed normal distribution model based on the analysis result of the first linear prediction analysis means and the analysis result of the second linear prediction analysis means. According to such a configuration, it is possible to obtain a mixed normal distribution model for enabling a voice call with a sound quality close to air conduction sound even in a noisy environment.

本発明の請求項2による体内伝導通常音声変換学習装置は、請求項1において、前記第1の線形予測分析手段の分析結果と、第2の線形予測分析手段の分析結果はLSFであり、
前記第2の線形予測分析手段が算出したLSFの分散値が大きくなるような前処理を行う前処理手段を更に含み、
前記GMM学習手段は、前記前処理手段によって前処理されたLSFと前記第1の線形予測分析手段が算出したLSFとに基づいて混合正規分布モデルを学習することを特徴とする。このような構成によれば、音質改善をはかることができる。
The internal conduction normal speech conversion learning device according to claim 2 of the present invention is the body conduction normal speech conversion learning device according to claim 1, wherein the analysis result of the first linear prediction analysis unit and the analysis result of the second linear prediction analysis unit are LSFs,
Pre-processing means for performing pre-processing so that the variance value of the LSF calculated by the second linear prediction analysis means becomes large;
The GMM learning unit learns a mixed normal distribution model based on the LSF preprocessed by the preprocessing unit and the LSF calculated by the first linear prediction analysis unit. According to such a configuration, the sound quality can be improved.

本発明の請求項3による体内伝導通常音声変換学習装置は、請求項2において、前記前処理手段による前処理は、各次LSFに対して、平均値を中心にして所定の割合で振幅を広げる処理であることを特徴とする。このような構成によれば、音質改善をはかることができる。
本発明の請求項4による体内伝導通常音声変換学習装置は、請求項1から請求項3までのいずれか1項において、前記第1の線形予測分析手段の分析結果であるフレームについて、時間的に連続する複数フレームを連結する第1のフレーム連結手段と、
前記第2の線形予測分析手段の分析結果であるフレームについて、時間的に連続する複数フレームを連結する第2のフレーム連結手段とを更に含み、
前記GMM学習手段は前記第1のフレーム連結手段及び前記第2のフレーム連結手段によってそれぞれ連結された複数フレームについて混合正規分布モデルを学習することを特徴とする。このような構成によれば、より音質改善をはかることができる。
The internal conduction normal speech conversion learning apparatus according to claim 3 of the present invention is the preconducted normal speech conversion learning device according to claim 2, wherein the preprocessing by the preprocessing means expands the amplitude at a predetermined ratio centered on the average value with respect to each next LSF. It is a process. According to such a configuration, the sound quality can be improved.
The internal conduction normal speech conversion learning device according to claim 4 of the present invention, in any one of claims 1 to 3, with respect to a frame that is an analysis result of the first linear prediction analysis means in terms of time. First frame connecting means for connecting a plurality of consecutive frames;
A second frame concatenation unit that concatenates a plurality of temporally continuous frames with respect to a frame that is an analysis result of the second linear prediction analysis unit;
The GMM learning means learns a mixed normal distribution model for a plurality of frames respectively connected by the first frame connecting means and the second frame connecting means. According to such a configuration, the sound quality can be further improved.

本発明の請求項5による体内伝導通常音声変換装置は、
請求項1から請求項3までのいずれか1項に記載の体内伝導通常音声変換学習装置により作成された混合正規分布モデルを記憶するGMM記憶用メモリと、
耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第3の線形予測分析手段と、
前記第3の線形予測分析手段の分析結果と前記体内伝導通常音声とに基づいて予測残差を求める分析フィルタ手段と、
前記GMM記憶用メモリに記憶された混合正規分布モデルを用いて、前記第3の線形予測分析手段の分析結果を、擬似気伝導音の分析結果へ変換する変換手段と、
前記予測残差と前記擬似気伝導音の分析結果とに基づいて擬似気伝導音を生成する合成フィルタ手段と、を含むことを特徴とする。このような構成によれば、騒音が大きい環境においても、快適に気伝導音に近い音質で音声通話することが可能となる。
The internal conduction normal speech converter according to claim 5 of the present invention is provided.
A GMM storage memory for storing a mixed normal distribution model created by the body conduction normal speech conversion learning device according to any one of claims 1 to 3;
Third linear predictive analysis that performs a linear predictive analysis of normal speech conducted in the soft tissue of the body taken from the surface of the skin on the papillary muscle of the thoracic papillary muscle, just below the mastoid of the skull, below the pinna Means,
Analysis filter means for obtaining a prediction residual based on the analysis result of the third linear prediction analysis means and the body conduction normal speech;
Conversion means for converting the analysis result of the third linear prediction analysis means into the analysis result of the pseudo air conduction sound using the mixed normal distribution model stored in the memory for GMM storage;
Synthetic filter means for generating a simulated air conduction sound based on the prediction residual and the analysis result of the simulated air conduction sound. According to such a configuration, it is possible to make a voice call comfortably with a sound quality close to air conduction sound even in an environment where noise is high.

本発明の請求項6による体内伝導通常音声変換装置は、請求項5において、
前記GMM記憶用メモリは、請求項4に記載の体内伝導通常音声変換学習装置により作成された混合正規分布モデルを記憶し、
前記変換手段による変換前の体内伝導通常音声の分析結果について時間的に連続する複数フレームを連結する第3のフレーム連結手段と、
前記変換手段による変換結果を複数のフレームに分割するフレーム分割手段とを更に含むことを特徴とする。このような構成によれば、より音質改善をはかることができる。
The internal-conduction normal speech conversion device according to claim 6 of the present invention is as follows.
The GMM storage memory stores a mixed normal distribution model created by the body conduction normal speech conversion learning device according to claim 4,
A third frame connecting means for connecting a plurality of temporally continuous frames with respect to the analysis result of the body conduction normal speech before conversion by the converting means;
It further includes frame dividing means for dividing the conversion result by the converting means into a plurality of frames. According to such a configuration, the sound quality can be further improved.

本発明の請求項7による携帯電話機は、
請求項1から請求項4までのいずれか1項に記載の体内伝導通常音声変換学習装置と、請求項5又は請求項6に記載の体内伝導通常音声変換装置とを含み、前記体内伝導通常音声変換装置によって生成した擬似気伝導音を通話に用いることを特徴とする。このような構成によれば、騒音が大きい環境においても、快適に気伝導音に近い音質で音声通話することが可能となる。
A mobile phone according to claim 7 of the present invention is
A body conduction normal speech conversion learning device according to any one of claims 1 to 4 and a body conduction normal speech conversion device according to claim 5 or 6, wherein the body conduction normal speech conversion device. The pseudo air conduction sound generated by the conversion device is used for a call. According to such a configuration, it is possible to make a voice call comfortably with a sound quality close to air conduction sound even in an environment where noise is high.

本発明の請求項8による体内伝導通常音声変換学習方法は、耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第1の線形予測分析ステップと、気伝導音について線形予測分析を行う第2の線形予測分析ステップと、
前記第1の線形予測分析ステップの分析結果と前記第2の線形予測分析ステップの分析結果とに基づいて混合正規分布モデルを学習するGMM学習ステップと、を含むことを特徴とする。このような方法によれば、騒音が大きい環境においても、快適に気伝導音に近い音質で音声通話することが可能となるための混合正規分布モデルを得ることができる。
The method for learning normal speech conversion in body conduction according to claim 8 of the present invention conducts soft tissue in the body, which is collected from the skin surface on the thoracic papillary muscle in the lower part of the pinna, just below the mastoid process of the skull. A first linear predictive analysis step for performing a linear predictive analysis for the body conduction normal speech; a second linear predictive analysis step for performing a linear predictive analysis for the air conduction sound;
And a GMM learning step of learning a mixed normal distribution model based on the analysis result of the first linear prediction analysis step and the analysis result of the second linear prediction analysis step. According to such a method, it is possible to obtain a mixed normal distribution model for enabling a voice call with a sound quality close to air conduction sound comfortably even in a noisy environment.

本発明の請求項9による体内伝導通常音声変換学習方法は、請求項8において、
前記第1の線形予測分析ステップによる分析結果と、第2の線形予測分析ステップによる分析結果はLSFであり、
前記第2の線形予測分析ステップにおいて算出したLSFの分散値が大きくなるような前処理を行う前処理ステップを更に含み、
前記GMM学習ステップにおいては、前記前処理ステップにおいて前処理されたLSFと前記第1の線形予測分析ステップにおいて算出したLSFとに基づいて混合正規分布モデルを学習することを特徴とする。このような方法によれば、音質改善をはかることができる。
The internal conduction normal speech conversion learning method according to claim 9 of the present invention is as follows.
The analysis result of the first linear prediction analysis step and the analysis result of the second linear prediction analysis step are LSFs,
A pre-processing step of performing pre-processing so that the variance value of the LSF calculated in the second linear prediction analysis step increases;
In the GMM learning step, a mixed normal distribution model is learned based on the LSF preprocessed in the preprocessing step and the LSF calculated in the first linear prediction analysis step. According to such a method, sound quality can be improved.

本発明の請求項10による体内伝導通常音声変換学習方法は、請求項9において、
前記前処理ステップにおける前処理は、各次LSFに対して、平均値を中心にして所定の割合で振幅を広げる処理であることを特徴とする。このような方法によれば、音質改善をはかることができる。
本発明の請求項11による体内伝導通常音声変換学習方法は、請求項8から請求項10までのいずれか1項において、
前記第1の線形予測分析ステップによる分析結果であるフレームについて、時間的に連続する複数フレームを連結する第1のフレーム連結ステップと、
前記第2の線形予測分析ステップによる分析結果であるフレームについて、時間的に連続する複数フレームを連結する第2のフレーム連結ステップとを更に含み、
前記GMM学習ステップにおいては前記第1のフレーム連結ステップ及び前記第2のフレーム連結ステップにおいてそれぞれ連結された複数フレームについて混合正規分布モデルを学習することを特徴とする。このような方法によれば、より音質改善をはかることができる。
The internal conduction normal speech conversion learning method according to claim 10 of the present invention is as follows.
The pre-processing in the pre-processing step is a process for expanding the amplitude at a predetermined ratio centering on the average value for each next LSF. According to such a method, sound quality can be improved.
The internal conduction normal speech conversion learning method according to claim 11 of the present invention is any one of claims 8 to 10,
A first frame concatenation step of concatenating a plurality of temporally continuous frames with respect to a frame that is an analysis result of the first linear prediction analysis step;
A second frame concatenation step of concatenating a plurality of temporally continuous frames with respect to a frame that is an analysis result of the second linear prediction analysis step;
In the GMM learning step, a mixed normal distribution model is learned for a plurality of frames connected in the first frame connecting step and the second frame connecting step, respectively. According to such a method, the sound quality can be further improved.

本発明の請求項12による体内伝導通常音声変換方法は、
耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第3の線形予測分析ステップと、
前記第3の線形予測分析ステップによる分析結果と前記体内伝導通常音声とに基づいて予測残差を求める分析フィルタステップと、
請求項8から請求項10までのいずれか1項に記載の体内伝導通常音声変換学習方法により作成された混合正規分布モデルを用いて、前記第3の線形予測分析ステップによる分析結果を、擬似気伝導音の分析結果へ変換する変換ステップと、
前記予測残差と前記擬似気伝導音の分析結果とに基づいて擬似気伝導音を生成する合成フィルタステップと、を含むことを特徴とする。このような方法によれば、騒音が大きい環境においても、快適に気伝導音に近い音質で音声通話することが可能となる。
The internal conduction normal speech conversion method according to claim 12 of the present invention comprises:
Third linear predictive analysis that performs a linear predictive analysis of normal speech conducted in the soft tissue of the body taken from the surface of the skin on the papillary muscle of the thoracic papillary muscle, just below the mastoid of the skull, below the pinna Steps,
An analysis filter step for obtaining a prediction residual based on the analysis result of the third linear prediction analysis step and the body conduction normal speech;
Using the mixed normal distribution model created by the body conduction normal speech conversion learning method according to any one of claims 8 to 10, the analysis result of the third linear prediction analysis step is simulated. A conversion step for converting into the analysis result of the conduction sound;
And a synthesis filter step of generating a pseudo air conduction sound based on the prediction residual and the analysis result of the pseudo air conduction sound. According to such a method, it is possible to make a voice call comfortably with a sound quality close to air conduction sound even in an environment where noise is high.

本発明の請求項13による体内伝導通常音声変換方法は、請求項12において、
前記変換ステップによる変換前の体内伝導通常音声の分析結果について時間的に連続する複数フレームを連結する第3のフレーム連結ステップと、
前記変換ステップによる変換結果を複数のフレームに分割するフレーム分割ステップとを更に含み、
前記変換ステップにおいては、請求項11に記載の体内伝導通常音声変換学習方法により作成された混合正規分布モデルを用いることを特徴とする。このような方法によれば、より音質改善をはかることができる。
The internal conduction normal speech conversion method according to claim 13 of the present invention is as follows.
A third frame linking step for linking a plurality of temporally continuous frames with respect to the analysis result of the body conduction normal speech before conversion by the conversion step;
A frame dividing step of dividing the conversion result of the conversion step into a plurality of frames,
In the conversion step, a mixed normal distribution model created by the body conduction normal speech conversion learning method according to claim 11 is used. According to such a method, the sound quality can be further improved.

気伝導音や体内伝導通常音声は、通常に発声した音声であって、それぞれ図17(a)、図17(b)に示すように、声帯の規則振動により生じる規則波(ピッチ)または気道の狭めで生ずる乱流雑音である励振源(音源)信号が、のどから口蓋にかけての調音器官で共鳴・半共鳴特性を付与された後、それぞれ伝播特性の異なる空気や体内軟部組織を伝播して、気伝導マイクロフォンや肉伝導(登録商標)マイクロフォンで採取される音声である。ここで、調音器官による共鳴・半共鳴特性と空気伝播特性をあわせたものを気伝導スペクトル、調音器官による共鳴・半共鳴特性と体内軟部組織伝播特性をあわせたものを体内伝導通常音声スペクトルと定義する。すると、気伝導音、体内伝導通常音声からそれぞれ、図18(a)、図18(b)に示すように、線形予測分析と分析フィルタにより、励振源(音源)と気伝導スペクトル、励振源(音源)と体内伝導通常音声スペクトルを抽出し、さらに分析フィルタにより、2つの情報からもとの音声を合成することが可能である。   Air conduction sound and body conduction normal voice are voices normally uttered, and as shown in FIGS. 17 (a) and 17 (b), regular waves (pitch) generated by regular vibration of the vocal cords or airway sounds, respectively. After the excitation source (sound source) signal, which is turbulent noise generated by narrowing, is given resonance and semi-resonance characteristics in the articulating organ from the throat to the palate, it propagates through air and soft tissue in the body with different propagation characteristics, This sound is collected by an air conduction microphone or a meat conduction (registered trademark) microphone. Here, the combination of resonance / semi-resonance characteristics and air propagation characteristics by articulatory organs is defined as the air conduction spectrum, and the combination of resonance / semi-resonance characteristics and arterial soft tissue propagation characteristics by the articulatory organs is defined as normal conduction spectrum in the body. To do. Then, as shown in FIGS. 18 (a) and 18 (b), the excitation source (sound source), the air conduction spectrum, and the excitation source (excitation source) are obtained from the air conduction sound and the body conduction normal voice, respectively, as shown in FIGS. It is possible to extract the sound source) and the internal conduction normal speech spectrum, and further synthesize the original speech from the two pieces of information by the analysis filter.

本発明では、同一発声内容を気伝導マイクロフォンと肉伝導マイクロフォンで採取して、それぞれ励振源(音源)と気伝導スペクトル、励振源(音源)と体内伝導通常音声スペクトルを求めて比較した場合、主に差が生ずるのが気伝導スペクトルと体内伝導通常音声スペクトルとの間であることに着目し、図19に示すように、まず、体内伝導通常音声から抽出した体内伝導通常音声スペクトルを変換処理により気伝導スペクトルに近づけ、体内伝導通常音声から抽出した励振源(音源)情報と組み合わせて、擬似的に気伝導音を合成(以後、擬似気伝導音と呼ぶ)することにより、体内伝導通常音声の音質を改善している。   In the present invention, when the same utterance content is sampled by the air conduction microphone and the meat conduction microphone, and the excitation source (sound source) and the air conduction spectrum and the excitation source (sound source) and the body conduction normal speech spectrum are respectively obtained and compared, Note that the difference between the air conduction spectrum and the body conduction normal speech spectrum occurs, as shown in FIG. 19, first, the body conduction normal speech spectrum extracted from the body conduction normal speech is converted by the conversion process. By approximating the air conduction spectrum and combining it with the excitation source (sound source) information extracted from the body conduction normal speech, a pseudo air conduction sound is synthesized (hereinafter referred to as a pseudo air conduction sound), thereby The sound quality is improved.

本発明によれば、構造的に外部雑音が入りにくいという特徴を有する肉伝導(登録商標)マイクロフォンを単独で使用する場合に比べて、体内伝導通常音声の音質を気伝導音に近い音質に改善しているので、騒音が大きい環境においても、快適に音声通話をすることが可能となる。   According to the present invention, the sound quality of the body-conducted normal voice is improved to a sound quality close to that of the air-conducted sound, compared to the case where the meat conduction (registered trademark) microphone having the feature that the external noise is structurally difficult to enter. Therefore, it is possible to make a voice call comfortably even in a noisy environment.

以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
(体内伝導通常音声換装置の構成例)
図1(a)、図1(b)は、本発明による体内伝導通常音声変換装置の実施形態の一つを示すブロック図であり、図1(a)は学習時の処理ブロック図、図1(b)は変換時の処理ブロック図である。特開平10−254473号公報に、ささやき声を通常の発声の方法で発声された通常音声に変換する方法として、スペクトル特性を表すLPCケプストラムに対して、1次変換関数、あるいはコードブック変換関数を使用して変換する方法が提案されている。本願では、体内伝導通常音声や気伝導音のスペクトル特性を表す特徴量が統計モデルとして表現可能であり、これら統計モデル同士を精度よく変換する関数として、同じく統計モデルである混合正規分布モデル(Gaussian Mixture Model:GMM)を用いる。また、スペクトル特性を表すパラメータとしては、安定性の検証が容易で、近年、携帯電話等の音声コーデックで広く用いられている線スペクトル周波数(Line Spectrum Frequency:LSF)または線スペクトル対(Line Spectrum Pair:LSP)を採用している。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings referred to in the following description, the same parts as those in the other drawings are denoted by the same reference numerals.
(Configuration example of normal speech exchange device for internal conduction)
1 (a) and 1 (b) are block diagrams showing one embodiment of the internal conduction normal speech conversion device according to the present invention, and FIG. 1 (a) is a processing block diagram during learning. (B) is a process block diagram at the time of conversion. Japanese Patent Application Laid-Open No. 10-254473 uses a primary conversion function or a codebook conversion function for an LPC cepstrum representing spectral characteristics as a method for converting a whispering voice into a normal voice uttered by a normal utterance method. Then, a conversion method has been proposed. In this application, features representing the spectral characteristics of normal body conduction speech and air conduction sound can be expressed as statistical models. As a function for accurately converting these statistical models, a mixed normal distribution model (Gaussian Mixture Model (GMM) is used. In addition, as a parameter representing a spectrum characteristic, stability verification is easy, and in recent years, a line spectrum frequency (LSF) or a line spectrum pair (Line Spectrum Pair) widely used in an audio codec such as a mobile phone is used. : LSP).

まず、学習時の処理ブロック図である図1(a)について説明する。線形予測分析手段11は、体内伝導通常音声を数十msのフレームと呼ばれる単位で切り出し、フレーム毎に線形予測分析によりLSFを計算する。線形予測分析手段12は、気伝導音を数十msのフレームと呼ばれる単位で切り出し、フレーム毎に線形予測分析によりLSFを計算する。これら線形予測分析手段11及び12におけるLSFの計算方法に関しては、例えば古井著、「音声情報処理」、森北出版、2002年3月15日、P.26−38に記載されている。GMM学習手段13は、線形予測分析手段により同一の発声内容の体内伝導通常音声、気伝導音から抽出されたLSFを学習データとして、体内伝導通常音声のLSFを気伝導音のLSFに変換するGMMのパラメータを学習する。具体的には、xを体内伝導通常音声のLSF、yを気伝導音のLSF、   First, FIG. 1A, which is a processing block diagram during learning, will be described. The linear prediction analysis unit 11 cuts out the body-conducted normal speech in units called frames of several tens of ms, and calculates the LSF by linear prediction analysis for each frame. The linear prediction analysis unit 12 cuts out the air conduction sound in units called frames of several tens of ms, and calculates LSF by linear prediction analysis for each frame. Regarding the calculation method of LSF in these linear predictive analysis means 11 and 12, see, for example, Furui, “Speech Information Processing”, Morikita Publishing, March 15, 2002, p. 26-38. The GMM learning means 13 uses the LSF extracted from the body conduction normal speech and air conduction sound of the same utterance content by the linear prediction analysis means as learning data, and converts the LSF of the body conduction normal speech into the LSF of the air conduction sound. Learn the parameters. Specifically, x is the LSF for normal conduction sound, y is the LSF for air conduction sound,

Figure 2007240654
をxとyとの結合特徴ベクトルとして、式(1)、式(2)のように結合特徴ベクトルzの確率分布をGMMで表し、そのパラメータ
Figure 2007240654
Is a combined feature vector of x and y, and the probability distribution of the combined feature vector z is expressed by GMM as shown in equations (1) and (2), and its parameters

Figure 2007240654
を、例えば中川著、「確率モデルによる音声認識」、電子情報通信学会、1988年7月1日、P.51−55に記載のEMアルゴリズムにより推定する。
Figure 2007240654
, For example, by Nakagawa, “Voice Recognition by Probabilistic Model”, IEICE, July 1, 1988, P.A. Estimated by the EM algorithm described in 51-55.

Figure 2007240654
Figure 2007240654

Figure 2007240654
Figure 2007240654

ここで、mはGMM混合数、N(x;μ,Σ)は式(3)で表される、平均ベクトルμで共分散行列Σの正規分布である。   Here, m is the number of GMM mixtures, and N (x; μ, Σ) is a normal distribution of the covariance matrix Σ with an average vector μ expressed by Equation (3).

Figure 2007240654
Figure 2007240654

また、混合数iでの共分散行列Σi (z)と平均ベクトルμi (z)は、式(4)のように表される。 Further, the covariance matrix Σ i (z) and the average vector μ i (z) at the mixture number i are expressed as shown in Expression (4).

Figure 2007240654
Figure 2007240654

GMM記憶用メモリ14は学習後のGMMパラメータを格納する。
次に、変換時の処理ブロック図である図1(b)について説明する。線形予測分析手段15は、体内伝導通常音声を数十msのフレームと呼ばれる単位で切り出し、学習時と同様にフレーム毎に線形予測分析を行い、LSFを計算する。分析フィルタ手段16は、線形予測分析手段により求められたLSFをもとにLPC分析フィルタを構成し、体内伝導通常音声から予測残差(励振源)を計算する。変換手段17は、体内伝導通常音声のLSFを、GMM記憶用メモリ14に記憶されたGMMパラメータを用いて、式(5)、式(6)により変換し、擬似気伝導音のLSFを生成する。
The GMM storage memory 14 stores the GMM parameters after learning.
Next, FIG. 1B, which is a processing block diagram at the time of conversion, will be described. The linear prediction analysis means 15 cuts out the body-conducted normal speech in units called frames of several tens of ms, performs linear prediction analysis for each frame in the same way as during learning, and calculates the LSF. The analysis filter means 16 constitutes an LPC analysis filter based on the LSF obtained by the linear prediction analysis means, and calculates a prediction residual (excitation source) from the body conduction normal speech. The conversion means 17 converts the LSF of the body conduction normal speech using the GMM parameters stored in the GMM storage memory 14 according to the equations (5) and (6), and generates the pseudo air conduction sound LSF. .

Figure 2007240654
Figure 2007240654

Figure 2007240654
Figure 2007240654

ここで、xは体内伝導通常音声のLSF、yは気伝導音のLSF、pはLSF次数、mはGMM混合数である。
合成フィルタ手段18は、擬似気伝導音のLSFをもとにLPC合成フィルタを構成し、体内伝導通常音声の予測残差(励振源)から擬似気伝導音を生成する。
図2は、体内伝導通常音声のLSFをGMM変換して得られた擬似気伝導音の音質の評価方法を示したブロック図である。同図に示すように、学習用の体内伝導通常音声、気伝導音から抽出されたLSFをGMM学習手段13によりGMMパラメータを得て、GMM記憶用メモリ14に格納しておく。また、評価用に、同一発声内容の体内伝導通常音声、気伝導音を収録しておき、変換前の体内伝導通常音声のLSFと、同一発声の気伝導音のLSFとのひずみ量、擬似気伝導音のLSFと同一発声の気伝導音のLSFとのひずみ量を式(7)により計算し、LSFのひずみが小さいほど合成音が気伝導音に近い、すなわち音質がよいと判断する。
Here, x is the LSF of the body conduction normal voice, y is the LSF of the air conduction sound, p is the LSF order, and m is the GMM mixture number.
The synthesis filter means 18 constitutes an LPC synthesis filter based on the LSF of the pseudo air conduction sound, and generates the pseudo air conduction sound from the prediction residual (excitation source) of the normal body conduction speech.
FIG. 2 is a block diagram showing a method for evaluating the sound quality of pseudo-air conduction sound obtained by GMM conversion of LSF of body conduction normal speech. As shown in the figure, the LMM extracted from the in-body conduction normal speech and the air conduction sound for learning is obtained by the GMM learning means 13 and stored in the GMM storage memory 14. In addition, for the purpose of evaluation, body conduction normal speech and air conduction sound with the same utterance content are recorded, and the distortion amount and pseudo air between the LSF of the body conduction normal speech before conversion and the LSF of the air conduction sound with the same utterance are recorded. The amount of distortion between the LSF of the conduction sound and the LSF of the air conduction sound of the same utterance is calculated by Expression (7), and it is determined that the synthesized sound is closer to the air conduction sound, that is, the sound quality is better as the distortion of the LSF is smaller.

Figure 2007240654
Figure 2007240654

ここで、li xは目標となる気伝導音のLSF、li yは体内伝導通常音声または変換後の擬似気伝導音のLSF、Kは変換フレーム数である。
図3は、男女各15名が発声したATRバランス単語約700語(学習用)の単語音声と、JEITA音声合成総合評価文セット約10文の評価用文章音声を肉伝導マイクロフォンと気伝導マイクロフォンにより同時録音し、体内伝導通常音声と気伝導音とを使用して、実施例1記載の方式により、学習用体内伝導通常音声のLSFと学習用気伝導音のLSFからGMM学習を行い、上記の学習後のGMMを用いた評価用体内伝導通常音声のLSFから擬似気伝導音のLSFへの変換実験結果で、変換前の体内伝導通常音声のLSFのLSFひずみと、GMM変換後の擬似気伝導音のLSFのLSFひずみとを比較したグラフである。GMMの混合数は256で、線形予測分析は図4に示す条件で行った。30名全体の平均をみると、変換しない場合に比べ、LSFひずみは57.7%減少しており、大幅な音質改善がはかられていることがわかる。
Here, l i x is the LSF of the target air conduction sound, l i y is the LSF of the normal body conduction voice or the pseudo air conduction sound after conversion, and K is the number of conversion frames.
Figure 3 shows about 700 words of ATR balance words (for learning) uttered by 15 men and women, and about 10 sentences for evaluation of JEITA speech synthesis comprehensive evaluation sentence set using flesh conduction microphone and air conduction microphone. Using simultaneous recording and internal conduction normal speech and air conduction sound, GMM learning is performed from the LSF of learning internal conduction speech and LSF of learning air conduction sound by the method described in Example 1, LSF distortion of LSF of body conduction normal speech before conversion and LSF distortion after GMM conversion in LSF results of conversion from LSF of body conduction normal speech for evaluation using GMM after learning to LSF of pseudo air conduction sound It is the graph which compared the LSF distortion of the LSF of sound. The number of GMM mixtures was 256, and the linear prediction analysis was performed under the conditions shown in FIG. Looking at the average of all 30 persons, it can be seen that the LSF distortion is reduced by 57.7% compared to the case where the conversion is not performed, and the sound quality is greatly improved.

図5、図6は、上記の女性15名が発声した評価用10文章の体内伝導通常音声のLSFと気伝導音のLSF、実施例1の方式で体内伝導通常音声から変換された擬似気伝導音のLSFを構成する1次から10次係数において、次数毎にそれぞれ平均値、分散値を示したグラフである(15名平均)。
図5を参照すると、多くの次数において気伝導音の平均LSFと体内伝導通常音声の平均LSFとの値が異なる。しかし、気伝導音の平均LSFと擬似気伝導音の平均LSFとは全次数においてほぼ一致しており、GMM変換が良好に機能していることがわかる。
5 and 6 show the LSF of the body conduction normal speech and the LSF of the air conduction sound of the 10 sentences for evaluation uttered by the above 15 women, and the pseudo air conduction converted from the body conduction normal speech by the method of the first embodiment. It is the graph which showed the average value and the dispersion | distribution value for every order in the 1st-10th coefficient which comprises LSF of a sound, respectively (15 persons average).
Referring to FIG. 5, the value of the average LSF of air conduction sound and the average LSF of normal body conduction sound differs in many orders. However, the average LSF of the air conduction sound and the average LSF of the pseudo air conduction sound are almost the same in all orders, and it can be seen that the GMM conversion functions well.

一方、図6において、LSF分散値に関してそのグラフを比較すると、気伝導音と体内伝導通常音声との間では、ピークの位置、形状とも異なっている。しかし、気伝導音と擬似気伝導音との間では、ピークの位置、形状とも類似しており、これからもGMM変換が良好に機能していることがわかる。ただし、擬似気伝導音のLSF分散値は気伝導音のLSF分散値の約1/2程度の値しかなく、平均値はほぼ同じでも、平均値を中心とした振幅については、擬似気伝導音は気伝導音より均一に小さい。これがLSFひずみ発生の原因の一つになると考えられる。   On the other hand, in FIG. 6, when comparing the graphs with respect to the LSF dispersion value, the peak position and shape are different between the air conduction sound and the body conduction normal sound. However, between the air conduction sound and the pseudo air conduction sound, the peak position and shape are similar, and it can be seen that the GMM conversion functions well from this. However, the LSF dispersion value of the pseudo air conduction sound is only about ½ of the LSF dispersion value of the air conduction sound, and the average value is substantially the same, but the amplitude around the average value is about the pseudo air conduction sound. Is uniformly smaller than the air conduction sound. This is considered to be one of the causes of LSF distortion.

そこで、変換後の擬似気伝導音のLSF分散値がより大きくなるよう、図7に示すように、GMM学習手段13によるGMM学習前の学習データに、擬似気伝導音のLSF分散値が大きくなるような前処理を、前処理手段19によって施しておくことを考える。この前処理手段19による前処理は、例えば、図20に示すように、気伝導音の各次LSFに対して、平均値を中心にして一定割合で振幅を広げるような処理である。   Therefore, as shown in FIG. 7, the LSF dispersion value of the pseudo air conduction sound is increased in the learning data before the GMM learning by the GMM learning unit 13 so that the LSF dispersion value of the converted pseudo air conduction sound becomes larger. It is considered that such preprocessing is performed by the preprocessing means 19. For example, as shown in FIG. 20, the preprocessing by the preprocessing unit 19 is a process of expanding the amplitude at a constant rate around the average value for each LSF of the air conduction sound.

図8は、本発明による体内伝導通常音声変換装置の他の実施形態を示すブロック図であり、図8(a)は学習時の処理ブロック図、図8(b)は変換時の処理ブロック図である。図1を参照して説明した実施例1の構成と異なるのは、図8(a)において、気伝導音からLSFを計算する線形予測分析手段12の後に、気伝導音の各次LSFに対して、平均値を中心にして一定割合で振幅を広げるような処理を行う前処理手段19が含まれている点である。その他のブロックの機能は実施例1の場合と同様であるため説明を省略する。   FIG. 8 is a block diagram showing another embodiment of the internal conduction normal speech conversion device according to the present invention. FIG. 8 (a) is a processing block diagram during learning, and FIG. 8 (b) is a processing block diagram during conversion. It is. The difference from the configuration of the first embodiment described with reference to FIG. 1 is that in FIG. 8A, after the linear predictive analysis means 12 for calculating the LSF from the air conduction sound, each of the LSFs of the air conduction sound. Thus, preprocessing means 19 is included for performing processing to increase the amplitude at a constant rate with the average value as the center. Since the other block functions are the same as those in the first embodiment, description thereof is omitted.

図9は、男女各15名が発声したATRバランス単語約700語(学習用)の単語音声と、JEITA音声合成総合評価文セット約10文の評価用文章音声を肉伝導マイクロフォンと気伝導マイクロフォンにより同時録音し、体内伝導通常音声と気伝導音とを使用して、実施例2の装置により、学習用体内伝導通常音声のLSFと学習用気伝導音のLSFとからGMM学習を行い、上記の学習後のGMMを用いた評価用体内伝導通常音声のLSFから擬似気伝導音のLSFへの変換実験結果で、変換前の体内伝導通常音声のLSFのLSFひずみと、GMM変換後の擬似気伝導音のLSFのLSFひずみとを、実施例1の結果も合わせて比較したグラフである。GMMの混合数と線形予測分析条件は実施例1と同一で、GMM学習前の気伝導音LSFに対する前処理として、次数毎に平均値を中心にして振幅を10%広げた。30名全体の平均をみると、LSFひずみは変換しない場合に比べて62.2%、実施例1に比べて10.7%減少しており、実施例1よりもさらに音質改善がはかられていることがわかる。処理量に関しては、実施例1より気伝導音のLSFに対する前処理分増加する。しかし、この処理増加は、学習時のみ発生するため、変換時の負荷が増えることはない。   FIG. 9 shows a speech sound of about 700 ATR balance words (for learning) uttered by 15 men and women, and a sentence voice for evaluation of about 10 JEITA speech synthesis comprehensive evaluation sentence sets using a meat conduction microphone and an air conduction microphone. Simultaneously recording and using the internal conduction normal speech and air conduction sound, GMM learning is performed from the LSF of the learning internal conduction normal speech and the learning air conduction sound LSF by the apparatus of Example 2, LSF distortion of LSF of body conduction normal speech before conversion and LSF distortion after GMM conversion in LSF results of conversion from LSF of body conduction normal speech for evaluation using GMM after learning to LSF of pseudo air conduction sound It is the graph which also compared the result of Example 1 with the LSF distortion of the LSF of sound. The number of GMM mixtures and the linear prediction analysis conditions were the same as in Example 1. As preprocessing for the air conduction sound LSF before GMM learning, the amplitude was expanded by 10% centering on the average value for each order. Looking at the average of all 30 people, the LSF distortion is 62.2% lower than that without conversion, and 10.7% lower than that in Example 1. Further improvement in sound quality is expected compared to Example 1. You can see that With respect to the processing amount, the pretreatment for the LSF of the air conduction sound is increased from that in the first embodiment. However, since this increase in processing occurs only during learning, the load during conversion does not increase.

変換関数にGMMを使用することの問題点として、以下の点があげられる。すなわち、GMMは統計的なモデルであるため、学習時、安定的に出現する変換元と変換先の特徴量パターンの組合せについては精度よく変換関数が生成される。一方、安定的に出現する回数が少ない特徴量パターンの組合せについては、十分な学習ができず、結果として平均値に近い変換先の特徴量パターンへ変換してしまう傾向を有するという問題点がある。   The following points are raised as problems in using the GMM for the conversion function. That is, since the GMM is a statistical model, a conversion function is generated with high accuracy for a combination of a conversion source and a conversion destination feature quantity pattern that appears stably during learning. On the other hand, there is a problem in that a combination of feature quantity patterns with a small number of stable appearances cannot be sufficiently learned, and as a result, there is a tendency to convert to a feature quantity pattern at a conversion destination close to the average value. .

実施例1の場合について考えてみると、音素(「a」、「i」、「u」、「e」、「o」、「k」、「s」など音声の最小基本単位)から後続する音素への遷移部分において、LSFパターンは前後の音素に大きく影響されて安定せず、例えば「a」から「i」への遷移区間のLSFパターンも、「a」から「u」への遷移区間のLSFパターンも「a」の平均値に近いパターンへ変換されてしまう。その結果、図6に示すように擬似気伝導音のLSF分散値が気伝導音のLSF分散値より小さくなってしまったと考えられる。一つの解決方法として、音素間の遷移部と、安定的にLSFパターンが現れる音素の定常部とを同時に含む程度に、線形予測分析区間を拡張することが考えられる。しかしながら、時間分解能、周波数分解能の観点から、分析区間の拡張は好ましくない。   Considering the case of the first embodiment, it follows from phonemes (minimum basic unit of speech such as “a”, “i”, “u”, “e”, “o”, “k”, “s”). In the transition part to the phoneme, the LSF pattern is greatly affected by the preceding and following phonemes and is not stable. For example, the LSF pattern in the transition section from “a” to “i” is also the transition section from “a” to “u”. This LSF pattern is also converted to a pattern close to the average value of “a”. As a result, it is considered that the LSF dispersion value of the pseudo air conduction sound is smaller than the LSF dispersion value of the air conduction sound as shown in FIG. As one solution, it is conceivable to extend the linear prediction analysis interval to such an extent that it includes a transition part between phonemes and a steady part of phonemes in which an LSF pattern appears stably. However, from the viewpoint of time resolution and frequency resolution, it is not preferable to extend the analysis interval.

そこで、図10に示すように、音声信号について、時間軸上に連続するフレームのLSFパターンを複数連結して新たな特徴パターンとすることを考える。本例では、(i−1)フレーム、(i)フレーム、(i+1)フレーム、の3つの連続するフレームに対応するLSFパターンであるLSF(i−1)、LSF(i)、LSF(i+1)を連結して新たな特徴パターンとする。各フレームの特徴パターンが10次元であるため、結合されたLSF(i)の特徴パターンは30次元となる。なお、結合するフレームの数は、「3」に限定されず、2又は4以上のフレームを結合してもよい。   Therefore, as shown in FIG. 10, it is considered that a plurality of LSF patterns of continuous frames on the time axis are connected to form a new feature pattern for the audio signal. In this example, LSF (i−1), LSF (i), LSF (i + 1), which are LSF patterns corresponding to three consecutive frames of (i−1) frame, (i) frame, and (i + 1) frame. To form a new feature pattern. Since the feature pattern of each frame is 10-dimensional, the combined feature pattern of LSF (i) is 30-dimensional. The number of frames to be combined is not limited to “3”, and two or more frames may be combined.

図11は、本発明による体内伝導通常音声変換装置の更に別の実施形態を示すブロック図であり、図11(a)は学習時の処理ブロック図、図11(b)は変換時の処理ブロック図である。
まず、図11(a)を参照して、学習時の処理について説明する。
同図において、線形予測分析手段11は、体内伝導通常音声を数十msのフレーム単位で切り出し、フレーム毎に線形予測分析によりLSFを計算する。同様に、線形予測分析手段12は、気伝導音を数十msのフレーム単位で切り出し、フレーム毎に線形予測分析によりLSFを計算する。線形予測分析手段11、12におけるLSFの計算方法に関しては、例えば古井著、「音声情報処理」、森北出版、2002年3月15日、P.24−26、P.106−111に記載されている。
FIG. 11 is a block diagram showing still another embodiment of the internal conduction normal speech conversion device according to the present invention. FIG. 11 (a) is a processing block diagram during learning, and FIG. 11 (b) is a processing block during conversion. FIG.
First, the learning process will be described with reference to FIG.
In the same figure, the linear prediction analysis means 11 cuts out the body-conducting normal speech in units of several tens of frames and calculates the LSF by linear prediction analysis for each frame. Similarly, the linear prediction analysis means 12 cuts out the air conduction sound in units of frames of several tens of ms, and calculates LSF by linear prediction analysis for each frame. Regarding the LSF calculation method in the linear predictive analysis means 11 and 12, see, for example, Furui, “Speech Information Processing”, Morikita Publishing, March 15, 2002, p. 24-26, P.I. 106-111.

フレーム連結手段21、22は、線形予測分析手段11、12で計算されたフレーム単位のLSFをあらかじめ決められたフレーム数分蓄えて連結し、新たなLSFパターンとして出力する。フレーム連結手段21、22は、例えば、あらかじめ決められたフレーム数分のフレームを蓄積できるバッファを用いて構成する。
GMM学習手段13は、あらかじめ決められたフレーム数分連結された体内伝導通常音声のLSFと、同じくあらかじめ決められたフレーム数分連結された気伝導音のLSFを学習データとして、結合された体内伝導通常音声のLSFを結合された気伝導音のLSFに変換するGMMのパラメータを学習する。具体的な学習方法は実施例1と同様であるため説明を省略する。GMM記憶用メモリ14は学習後のGMMパラメータを格納する。
The frame connecting means 21 and 22 store and connect the LSF of the frame unit calculated by the linear prediction analyzing means 11 and 12 for a predetermined number of frames, and output as a new LSF pattern. The frame connecting means 21 and 22 are configured using, for example, a buffer that can store frames for a predetermined number of frames.
The GMM learning means 13 uses the LSF of the normal body conduction speech connected for the predetermined number of frames and the LSF of the air conduction sound connected for the predetermined number of frames as learning data, and the combined internal conduction. GMM parameters for converting a normal speech LSF into a combined air conduction sound LSF are learned. Since a specific learning method is the same as that in the first embodiment, description thereof is omitted. The GMM storage memory 14 stores the GMM parameters after learning.

次に、図11(b)を参照して、変換時の処理について説明する。
同図において、線形予測分析手段15は、体内伝導通常音声を数十msのフレーム単位で切り出し、学習時と同様にフレーム毎に線形予測分析を行い、LSFを計算する。分析フィルタ手段16は、線形予測分析手段15により求められたLSFをもとにLPC分析フィルタを構成し、体内伝導通常音声から予測残差(励振源)を計算する。変換手段は、体内伝導通常音声のLSFを、GMM記憶用メモリに記憶されたGMMパラメータを用いて、式(4)、式(5)により変換し、擬似気伝導音のLSFを生成する。
Next, with reference to FIG. 11B, a process at the time of conversion will be described.
In the figure, the linear prediction analysis means 15 cuts out the body-conducting normal speech in units of frames of several tens of ms, performs linear prediction analysis for each frame as in the learning, and calculates the LSF. The analysis filter means 16 constitutes an LPC analysis filter based on the LSF obtained by the linear prediction analysis means 15, and calculates a prediction residual (excitation source) from the normal body conduction speech. The converting means converts the LSF of the body conduction normal speech using the GMM parameters stored in the GMM storage memory according to the equations (4) and (5), and generates the LSF of the pseudo air conduction sound.

フレーム連結手段23は、線形予測分析手段15で計算されたフレーム単位のLSFを、学習時と同じ、あらかじめ決められたフレーム数分蓄えて連結し、新たなLSFパターンとして出力する。このフレーム連結手段23は、例えば、あらかじめ決められたフレーム数分のフレームを蓄積できるバッファを用いて構成する。
変換手段17は、体内伝導通常音声のあらかじめ決められたフレーム数分連結されたLSFを、GMM記憶用メモリ14に記憶されたGMMパラメータを用いて、式(4)、式(5)により変換し、あらかじめ決められたフレーム数分連結された擬似気伝導音のLSFを生成する。
The frame connecting means 23 stores and connects the LSFs in units of frames calculated by the linear prediction analyzing means 15 for the predetermined number of frames, which is the same as during learning, and outputs the result as a new LSF pattern. The frame connecting means 23 is configured using, for example, a buffer capable of storing frames for a predetermined number of frames.
The conversion means 17 converts the LSF connected for a predetermined number of frames of the normal body conduction speech using the GMM parameters stored in the GMM storage memory 14 according to the expressions (4) and (5). Then, LSFs of pseudo air conduction sounds connected for a predetermined number of frames are generated.

フレーム分割手段24は、あらかじめ決められたフレーム数分連結された擬似気伝導音のLSFを、フレーム単位のLSFに分割する。このフレーム分割手段24は、例えば、あらかじめ決められたフレーム数分のフレームをバッファに蓄積しておき、このバッファに蓄積したフレームを分割して読み出す構成とする。
合成フィルタ手段18は、フレーム単位で、擬似気伝導音のLSFをもとにLPC合成フィルタを構成し、体内伝導通常音声の予測残差(励振源)から擬似気伝導音を生成する。
The frame dividing unit 24 divides the LSFs of the pseudo air conduction sound connected by a predetermined number of frames into LSFs in units of frames. For example, the frame dividing unit 24 is configured to accumulate frames for a predetermined number of frames in a buffer, and to divide and read the frames accumulated in the buffer.
The synthesis filter means 18 constructs an LPC synthesis filter based on the LSF of the pseudo air conduction sound for each frame, and generates the pseudo air conduction sound from the prediction residual (excitation source) of the normal body conduction speech.

図12は、男女各15名が発声したATRバランス単語約700語(学習用)の単語音声と、JEITA音声合成総合評価文セット約10文の評価用文章音声を肉伝導マイクロフォンと気伝導マイクロフォンとにより同時録音し、体内伝導通常音声と気伝導音として使用して、実施例3の装置により、学習用体内伝導通常音声のLSFと学習用気伝導音のLSFとからGMM学習を行い、上記の学習後のGMMを用いた評価用体内伝導通常音声のLSFから擬似気伝導音のLSFへの変換実験結果で、変換前の体内伝導通常音声のLSFのLSFひずみと、GMM変換後の擬似気伝導音のLSFのLSFひずみとを、実施例1の結果も合わせて比較したグラフである。なお、GMMの混合数と線形予測分析条件は実施例1と同一で、連結フレーム数は3である。
同図において、30名全体の平均をみると、LSFひずみは変換しない場合に比べて62.5%、実施例1に比べて11.4%減少しており、実施例1、実施例2よりもさらに音質改善がはかられていることがわかる。
FIG. 12 shows a word speech of about 700 ATR balance words (for learning) uttered by 15 men and women, and an evaluation sentence speech of about 10 sentences of the JEITA speech synthesis comprehensive evaluation sentence set as a meat conduction microphone and an air conduction microphone. Are simultaneously recorded and used as the body conduction normal voice and the air conduction sound, and the device of Example 3 performs GMM learning from the LSF of the learning body conduction normal voice and the LSF of the learning air conduction sound. LSF distortion of LSF of body conduction normal speech before conversion and LSF distortion after GMM conversion in LSF results of conversion from LSF of body conduction normal speech for evaluation using GMM after learning to LSF of pseudo air conduction sound It is the graph which also compared the result of Example 1 with the LSF distortion of the LSF of sound. Note that the number of GMM mixtures and the linear prediction analysis conditions are the same as in the first embodiment, and the number of connected frames is three.
In the figure, looking at the average of all 30 persons, the LSF strain was reduced by 62.5% compared to the case without conversion, and by 11.4% compared to Example 1, and from Examples 1 and 2 It can be seen that the sound quality is further improved.

また、図13は、上記の女性15名が発声した評価用10文章の気伝導音のLSF、実施例1の方式で体内伝導通常音声から変換された擬似気伝導音のLSF、実施例3の方式で体内伝導通常音声から変換された擬似気伝導音のLSFを構成する1次から10次係数において、次数毎に分散値(15名平均)を示したグラフである。図13を参照すると、気伝導音、実施例1の装置による擬似気伝導音、実施例3の装置による擬似気伝導音、の間では、ピークの位置、形状とも類似している。さらに、実施例3の装置による擬似気伝導音の波形のほうが、実施例1の装置による擬似気伝導音の波形よりも、気伝導音の波形に近い。このことからもフレーム連結の有効性が確認できる。
なお、実施例3において、実施例2の場合と同様に、気伝導音の各次LSFに対して、平均値を中心にして一定割合で振幅を広げるような前処理を行ってもよい。
Further, FIG. 13 shows the LSF of the air conduction sound of the 10 sentences for evaluation uttered by the above 15 women, the LSF of the pseudo air conduction sound converted from the normal body conduction sound by the method of the first embodiment, and the third embodiment. It is the graph which showed the dispersion | distribution value (15 persons average) for every order in the 1st-10th coefficient which comprises LSF of the pseudo air conduction sound converted from the body conduction normal sound by the system. Referring to FIG. 13, between the air conduction sound, the simulated air conduction sound by the apparatus of Example 1, and the simulated air conduction sound by the apparatus of Example 3, the position and shape of the peak are similar. Further, the waveform of the pseudo air conduction sound by the apparatus of the third embodiment is closer to the waveform of the air conduction sound than the waveform of the pseudo air conduction sound by the apparatus of the first embodiment. This also confirms the effectiveness of frame connection.
In the third embodiment, as in the case of the second embodiment, pre-processing may be performed on each order LSF of air conduction sound so that the amplitude is increased at a constant rate around the average value.

(携帯電話システム)
図21は、体内伝導通常音声変換学習装置と、体内伝導通常音声変換装置とを含む携帯電話機を用いたコミュニケーションインタフェースシステムの概略構成図である。
肉伝導マイクロフォン1−1を、乳様突起直下1−2に接着して装着し、イヤフォン1−3又はスピーカーを耳孔に装着する。肉伝導マイクロフォン1−1及びイヤフォン1−3は、携帯電話機1−4と有線もしくは無線の通信手段で接続されている。イヤフォン1−3の代わりにスピーカーを用いても良い。
(Mobile phone system)
FIG. 21 is a schematic configuration diagram of a communication interface system using a mobile phone including a body conduction normal speech conversion learning device and a body conduction normal speech conversion learning device.
The meat conduction microphone 1-1 is attached by being attached to 1-2 directly below the milky protrusion, and the earphone 1-3 or the speaker is attached to the ear hole. The meat conduction microphone 1-1 and the earphone 1-3 are connected to the cellular phone 1-4 by wired or wireless communication means. A speaker may be used instead of the earphone 1-3.

無線ネットワーク1−5は、例えば、無線基地局51a及び51bと、基地局制御装置52a及び52bと、交換機53a及び53bと、通信網50とを含んで構成されている。本例では、携帯電話機1−4が無線基地局51aと無線通信し、かつ、携帯電話機1−6が無線基地局51bと無線通信することにより、携帯電話機1−4と携帯電話機1−6との間で通話が可能となる。
乳様突起直下1−2に到達した、通常発声音1−7の振動音は、そこに装着されている肉伝導マイクロフォン1−1により採取され、この肉伝導マイクロフォン内のコンデンサマイクロフォンによって電気信号となり、この信号が有線もしくは無線の通信手段により、携帯電話機1−4に送信される。
The radio network 1-5 includes, for example, radio base stations 51a and 51b, base station controllers 52a and 52b, exchanges 53a and 53b, and a communication network 50. In this example, the cellular phone 1-4 communicates wirelessly with the radio base station 51a, and the cellular phone 1-6 communicates wirelessly with the radio base station 51b. Calls can be made between the two.
The vibration sound of the normal utterance sound 1-7 that has reached 1-2 immediately below the mastoid process is collected by the meat conduction microphone 1-1 attached thereto, and becomes an electric signal by the condenser microphone in the meat conduction microphone. This signal is transmitted to the cellular phone 1-4 by wired or wireless communication means.

携帯電話機1−4に送信された、通常発声音の振動音は、無線ネットワーク1−5を介して、通話相手の持つ携帯電話機1−6に送信される。
一方、通話相手の音声は、携帯電話機1−6、無線ネットワーク1−5、携帯電話機1−4を経由して、有線もしくは無線の通信手段により、イヤフォン1−3又はスピーカーに送信される。なお、携帯電話1−4から直接、聴く場合はイヤフォン1−3は必要ない。
これにより、騒音が大きい環境においても、通話相手と会話することが可能となる。
要するに、本例では、肉伝導マイクロフォンと、信号処理装置としての携帯電話機とを組み合わせて、コミュニケーションインタフェースシステムを構成している。
The vibration sound of the normal utterance sound transmitted to the cellular phone 1-4 is transmitted to the cellular phone 1-6 possessed by the other party via the wireless network 1-5.
On the other hand, the voice of the other party is transmitted to the earphone 1-3 or the speaker via the mobile phone 1-6, the wireless network 1-5, and the mobile phone 1-4 by wired or wireless communication means. Note that the earphone 1-3 is not necessary when listening directly from the mobile phone 1-4.
As a result, it is possible to talk with the other party even in a noisy environment.
In short, in this example, a communication interface system is configured by combining a meat conduction microphone and a mobile phone as a signal processing device.

(体内伝導通常音声変換方法)
上述した体内伝導通常音声変換装置においては、図14、図15、図16に示す体内伝導通常音声変換方法が実現されている。
学習時の処理フローを示した図14(a)を参照すると、耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面により採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第1の線形予測分析ステップ(S101)と、気伝導音について線形予測分析を行う第2の線形予測分析ステップ(S102)と、上記第1の線形予測分析ステップの分析結果と上記第2の線形予測分析ステップの分析結果とに基づいて混合正規分布モデルを学習し記憶するGMM学習ステップ(S103)が順に実行される。第1の線形予測分析ステップ(S101)、第2の線形予測分析ステップ(S102)ではそれぞれ、体内伝導通常音声、気伝導音を数十msのフレームと呼ばれる単位で切り出し、フレーム毎に線形予測分析によりLSFを計算する。これら線形予測分析方法に関しては、例えば古井著、「音声情報処理」、森北出版、2002年3月15日、P.26−38に記載されている。また、GMM学習方法については、体内伝導通常音声変換装置の構成例において記載した方法を用いることができる。次に変換時の処理フローを示した図14(b)を参照すると、体内伝導通常音声を数十msのフレームと呼ばれる単位で切り出し、学習時と同様にフレーム毎に線形予測分析を行い、LSFを計算する線形予測分析ステップ(S104)と、線形予測分析手段により求められたLSFをもとにLPC分析フィルタを構成し、体内伝導通常音声から予測残差(励振源)を計算する分析フィルタ処理ステップ(S105)と、のLSFを、GMM学習ステップ(S103)で学習・記憶されたGMMパラメータを用いて、式(5)、式(6)により擬似気伝導音のLSFへの変換を行う変換ステップ(S106)と、前記擬似気伝導音のLSFをもとにLPC合成フィルタを構成し、前記体内伝導通常音声の予測残差(励振源)から擬似気伝導音を生成する合成フィルタ処理ステップ(S107)が順に実行される。この体内伝導通常音声変換方法によれば、騒音が大きい環境においても、快適に気伝導音に近い音質で音声通話することが可能となる。
(Body conduction normal speech conversion method)
In the above-described body conduction normal speech conversion device, the body conduction normal speech conversion method shown in FIGS. 14, 15, and 16 is realized.
Referring to FIG. 14 (a) showing the processing flow at the time of learning, conduction is performed through the soft tissue in the body, which is collected by the skin surface on the thoracic papillary muscle in the lower part of the pinna, directly below the mastoid process of the skull. A first linear prediction analysis step (S101) for performing a linear prediction analysis on the body conduction normal speech to be performed, a second linear prediction analysis step (S102) for performing a linear prediction analysis on the air conduction sound, and the first linear prediction. A GMM learning step (S103) for learning and storing a mixed normal distribution model based on the analysis result of the analysis step and the analysis result of the second linear prediction analysis step is sequentially executed. In the first linear prediction analysis step (S101) and the second linear prediction analysis step (S102), body conduction normal speech and air conduction sound are cut out in units called frames of several tens of ms, and linear prediction analysis is performed for each frame. To calculate the LSF. Regarding these linear prediction analysis methods, see, for example, Furui, “Speech Information Processing”, Morikita Publishing, Mar. 15, 2002, P.A. 26-38. As the GMM learning method, the method described in the configuration example of the internal conduction normal speech conversion device can be used. Next, referring to FIG. 14 (b) showing the processing flow at the time of conversion, the body-conducted normal speech is cut out in units called frames of several tens of ms, and linear prediction analysis is performed for each frame in the same way as during learning, and LSF The linear prediction analysis step (S104) for calculating the LPC, and the analysis filter processing for constructing the LPC analysis filter based on the LSF obtained by the linear prediction analysis means and calculating the prediction residual (excitation source) from the body conduction normal speech Using the GMM parameters learned and stored in the GMM learning step (S103), the LSF of step (S105) is converted to LSF of the pseudo air conduction sound using the equations (5) and (6) A step (S106) and an LPC synthesis filter are configured based on the LSF of the pseudo air conduction sound, and the pseudo air conduction sound is determined from the prediction residual (excitation source) of the body conduction normal speech. Generating synthesized filtering step (S107) are sequentially executed. According to this body conduction normal voice conversion method, it is possible to make a voice call with a sound quality close to air conduction sound even in a noisy environment.

また、図15(a)に示すように、上記第2の線形予測分析ステップにおける分析結果について、擬似気伝導音のLSF分散値が大きくなるような前処理を行う前処理ステップ(S108)を更に含み、上記GMM学習ステップ(S103)においては、上記前処理ステップ(S108)において前処理された分析結果と上記第1の線形予測分析ステップ(S101)における分析結果とに基づいて混合正規分布モデルを学習するようにしてもよい。この体内伝導通常音声変換方法によれば、音質改善をはかることができる。なお、上記前処理ステップによる前処理は、例えば、気伝導音の各次LSFに対して、平均値を中心にして一定割合で振幅を広げる処理である。   Further, as shown in FIG. 15 (a), a preprocessing step (S108) for performing preprocessing for increasing the LSF dispersion value of the pseudo air conduction sound is further performed on the analysis result in the second linear prediction analysis step. In the GMM learning step (S103), a mixed normal distribution model is generated based on the analysis result preprocessed in the preprocessing step (S108) and the analysis result in the first linear prediction analysis step (S101). You may make it learn. According to this body conduction normal speech conversion method, sound quality can be improved. In addition, the preprocessing by the said preprocessing step is a process which expands an amplitude with a fixed ratio centering on an average value with respect to each order LSF of an air conduction sound, for example.

さらに、図16(a)に示すように、上記第1の線形予測分析ステップの分析結果であるフレームについて、時間的に連続する複数フレームを連結する第1のフレーム連結ステップ(S109)と、上記第2の線形予測分析ステップの分析結果であるフレームについて、時間的に連続する複数フレームを連結する第2のフレーム連結ステップ(S110)とを更に含み、上記GMM学習ステップ(S103)においては上記第1のフレーム連結ステップ(S109)及び上記第2のフレーム連結ステップ(S110)においてそれぞれ連結された複数フレームについて混合正規分布モデルを学習し、図16(b)の変換時の処理フローにおいて、変換ステップ(S106)による変換前の体内伝導通常音声について、時間的に連続する複数フレームを連結する第3のフレーム連結ステップ(S111)と、上記変換ステップによる変換結果を複数のフレームに分割するフレーム分割ステップ(S112)とを更に含んでもよい。このような構成によれば、より音質改善をはかることができる。   Furthermore, as shown in FIG. 16 (a), a first frame concatenation step (S109) for concatenating a plurality of temporally continuous frames with respect to a frame that is an analysis result of the first linear prediction analysis step; A second frame concatenation step (S110) for concatenating a plurality of frames that are temporally continuous with respect to a frame that is an analysis result of the second linear prediction analysis step, and the GMM learning step (S103) includes the second frame concatenation step. A mixed normal distribution model is learned for a plurality of frames connected in the first frame connection step (S109) and the second frame connection step (S110), and the conversion step in the processing flow at the time of conversion in FIG. With respect to the normal body-conducted speech before conversion in (S106), a plurality of temporally continuous files A third frame connecting step of connecting the over arm (S 111), the frame division step (S112) of dividing the conversion result by the conversion step into a plurality of frames and may further include a. According to such a configuration, the sound quality can be further improved.

本発明は、騒音が大きい環境においても、気伝導音に近い音質で快適に音声通話する場合に利用できる。   INDUSTRIAL APPLICABILITY The present invention can be used for a comfortable voice call with sound quality close to air conduction sound even in a noisy environment.

本発明による体内伝導通常音声変換装置の実施の一形態を示すブロック図であり、(a)は学習時の処理ブロック図、(b)は変換時の処理ブロック図である。It is a block diagram which shows one Embodiment of the body conduction normal speech converter by this invention, (a) is a processing block diagram at the time of learning, (b) is a processing block diagram at the time of conversion. 体内伝導通常音声のLSFをGMM変換して得られた擬似気伝導音の音質の評価方法を示したブロック図である。It is the block diagram which showed the evaluation method of the sound quality of the pseudo air conduction sound obtained by carrying out GMM conversion of LSF of the body conduction normal sound. 変換前の体内伝導通常音声のLSFのLSFひずみと、GMM変換後の擬似気伝導音のLSFのLSFひずみを比較したグラフである。It is the graph which compared the LSF distortion of LSF of the body conduction normal sound before conversion, and the LSF distortion of LSF of the pseudo air conduction sound after GMM conversion. 線形予測分析の条件を示す図である。It is a figure which shows the conditions of a linear prediction analysis. 女性15名が発声した評価用10文章の体内伝導通常音声のLSFと気伝導音のLSF、実施例1の方式で体内伝導通常音声から変換された擬似気伝導音のLSFを構成する1次から10次係数において、次数毎に平均値を示したグラフである。LSF of body conduction normal speech and LSF of air conduction sound of 10 sentences for evaluation uttered by 15 women, LSF of pseudo air conduction sound converted from body conduction normal speech by the method of Example 1 It is the graph which showed the average value for every order in the 10th-order coefficient. 女性15名が発声した評価用10文章の体内伝導通常音声のLSFと気伝導音のLSF、実施例1の方式で体内伝導通常音声から変換された擬似気伝導音のLSFを構成する1次から10次係数において、次数毎に分散値を示したグラフである。LSF of body conduction normal speech and LSF of air conduction sound of 10 sentences for evaluation uttered by 15 women, LSF of pseudo air conduction sound converted from body conduction normal speech by the method of Example 1 It is the graph which showed the dispersion value for every order in the 10th-order coefficient. GMM学習前の学習データに、擬似気伝導音のLSF分散値が大きくなるように施す前処理を示す図である。It is a figure which shows the pre-processing given to the learning data before GMM learning so that the LSF dispersion value of a pseudo air conduction sound may become large. 本発明による体内伝導通常音声変換装置の実施の他の形態を示すブロック図であり、(a)は学習時の処理ブロック図、(b)は変換時の処理ブロック図である。It is a block diagram which shows the other form of implementation of the body conduction normal speech converter by this invention, (a) is a processing block diagram at the time of learning, (b) is a processing block diagram at the time of conversion. 変換前の体内伝導通常音声のLSFのLSFひずみと、GMM変換後の擬似気伝導音のLSFのLSFひずみとを、比較したグラフである。It is the graph which compared the LSF distortion of the LSF of the body conduction normal sound before conversion, and the LSF distortion of the LSF of the pseudo air conduction sound after the GMM conversion. 連続するフレームのLSFパターンを連結して新たな特徴パターンとする考え方を示す図である。It is a figure which shows the view which connects the LSF pattern of a continuous flame | frame and makes it a new feature pattern. 図11は、本発明による体内伝導通常音声変換方法の更に別の実施形態を示すブロック図であり、(a)は学習時の処理ブロック図、(b)は変換時の処理ブロック図である。FIG. 11 is a block diagram showing still another embodiment of the internal conduction normal speech conversion method according to the present invention, where (a) is a processing block diagram during learning and (b) is a processing block diagram during conversion. 変換前の体内伝導通常音声のLSFのLSFひずみと、GMM変換後の擬似気伝導音のLSFのLSFひずみとを、比較したグラフである。It is the graph which compared the LSF distortion of the LSF of the body conduction normal sound before conversion, and the LSF distortion of the LSF of the pseudo air conduction sound after the GMM conversion. 擬似気伝導音のLSF、体内伝導通常音声から変換された擬似気伝導音のLSFを構成する1次から10次係数において、次数毎に分散値を示したグラフである。It is the graph which showed the dispersion | variation value for every order in the 1st to 10th coefficient which comprises LSF of the pseudo air conduction sound and LSF of the pseudo air conduction sound converted from the body conduction normal voice. 本発明による体内伝導通常音声変換方法を示すフローチャートであり、(a)は学習時のフローチャート、(b)は変換時のフローチャートである。It is a flowchart which shows the body conduction normal speech conversion method by this invention, (a) is a flowchart at the time of learning, (b) is a flowchart at the time of conversion. 本発明による体内伝導通常音声変換方法を示すフローチャートであり、(a)は学習時のフローチャート、(b)は変換時のフローチャートである。It is a flowchart which shows the body conduction normal speech conversion method by this invention, (a) is a flowchart at the time of learning, (b) is a flowchart at the time of conversion. 本発明による体内伝導通常音声変換方法を示すフローチャートであり、(a)は学習時のフローチャート、(b)は変換時のフローチャートである。It is a flowchart which shows the body conduction normal speech conversion method by this invention, (a) is a flowchart at the time of learning, (b) is a flowchart at the time of conversion. (a)は気伝導音の採取方法の例を示す図、(b)は体内伝導通常音声の採取方法の例を示す図である。(A) is a figure which shows the example of the sampling method of an air conduction sound, (b) is a figure which shows the example of the sampling method of a body conduction normal sound. (a)は気伝導音の合成方法の例を示す図、(b)は体内伝導通常音声の合成方法の例を示す図である。(A) is a figure which shows the example of the synthetic | combination method of an air conduction sound, (b) is a figure which shows the example of the synthesis | combination method of a body conduction normal sound. 本発明による体内伝導通常音声変換装置の概要を示す図である。It is a figure which shows the outline | summary of the internal-conduction normal speech converter by this invention. 平均値を中心に各次数のLSFの振幅を広げる考え方を示す図である。It is a figure which shows the view which expands the amplitude of LSF of each order centering on an average value. 体内伝導通常音声変換学習装置と、体内伝導通常音声変換装置とを含む携帯電話機を用いたコミュニケーションインタフェースシステムの概略構成図である。It is a schematic block diagram of the communication interface system using the mobile telephone containing a body conduction normal speech conversion learning apparatus and a body conduction normal speech conversion apparatus.

符号の説明Explanation of symbols

1−1 肉伝導マイクロフォン
1−2 乳様突起直下
1−3 イヤフォン
1−4、1−6 携帯電話機
1−5 無線ネットワーク
11、12 線形予測分析手段
13 GMM学習手段
14 GMM記憶用メモリ
15 線形予測分析手段
16 分析フィルタ手段
17 変換手段
18 合成フィルタ手段
19 前処理手段
21、22、23 フレーム連結手段
24 フレーム分割手段
50 通信網
51a、51b 無線基地局
52a、52b 基地局制御装置
53a、53b 交換機
1-1 Meat conduction microphone 1-2 Directly below milky process 1-3 Earphone 1-4, 1-6 Mobile phone 1-5 Wireless network 11, 12 Linear prediction analysis means 13 GMM learning means 14 GMM storage memory 15 Linear prediction Analysis means 16 Analysis filter means 17 Conversion means 18 Synthesis filter means 19 Preprocessing means 21, 22, 23 Frame connection means 24 Frame division means 50 Communication networks 51a, 51b Radio base stations 52a, 52b Base station controllers 53a, 53b Exchange

Claims (13)

耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第1の線形予測分析手段と、気伝導音について線形予測分析を行う第2の線形予測分析手段と、
前記第1の線形予測分析手段の分析結果と前記第2の線形予測分析手段の分析結果とに基づいて混合正規分布モデルを学習するGMM学習手段と、を含むことを特徴とする体内伝導通常音声変換学習装置。
First linear predictive analysis that performs linear predictive analysis on normal body conduction speech conducted through the soft tissue of the body, taken from the surface of the skin on the thoracic papillary muscle, just below the mastoid process of the skull, below the auricle. Means, second linear prediction analysis means for performing linear prediction analysis on the air conduction sound,
GMM learning means for learning a mixed normal distribution model based on the analysis result of the first linear prediction analysis means and the analysis result of the second linear prediction analysis means; Conversion learning device.
前記第1の線形予測分析手段の分析結果と、第2の線形予測分析手段の分析結果はLSFであり、
前記第2の線形予測分析手段が算出したLSFの分散値が大きくなるような前処理を行う前処理手段を更に含み、
前記GMM学習手段は、前記前処理手段によって前処理されたLSFと前記第1の線形予測分析手段が算出したLSFとに基づいて混合正規分布モデルを学習することを特徴とする請求項1記載の体内伝導通常音声変換学習装置。
The analysis result of the first linear prediction analysis means and the analysis result of the second linear prediction analysis means are LSF,
Pre-processing means for performing pre-processing so that the variance value of the LSF calculated by the second linear prediction analysis means becomes large;
The GMM learning unit learns a mixed normal distribution model based on the LSF preprocessed by the preprocessing unit and the LSF calculated by the first linear prediction analysis unit. Body conduction normal speech conversion learning device.
前記前処理手段による前処理は、各次LSFに対して、平均値を中心にして所定の割合で振幅を広げる処理であることを特徴とする請求項2記載の体内伝導通常音声変換学習装置。   3. The internal conduction normal speech conversion learning device according to claim 2, wherein the preprocessing by the preprocessing means is a process of expanding the amplitude at a predetermined ratio centering on an average value with respect to each next LSF. 前記第1の線形予測分析手段の分析結果であるフレームについて、時間的に連続する複数フレームを連結する第1のフレーム連結手段と、
前記第2の線形予測分析手段の分析結果であるフレームについて、時間的に連続する複数フレームを連結する第2のフレーム連結手段とを更に含み、
前記GMM学習手段は前記第1のフレーム連結手段及び前記第2のフレーム連結手段によってそれぞれ連結された複数フレームについて混合正規分布モデルを学習することを特徴とする請求項1から請求項3までのいずれか1項に記載の体内伝導通常音声変換学習装置。
First frame concatenation means for concatenating a plurality of temporally continuous frames with respect to a frame that is an analysis result of the first linear prediction analysis means;
A second frame concatenation unit that concatenates a plurality of temporally continuous frames with respect to a frame that is an analysis result of the second linear prediction analysis unit;
4. The GMM learning unit learns a mixed normal distribution model for a plurality of frames connected by the first frame connecting unit and the second frame connecting unit, respectively. The internal conduction normal speech conversion learning device according to claim 1.
請求項1から請求項3までのいずれか1項に記載の体内伝導通常音声変換学習装置により作成された混合正規分布モデルを記憶するGMM記憶用メモリと、
耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第3の線形予測分析手段と、
前記第3の線形予測分析手段の分析結果と前記体内伝導通常音声とに基づいて予測残差を求める分析フィルタ手段と、
前記GMM記憶用メモリに記憶された混合正規分布モデルを用いて、前記第3の線形予測分析手段の分析結果を、擬似気伝導音の分析結果へ変換する変換手段と、
前記予測残差と前記擬似気伝導音の分析結果とに基づいて擬似気伝導音を生成する合成フィルタ手段と、を含むことを特徴とする体内伝導通常音声変換装置。
A GMM storage memory for storing a mixed normal distribution model created by the body conduction normal speech conversion learning device according to any one of claims 1 to 3;
Third linear predictive analysis that performs a linear predictive analysis of normal speech conducted in the soft tissue of the body taken from the surface of the skin on the papillary muscle of the thoracic papillary muscle, just below the mastoid of the skull, below the pinna Means,
Analysis filter means for obtaining a prediction residual based on the analysis result of the third linear prediction analysis means and the body conduction normal speech;
Conversion means for converting the analysis result of the third linear prediction analysis means into the analysis result of the pseudo air conduction sound using the mixed normal distribution model stored in the memory for GMM storage;
And a synthetic filter means for generating a simulated air conduction sound based on the prediction residual and the analysis result of the simulated air conduction sound.
前記GMM記憶用メモリは、請求項4に記載の体内伝導通常音声変換学習装置により作成された混合正規分布モデルを記憶し、
前記変換手段による変換前の体内伝導通常音声の分析結果について時間的に連続する複数フレームを連結する第3のフレーム連結手段と、
前記変換手段による変換結果を複数のフレームに分割するフレーム分割手段とを更に含むことを特徴とする請求項5記載の体内伝導通常音声変換装置。
The GMM storage memory stores a mixed normal distribution model created by the body conduction normal speech conversion learning device according to claim 4,
A third frame connecting means for connecting a plurality of temporally continuous frames with respect to the analysis result of the body conduction normal speech before conversion by the converting means;
6. The body conduction normal sound converting apparatus according to claim 5, further comprising a frame dividing unit that divides a conversion result obtained by the converting unit into a plurality of frames.
請求項1から請求項4までのいずれか1項に記載の体内伝導通常音声変換学習装置と、請求項5又は請求項6に記載の体内伝導通常音声変換装置とを含み、前記体内伝導通常音声変換装置によって生成した擬似気伝導音を通話に用いることを特徴とする携帯電話機。   A body conduction normal speech conversion learning device according to any one of claims 1 to 4 and a body conduction normal speech conversion device according to claim 5 or 6, wherein the body conduction normal speech conversion device. A cellular phone characterized in that a pseudo air conduction sound generated by a conversion device is used for a telephone call. 耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第1の線形予測分析ステップと、気伝導音について線形予測分析を行う第2の線形予測分析ステップと、
前記第1の線形予測分析ステップの分析結果と前記第2の線形予測分析ステップの分析結果とに基づいて混合正規分布モデルを学習するGMM学習ステップと、を含むことを特徴とする体内伝導通常音声変換学習方法。
First linear predictive analysis that performs linear predictive analysis on normal body conduction speech conducted through the soft tissue of the body, taken from the surface of the skin on the thoracic papillary muscle, just below the mastoid process of the skull, below the auricle. A second linear prediction analysis step for performing linear prediction analysis on the air conduction sound;
And a GMM learning step of learning a mixed normal distribution model based on the analysis result of the first linear prediction analysis step and the analysis result of the second linear prediction analysis step. Conversion learning method.
前記第1の線形予測分析ステップによる分析結果と、第2の線形予測分析ステップによる分析結果はLSFであり、
前記第2の線形予測分析ステップにおいて算出したLSFの分散値が大きくなるような前処理を行う前処理ステップを更に含み、
前記GMM学習ステップにおいては、前記前処理ステップにおいて前処理されたLSFと前記第1の線形予測分析ステップにおいて算出したLSFとに基づいて混合正規分布モデルを学習することを特徴とする請求項8記載の体内伝導通常音声変換学習方法。
The analysis result of the first linear prediction analysis step and the analysis result of the second linear prediction analysis step are LSFs,
A pre-processing step of performing pre-processing so that the variance value of the LSF calculated in the second linear prediction analysis step increases;
9. The mixed normal distribution model is learned in the GMM learning step based on the LSF preprocessed in the preprocessing step and the LSF calculated in the first linear prediction analysis step. Body conduction normal speech conversion learning method.
前記前処理ステップにおける前処理は、各次LSFに対して、平均値を中心にして所定の割合で振幅を広げる処理であることを特徴とする請求項9記載の体内伝導通常音声変換学習方法。   10. The in-body conduction normal speech conversion learning method according to claim 9, wherein the preprocessing in the preprocessing step is a process of expanding the amplitude at a predetermined ratio centering on an average value for each next LSF. 前記第1の線形予測分析ステップによる分析結果であるフレームについて、時間的に連続する複数フレームを連結する第1のフレーム連結ステップと、
前記第2の線形予測分析ステップによる分析結果であるフレームについて、時間的に連続する複数フレームを連結する第2のフレーム連結ステップとを更に含み、
前記GMM学習ステップにおいては前記第1のフレーム連結ステップ及び前記第2のフレーム連結ステップにおいてそれぞれ連結された複数フレームについて混合正規分布モデルを学習することを特徴とする請求項8から請求項10までのいずれか1項に記載の体内伝導通常音声変換学習方法。
A first frame concatenation step of concatenating a plurality of temporally continuous frames with respect to a frame that is an analysis result of the first linear prediction analysis step;
A second frame concatenation step of concatenating a plurality of temporally continuous frames with respect to a frame that is an analysis result of the second linear prediction analysis step;
11. The mixed normal distribution model is learned for a plurality of frames connected in the first frame connecting step and the second frame connecting step in the GMM learning step, respectively. The body conduction normal speech conversion learning method according to any one of the above items.
耳介の下方部の、頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面から採取される、体内軟部組織を伝導する体内伝導通常音声について線形予測分析を行う第3の線形予測分析ステップと、
前記第3の線形予測分析ステップによる分析結果と前記体内伝導通常音声とに基づいて予測残差を求める分析フィルタステップと、
請求項8から請求項10までのいずれか1項に記載の体内伝導通常音声変換学習方法により作成された混合正規分布モデルを用いて、前記第3の線形予測分析ステップによる分析結果を、擬似気伝導音の分析結果へ変換する変換ステップと、
前記予測残差と前記擬似気伝導音の分析結果とに基づいて擬似気伝導音を生成する合成フィルタステップと、を含むことを特徴とする体内伝導通常音声変換方法。
Third linear predictive analysis that performs a linear predictive analysis of normal speech conducted in the soft tissue of the body taken from the surface of the skin on the papillary muscle of the thoracic papillary muscle, just below the mastoid of the skull, below the pinna Steps,
An analysis filter step for obtaining a prediction residual based on the analysis result of the third linear prediction analysis step and the body conduction normal speech;
Using the mixed normal distribution model created by the body conduction normal speech conversion learning method according to any one of claims 8 to 10, the analysis result of the third linear prediction analysis step is simulated. A conversion step for converting into the analysis result of the conduction sound;
And a synthesis filter step for generating a simulated air conduction sound based on the prediction residual and the analysis result of the simulated air conduction sound.
前記変換ステップによる変換前の体内伝導通常音声の分析結果について時間的に連続する複数フレームを連結する第3のフレーム連結ステップと、
前記変換ステップによる変換結果を複数のフレームに分割するフレーム分割ステップとを更に含み、
前記変換ステップにおいては、請求項11に記載の体内伝導通常音声変換学習方法により作成された混合正規分布モデルを用いることを特徴とする請求項12記載の体内伝導通常音声変換方法。
A third frame linking step for linking a plurality of temporally continuous frames with respect to the analysis result of the body conduction normal speech before conversion by the conversion step;
A frame dividing step of dividing the conversion result of the conversion step into a plurality of frames,
13. The internal conduction normal speech conversion method according to claim 12, wherein a mixed normal distribution model created by the internal conduction normal speech conversion learning method according to claim 11 is used in the conversion step.
JP2006060052A 2006-03-06 2006-03-06 In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method Pending JP2007240654A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006060052A JP2007240654A (en) 2006-03-06 2006-03-06 In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006060052A JP2007240654A (en) 2006-03-06 2006-03-06 In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method

Publications (1)

Publication Number Publication Date
JP2007240654A true JP2007240654A (en) 2007-09-20

Family

ID=38586292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060052A Pending JP2007240654A (en) 2006-03-06 2006-03-06 In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method

Country Status (1)

Country Link
JP (1) JP2007240654A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246059A1 (en) * 2010-11-24 2013-09-19 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN110969747A (en) * 2019-12-11 2020-04-07 盛视科技股份有限公司 Anti-following access control system and anti-following method
CN114010395A (en) * 2021-10-22 2022-02-08 国能神东煤炭集团有限责任公司 Hearing protector, auricle model acquisition device and method
WO2024002896A1 (en) * 2022-06-29 2024-01-04 Analog Devices International Unlimited Company Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0676064A (en) * 1992-08-27 1994-03-18 Mitsubishi Heavy Ind Ltd Pattern discriminating device
JPH0879868A (en) * 1994-09-05 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> Bone conduction microphone output signal reproduction device
JP2004279768A (en) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd Device and method for estimating air-conducted sound
JP2006025333A (en) * 2004-07-09 2006-01-26 Koji Takenae Neckband-type nam microphone device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0676064A (en) * 1992-08-27 1994-03-18 Mitsubishi Heavy Ind Ltd Pattern discriminating device
JPH0879868A (en) * 1994-09-05 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> Bone conduction microphone output signal reproduction device
JP2004279768A (en) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd Device and method for estimating air-conducted sound
JP2006025333A (en) * 2004-07-09 2006-01-26 Koji Takenae Neckband-type nam microphone device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246059A1 (en) * 2010-11-24 2013-09-19 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP2014502468A (en) * 2010-11-24 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ Audio signal generation system and method
US9812147B2 (en) * 2010-11-24 2017-11-07 Koninklijke Philips N.V. System and method for generating an audio signal representing the speech of a user
CN110969747A (en) * 2019-12-11 2020-04-07 盛视科技股份有限公司 Anti-following access control system and anti-following method
CN114010395A (en) * 2021-10-22 2022-02-08 国能神东煤炭集团有限责任公司 Hearing protector, auricle model acquisition device and method
WO2024002896A1 (en) * 2022-06-29 2024-01-04 Analog Devices International Unlimited Company Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model

Similar Documents

Publication Publication Date Title
Toda et al. Statistical voice conversion techniques for body-conducted unvoiced speech enhancement
Nakamura et al. Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech
US8099282B2 (en) Voice conversion system
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
Doi et al. Alaryngeal speech enhancement based on one-to-many eigenvoice conversion
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
JP5039865B2 (en) Voice quality conversion apparatus and method
EP2816558B1 (en) Speech processing device and method
Tanaka et al. A hybrid approach to electrolaryngeal speech enhancement based on noise reduction and statistical excitation generation
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Doi et al. An evaluation of alaryngeal speech enhancement methods based on voice conversion techniques
Kobayashi et al. Electrolaryngeal speech enhancement with statistical voice conversion based on CLDNN
Doi et al. Statistical approach to enhancing esophageal speech based on Gaussian mixture models
JP2014199445A (en) Sound masking apparatus and method, and program
JP6599828B2 (en) Sound processing method, sound processing apparatus, and program
Nakagiri et al. Improving body transmitted unvoiced speech with statistical voice conversion
JP2007240654A (en) In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method
CN110517662A (en) A kind of method and system of Intelligent voice broadcasting
JP3914612B2 (en) Communications system
Westall et al. Speech technology for telecommunications
JP7339151B2 (en) Speech synthesizer, speech synthesis program and speech synthesis method
JP5320341B2 (en) Speaking text set creation method, utterance text set creation device, and utterance text set creation program
Cen et al. Generating emotional speech from neutral speech
Li et al. Mandarin electrolaryngeal voice conversion with combination of Gaussian mixture model and non-negative matrix factorization
JP3685648B2 (en) Speech synthesis method, speech synthesizer, and telephone equipped with speech synthesizer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110726