JP2022069766A - Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program - Google Patents
Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program Download PDFInfo
- Publication number
- JP2022069766A JP2022069766A JP2020178602A JP2020178602A JP2022069766A JP 2022069766 A JP2022069766 A JP 2022069766A JP 2020178602 A JP2020178602 A JP 2020178602A JP 2020178602 A JP2020178602 A JP 2020178602A JP 2022069766 A JP2022069766 A JP 2022069766A
- Authority
- JP
- Japan
- Prior art keywords
- code
- sound quality
- data
- vibration
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000000988 bone and bone Anatomy 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000002708 enhancing effect Effects 0.000 title 1
- 210000001260 vocal cord Anatomy 0.000 claims abstract description 60
- 238000001514 detection method Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 230000001755 vocal effect Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムに関する。 The present invention relates to a bone conduction microphone, a speech enhancement method for the bone conduction microphone, and a speech enhancement program.
骨伝導マイクロホンは、骨を伝導する声帯振動を検出する装置である。しかし、声帯振動は骨を伝導すると高周波成分が減衰してしまうので、骨伝導マイクロホンが検出する音声は、通常明瞭でないことが多い。そこで、より明瞭な音声を得るために、骨伝導マイクロホンが検出した音声データのうち音声成分を強調する音声強調装置が開発されている。 A bone conduction microphone is a device that detects vocal cord vibration that conducts bone. However, since vocal cord vibration attenuates high-frequency components when it conducts bone, the sound detected by the bone conduction microphone is usually not clear. Therefore, in order to obtain a clearer sound, a speech enhancement device that emphasizes the speech component in the speech data detected by the bone conduction microphone has been developed.
例えば、特許文献1には、骨伝導マイクロホンが検出した音声データを分析して有声音か無声音かを判別する判別手段と、有声音と判別された音声データを補正して第一気導音声データを生成する第一補正手段と、無性音と判別された音声データを補正して第二気導音声データを生成する第二補正手段と、生成された第一気導音声データと第二気導音声データを合わせて出力データを生成する出力生成手段と、を備える音声強調装置が開示されている。 For example, Patent Document 1 describes a discriminating means for discriminating between voiced sound and unvoiced sound by analyzing voice data detected by a bone conduction microphone, and first air conduction voice data by correcting voice data discriminated as voiced sound. The first correction means for generating the second air conduction voice data, the second correction means for correcting the voice data determined to be an asexual sound, and the generated first air conduction voice data and the second air. A sound enhancement device including an output generation means for generating output data by combining guide sound data is disclosed.
特許文献1に記載の音声強調装置では、骨伝導マイクロホンの音声を分析して有声音と無声音に分けるため、音声データの処理が複雑である。 In the speech enhancement device described in Patent Document 1, since the speech of the bone conduction microphone is analyzed and divided into voiced sound and unvoiced sound, the processing of voice data is complicated.
本発明は上記の課題を解決するためになされたもので、より明瞭な音声を簡易な処理で得ることができる骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムを提供することを目的とする。 The present invention has been made to solve the above problems, and to provide a bone conduction microphone, a speech enhancement method for a bone conduction microphone, and a speech enhancement program capable of obtaining clearer speech by simple processing. The purpose.
上記の目的を達成するため、本発明の第一の観点に係る骨伝導マイクロホンは、
人の体に接触して声帯振動を検出する振動検出素子と、
前記振動検出素子が検出した前記声帯振動のデータを第一発話コードと第一音質コードに変換する第一変換器と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
前記第一変換器が変換した前記第一発話コードと前記記憶装置が記憶する前記第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器と、
を備える。
In order to achieve the above object, the bone conduction microphone according to the first aspect of the present invention is
A vibration detection element that detects vocal cord vibration in contact with the human body,
A first converter that converts the vocal cord vibration data detected by the vibration detection element into a first utterance code and a first sound quality code.
The second converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code, converts the voice data into the second utterance code and the second sound quality. A storage device that stores the second sound quality code when converted to a code, and
A generator that generates speech enhancement data in which speech is emphasized based on the first utterance code converted by the first converter and the second sound quality code stored in the storage device.
To prepare for.
前記第一変換器は、前記第一発話コードと前記第一音質コードから前記声帯振動のデータを復元する第一デコーダと組み合わせられた場合に第一オートエンコーダを形成する第一エンコーダであってもよい。 Even if the first transducer is a first encoder that forms a first autoencoder when combined with a first decoder that restores vocal cord vibration data from the first utterance code and the first sound quality code. good.
前記第二変換器は、前記第二発話コードと前記第二音質コードから前記音声データを復元する第二デコーダと組み合わせられた場合に第二オートエンコーダを形成する第二エンコーダであってもよい。 The second converter may be a second encoder that forms a second autoencoder when combined with the second utterance code and the second decoder that restores the voice data from the second sound quality code.
本発明の第二の観点に係る骨伝導マイクロホンの音声強調方法は、
人の体に接触して声帯振動を検出する骨伝導マイクロホンが備える振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードとに基づいて前記音声データの音声を強調した音声強調データを生成する生成ステップと、
を備える。
The speech enhancement method of the bone conduction microphone according to the second aspect of the present invention is
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element of the bone conduction microphone that comes into contact with the human body to detect vocal cord vibration into the first speech code and the first sound quality code.
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second speech code and the second sound quality code converts the voice data into the second speech code and the second sound quality code. The voice data is read from the storage device that stores the second sound quality code at the time of conversion, and the voice data is based on the read second sound quality code and the first speech code converted in the conversion step. A generation step to generate voice-enhanced data that emphasizes the voice of
To prepare for.
本発明の第三の観点に係る音声強調プログラムは、
人の体に接触して声帯振動を検出する振動検出素子と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
を備える骨伝導マイクロホンの音声強調プログラムであって、
コンピュータに、
前記振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードに基づいて、音声を強調した音声強調データを生成する生成ステップと、
を実行させるためのものである。
The speech enhancement program according to the third aspect of the present invention is
A vibration detection element that detects vocal cord vibration in contact with the human body,
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code converts the voice data into the second utterance code and the second sound quality code. A storage device that stores the second sound quality code at the time of conversion,
A speech enhancement program for bone conduction microphones
On the computer
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element into a first utterance code and a first sound quality code, and
A generation step of reading the second sound quality code from the storage device and generating voice-enhanced data based on the read second sound quality code and the first utterance code converted in the conversion step.
Is to execute.
本発明の構成によれば、第一変換器は、振動検出素子が検出した声帯振動のデータを第一発話コードと第一音質コードに変換し、生成器は、その第一発話コードと、記憶部に記憶された、人の声の音声データを第二変換器が変換したときの第二音質コードとに基づいて、音声を強調した音声強調データを生成する。これにより、声帯振動のデータから明瞭な音声のデータが得られる。また、声帯振動のデータに複雑な前処理を施す必要がなく、処理が簡易である。 According to the configuration of the present invention, the first converter converts the voice band vibration data detected by the vibration detection element into the first speech code and the first sound quality code, and the generator stores the first speech code and the storage. The speech enhancement data that emphasizes the voice is generated based on the second sound quality code when the second converter converts the speech data of the human voice stored in the unit. As a result, clear voice data can be obtained from the vocal cord vibration data. In addition, it is not necessary to perform complicated preprocessing on the vocal cord vibration data, and the processing is simple.
以下、本発明の実施の形態に係る骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムについて図面を参照して詳細に説明する。なお、図中、同一又は同等の部分には同一の符号を付す。 Hereinafter, the bone conduction microphone, the speech enhancement method of the bone conduction microphone, and the speech enhancement program according to the embodiment of the present invention will be described in detail with reference to the drawings. In the figure, the same or equivalent parts are designated by the same reference numerals.
実施の形態に係る骨伝導マイクロホンは、明瞭な音声を得るため、学習済みニューラルネットワークを用いて、振動検出素子が検出した声帯振動のデータから音声強調データを生成する。まず、図1-図3を参照して、骨伝導マイクロホンの構成について説明する。 The bone conduction microphone according to the embodiment uses a trained neural network to generate speech enhancement data from vocal cord vibration data detected by a vibration detection element in order to obtain clear speech. First, the configuration of the bone conduction microphone will be described with reference to FIGS. 1 to 3.
図1は、本発明の実施の形態に係る骨伝導マイクロホン100の部品構成図である。図2は、骨伝導マイクロホン100が備える音声強調装置20のブロック図である。図3は、音声強調装置20が備える記憶装置21に格納された音質テーブル212のデータ構成図である。なお、図1では、理解を容易にするため、骨伝導マイクロホン100が出力するスピーカ200もあわせて示している。
FIG. 1 is a component configuration diagram of a
図1に示すように、骨伝導マイクロホン100は、声帯振動を検出する振動検出素子10と、振動検出素子10が検出した声帯振動のデータに基づいて音声強調データを生成する音声強調装置20と、を備える。
As shown in FIG. 1, the
振動検出素子10は、図示しないが、ケースと、ケースに収容された圧電素子とを備える。振動検出素子10では、ケースに振動が伝搬すると、その振動によって圧電素子がたわみ、圧電素子に電位が発生する。振動検出素子10は、その電位から振動を検出する。
Although not shown, the
振動検出素子10のケースは、人体の部位、例えば、頭頂部、側頭部、咽頭部、鼻腔部等の皮膚に接触可能な形状を有する。これにより、振動検出素子10は、ケースが人体の部位に接触した状態に装着される。振動検出素子10は、この状態で、頭蓋骨等の人体の一部を伝搬する声帯振動を検出する。振動検出素子10は、検出した声帯振動のデータを音声強調装置20に送信する。
The case of the
音声強調装置20は、声帯振動のデータを受信する。音声強調装置20は、その声帯振動のデータを処理するため、記憶装置21およびコントローラ22を備える。
The
記憶装置21は、EEPROM(Electrical Erasable Programmable Read-Only Memory)又はフラッシュメモリ等を有する。そして、記憶装置21は、声帯振動のデータから音声強調データを生成する音声強調プログラム211を記憶する。また、記憶装置21は、音声強調プログラム211のパラメータを格納するモデルデータベース213を記憶する。
The
コントローラ22は、演算処理を行うCPU(Central ProcessingUnit)と、ROM(Read Only Memory)及びRAM(Random Access Memory)を含むメモリとを含むマイクロコンピュータを備える。CPUは、ROM又は記憶装置21に記憶されたプログラムをRAMに読み出して実行することにより、各種処理を行う。例えば、コントローラ22は、CPUが上記音声強調プログラム211を実行する。そして、モデルデータベース213を読み出す。これにより、音声強調処理を行う。コントローラ22は、この音声強調処理を行うため、図2に示すように、ソフトウエアとして構成される変換器23および生成器24の処理ブロックを備える。
The
変換器23は、図1に示す振動検出素子10が検出した声帯振動のデータを受信する。変換器23は、図2に示すように、エンコーダE1を含み、そのエンコーダE1によって声帯振動のデータを発話コードとマイク音質コード(以下、発話コードC1と音質コードC2という)に変換する。変換器23は、変換した発話コードC1と音質コードC2を生成器24に送信する。
The
一方、記憶装置21には、音質テーブル212が格納されている。その音質テーブル212には、通常のマイクロホンを用いて記録した音声のデータを、エンコーダE1とは別の、後述するエンコーダE2が、発話コードとマイク音質コード(以下、発話コードC3と音質コードC4という)に変換したときの、音質コードC4が、図3に示すように、上記エンコーダE1の音質コードC2に対応付けられている。
On the other hand, the sound quality table 212 is stored in the
生成器24は、図2に示すように、上述した変換器23から発話コードC1と音質コードC2を受信する。また、生成器24は、受信した音質コードC2に対応する音質コードC4を記憶装置21の音質テーブル212から読み取る。生成器24は、デコーダD4を含み、そのデコーダD4が上記の受信した発話コードC1と読み取った音質コードC4に基づいて、振動検出素子10が検出した声帯振動に対応する音声を強調した音声強調データを生成する。詳細には、デコーダD4は、発話コードC1と音質コードC4を復号することにより、音声強調データを生成する。
As shown in FIG. 2, the
生成器24は、生成した音声強調データを外部機器に出力する。例えば、生成器24は、図1に例示するスピーカ200に音声強調データを出力する。音声強調データでは音声が強調されている。このため、骨伝導マイクロホン100が取得した音は、音声が明瞭で聞き取りやすい。
The
上述した変換器23のエンコーダE1と生成器24のデコーダD4は、学習済みニューラルネットワークを使用することにより変換処理と生成処理を行う。続いて、図4および図5を参照して、エンコーダE1とデコーダD4のニューラルネットワークを学習させる学習装置300について説明する。
The encoder E1 of the
図4は、音声強調装置20が備えるエンコーダE1とデコーダD4を学習させる学習装置300のブロック図である。図5は、学習装置300が備える学習モデル330のブロック図である。
FIG. 4 is a block diagram of a
学習装置300では、図示しないCPUが、図4に示す記憶装置310に記憶された学習プログラム311をRAMに読み出して実行する。これにより、学習装置300は、学習処理を行う。その結果、学習装置300は、ソフトウエアとして構成される学習部320および学習モデル330を備える。
In the
記憶装置310には、学習データ312が記憶されている。学習部320は、記憶装置310から学習データ312を読み出し、読み出した学習データ312を学習モデル330に入力する。
The learning
学習モデル330は、図5に示すように、エンコーダE1、E2と、デコーダD1-D4と、が組み合わされたモデルである。学習モデル330では、エンコーダE1とデコーダD1が一組のネットワークを形成している。また、エンコーダE2とデコーダD2がもう一組のネットワークを形成している。さらに、デコーダD3、D4それぞれは、エンコーダE1とエンコーダE2に接続され、それぞれが別のネットワークを形成している。
As shown in FIG. 5, the
図示しないが、エンコーダE1とデコーダD1は、入力層、隠れ層及び出力層を有するニューラルネットワークモデルによって構築されている。そのニューラルネットワークモデルの入力層と出力層は、次元数が同じであり、隠れ層は、入力層と出力層よりも次元数が小さい。そして、エンコーダE1は、ニューラルネットワークモデルの入力層から隠れ層までの部分によって構築され、デコーダD1は、そのニューラルネットワークモデルの隠れ層から出力層までの部分によって構築されている。 Although not shown, the encoder E1 and the decoder D1 are constructed by a neural network model having an input layer, a hidden layer, and an output layer. The input layer and the output layer of the neural network model have the same number of dimensions, and the hidden layer has a smaller number of dimensions than the input layer and the output layer. The encoder E1 is constructed by the portion from the input layer to the hidden layer of the neural network model, and the decoder D1 is constructed by the portion from the hidden layer to the output layer of the neural network model.
上述した学習データ312には、図4に示すように、振動検出素子10を用いて予め記録しておいた声帯振動データAと、通常のマイクロホンを用いて予め記録しておいた音声データBと、が格納されている。
As shown in FIG. 4, the learning
ここで、音声データBは、声帯振動データAを記録したときの、その声帯振動によって発せられた音声を記録したデータである。すなわち、音声データBは、声帯振動データAに対応する音声を記録している。なお、本明細書では、通常のマイクロホンとは、声帯振動によって空気が振動することにより発生する音声を電気信号に変換するマイクロホンのことをいい、気導音マイクロホンともいう。 Here, the voice data B is data obtained by recording the voice emitted by the vocal cord vibration when the vocal cord vibration data A is recorded. That is, the voice data B records the voice corresponding to the vocal cord vibration data A. In addition, in this specification, a normal microphone means a microphone which converts the sound generated by the vibration of air by vocal cord vibration into an electric signal, and is also referred to as an air conduction sound microphone.
学習部320は、学習データ312のうち、声帯振動データAを、図5に示すように、エンコーダE1に入力する。そして、声帯振動データAとデコーダD1の出力を比較して、ニューラルネットワークモデル内のノード間の重みを調整する。これにより、学習部320は、声帯振動データAとデコーダD1の出力の誤差を小さくする。その結果、エンコーダE1とデコーダD1が、オートエンコーダを学習する。すなわち、自己符号化を学習する。
The
また、エンコーダE2とデコーダD2は、エンコーダE1とデコーダD1で説明したニューラルネットワークモデルとは別のニューラルネットワークモデルによって構築されている。なお、この別のニューラルネットワークモデルは、エンコーダE1とデコーダD1で説明したニューラルネットワークモデルと同じ層構造を備える。 Further, the encoder E2 and the decoder D2 are constructed by a neural network model different from the neural network model described in the encoder E1 and the decoder D1. Note that this other neural network model has the same layer structure as the neural network model described in the encoder E1 and the decoder D1.
学習部320は、学習データ312の音声データBをエンコーダE2に入力する。そして、学習部320は、音声データBとデコーダD2の出力を比較して、上記別のニューラルネットワークモデル内のノード間の重みを調整する。これにより、音声データBとデコーダD2の出力の誤差を小さくする。その結果、エンコーダE2とデコーダD2が自己符号化を学習する。
The
エンコーダE1とデコーダD1、エンコーダE2とデコーダD2がそれぞれ自己符号化を学習すると、エンコーダE1は、声帯振動データAを符号化した発話コードC1と音質コードC2を出力する。また、エンコーダE2は、音声データBを符号化した発話コードC3と音質コードC4を出力する。 When the encoder E1 and the decoder D1 and the encoder E2 and the decoder D2 each learn self-coding, the encoder E1 outputs the utterance code C1 and the sound quality code C2 in which the vocal cord vibration data A is encoded. Further, the encoder E2 outputs the utterance code C3 and the sound quality code C4 in which the voice data B is encoded.
一方、デコーダD3は、デコーダD1、D2と同じ層構造を有するニューラルネットワーク部によって構築されている。学習部320は、デコーダD3に、エンコーダE1が出力する音質コードC2と、エンコーダE2が出力する発話コードC3とを入力する。ここで、音質コードC2は、声帯振動データAを記録した振動検出素子10のマイク音質のコードである。学習部320は、そのマイク音質のコードに対応した出力を得るため、声帯振動データAとデコーダD3の出力を比較する。学習部320は、その比較結果に基づいてニューラルネットワーク部のノード間の重みを調整して、声帯振動データAとデコーダD3の出力の誤差を小さくする。これにより、学習部320は、声帯振動データAを出力する状態にデコーダD3を学習させる。
On the other hand, the decoder D3 is constructed by a neural network unit having the same layer structure as the decoders D1 and D2. The
デコーダD4は、デコーダD3のニューラルネットワーク部と同じ層構造を有する別のニューラルネットワーク部によって構築されている。学習部320は、デコーダD4に、エンコーダE1が出力する発話コードC1と、エンコーダE2が出力する音質コードC4とを入力する。その音質コードC4は、音声データBを記録した通常のマイクロホンのマイク音質のコードである。学習部320は、このマイク音質のコードに対応した出力を得るため、音声データBとデコーダD4の出力を比較して、ニューラルネットワーク部のノード間の重みを調整する。これにより、学習部320は、音声データBとデコーダD4の出力の誤差を小さくする。その結果、学習部320は、音声データBを出力する状態にデコーダD4を学習させる。
The decoder D4 is constructed by another neural network unit having the same layer structure as the neural network unit of the decoder D3. The
学習部320は、エンコーダE1、E2とデコーダD1-D4を学習させると、すなわち、学習モデル330を学習させると、学習済みの学習モデル330のエンコーダE1、デコーダD4の重み係数等のパラメータを、図2に示すモデルデータベース213として記憶装置21に記憶させる。これにより、学習部320は、変換器23と生成器24の動作に必要なデータベースを音声強調装置20に供給する。
When the
また、学習部320は、学習済みの学習モデル330に、再度学習データ312を入力する。学習部320は、そのときにエンコーダE1が出力する音質コードC2と、エンコーダE2が出力する音質コードC4とを用いて、図3に示す音質テーブル212を作成する。学習部320は、作成した音質テーブル212を記憶装置21に記憶させる。これにより、学習部320は、生成器24の動作に必要なテーブルを音声強調装置20に供給する。その結果、上述したように、音声強調装置20が音声強調データを生成して、振動検出素子10が検出した振動を明瞭で聞き取りやすい音声に変換する。
Further, the
次に、図6を参照して、学習装置300の学習方法をより詳細に説明する。以下の説明では、図示しないが、学習装置300は、パーソナルコンピュータまたはサーバー(以下、サーバー等という)によって構成されているものとする。そして、それらサーバー等に設けられた記憶装置に学習プログラム311と学習データ312が格納され、さらに、その学習プログラム311のアイコンがディスプレイ装置に表示されているものとする。また、それらサーバー等は、インターネットを介して、骨伝導マイクロホン100の音声強調装置20が備えるコントローラに接続されているものとする。
Next, the learning method of the
図6は、学習装置300が実施する学習処理のフローチャートである。
FIG. 6 is a flowchart of the learning process performed by the
はじめに、学習装置300のユーザーが、上記アイコンを押して、学習プログラム311を起動させる。これにより、サーバーまたは、パーソナルコンピュータのCPUによって学習プログラムが実行され、学習処理のフローが開始される。
First, the user of the
学習処理のフローが開始されると、まず、学習部320は、記憶装置310から学習データ312を読み出す。これにより、学習データ312を取得する(ステップS1)。
When the flow of the learning process is started, the
なお、学習データ312には、音声強調装置20が強調できる音声の種類を増やすため、人が様々な発音をしたときの、声帯振動データAと音声データBが格納されていることが望ましい。例えば、学習データ312には、特定の言語のほとんどの文字について、それら文字を読んだときの声帯振動データAと音声データBが文字毎に格納されていることが望ましい。
It is desirable that the learning
続いて、学習部320は、取得した学習データ312を用いて、学習モデル330のエンコーダE1とデコーダD1のニューラルネットワークと、エンコーダE2とデコーダD2のニューラルネットワークを学習させる(ステップS2)。
Subsequently, the
詳細には、エンコーダE1に学習データ312の声帯振動データAを入力し、エンコーダE2に学習データ312の音声データBを入力する。そしてデコーダD1の出力をA*、デコーダD1の出力をB*とする場合に、数式1-数式3で表されるコスト関数Lallが一定値以内に収束するまで、ネットワーク内のノード間の重みを調整する。これにより、エンコーダE1とデコーダD1のネットワークと、エンコーダE2とデコーダD2のネットワークを学習させる。
Specifically, the vocal cord vibration data A of the learning
次に、学習部320は、学習データ312を用いて、学習モデル330全体を学習させる(ステップS3)。
Next, the
詳細には、ステップS2と同じく、エンコーダE1に学習データ312の声帯振動データAを入力し、エンコーダE2に学習データ312の音声データBを入力する。そして、デコーダD3の出力をA**、デコーダD4の出力をB**とする場合に、数式4-数式6で表されるコスト関数Lallが一定値以内に収束するまで、ネットワーク内のノード間の重みを調整する。これにより、デコーダD3、D4を含む学習モデル330全体を学習させる。
Specifically, as in step S2, the vocal cord vibration data A of the learning
学習モデル330全体の学習が完了すると、学習部320は、学習済みの学習モデル330のパラメータを記憶装置21に格納する(ステップS4)。詳細には、エンコーダE1とデコーダD4のネットワークの層数、ノード数、ノード間の重み係数等のパラメータを記憶装置21のモデルデータベース213に格納する。
When the learning of the
また、学習部320は、学習済みの学習モデル330を用いて、音質テーブル212を作成し、その音質テーブル212を記憶装置21に格納する(ステップS5)。
Further, the
詳細には、学習部320は、学習済みの学習モデル330に学習データ312を入力し、そのときのエンコーダE1、E2の出力のデータから、エンコーダE1の出力である音質コードC2に、エンコーダE2の出力である音質コードC4を対応付ける。このとき、例えば、特定の言語の文字ほとんどについて、声帯振動データAと音声データBが学習データ312に格納されている場合、それら文字毎に、音質コードC2に音質コードC4を対応付ける。これにより、学習部320は、音質テーブル212を作成する。そして、作成した音質テーブル212を記憶装置21に格納する。
Specifically, the
以上のステップにより、学習装置300の学習が完了する。
By the above steps, the learning of the
学習装置300の学習が完了した後、骨伝導マイクロホン100の図示しない電源ボタンが押されて、骨伝導マイクロホン100が起動すると、コントローラ22は、上記ステップS4で記憶装置21に格納したモデルデータベース213を読み出し、読み出したモデルデータベース213に基づいて、エンコーダE1とデコーダD4のニューラルネットワークモデルを構築する。これにより、学習装置300の学習を骨伝導マイクロホン100の動作に反映させる。
After the learning of the
続いて、骨伝導マイクロホン100の振動検出素子10が声帯振動を検出すると、コントローラ22は、その振動検出素子10から声帯振動データを取得し、取得した声帯振動データを、モデルデータベース213で構築したニューラルネットワークモデルのエンコーダE1によって発話コードC1と音質コードC2に変換する(このステップのことを変換ステップともいう)。
Subsequently, when the
コントローラ22は、上記ステップS5で記憶装置21に格納した音質テーブル212から、変換した音質コードC2に対応する音質コードC4を読み出し、上記エンコーダE1によって変換した発話コードC1と読み出した音質コードC4をデコーダD4に入力することにより、発話コードC1と音質コードC4を復号させる。これにより、コントローラ22は、音声強調データを生成する(このステップのことを生成ステップともいう)。その結果、骨伝導マイクロホン100では、音声が強調され、聞き取りやすい。
The
なお、上述したエンコーダE1、E2は、本明細書及び特許請求の範囲でいうところの第一変換器または第一エンコーダ、第二変換器または第二エンコーダの一例である。デコーダD1、D2は、本明細書及び特許請求の範囲でいうところの第一デコーダ、第二デコーダの一例である。また、エンコーダE1とデコーダD1によって構成されるオートエンコーダとエンコーダE2とデコーダD2によって構成されるオートエンコーダは、本明細書及び特許請求の範囲でいうところの第一オートエンコーダ、第二オートエンコーダの一例である。さらに、エンコーダE1、E2が変換する発話コードC1、音質コードC2、発話コードC3および音質コードC4は、本明細書及び特許請求の範囲でいうところの第一発話コード、第一音質コード、第二発話コードおよび第二音質コードの一例である。 The above-mentioned encoders E1 and E2 are examples of the first converter or the first encoder, the second converter or the second encoder as defined in the present specification and the claims. The decoders D1 and D2 are examples of the first decoder and the second decoder as defined in the present specification and claims. Further, the autoencoder composed of the encoder E1 and the decoder D1 and the autoencoder composed of the encoder E2 and the decoder D2 are examples of the first autoencoder and the second autoencoder as defined in the present specification and claims. Is. Further, the utterance code C1, the sound quality code C2, the utterance code C3 and the sound quality code C4 converted by the encoders E1 and E2 are the first utterance code, the first sound quality code, and the second sound quality code as defined in the present specification and claims. It is an example of an utterance code and a second sound quality code.
また、上記の実施の形態では、学習部320には、骨伝導マイクロホン100が接続され、通常のマイクロホンは接続されていないが、学習部320は、骨伝導マイクロホン100のほかに、通常のマイクロホンに接続されていてもよい。この場合に、ユーザーがテキストデータを声に出して読んで、骨伝導マイクロホン100の振動検出素子10が、そのときのユーザーの声帯振動を検出すると共に、通常のマイクロホンがそのときの音声を検出するとよい。そして、学習部320は、検出した声帯振動と音声のデータをステップS1の学習データ312として利用してもよい。この場合、学習部320は、検出した声帯振動と音声のデータを学習データ312として記憶装置310に記憶させるとよい。
Further, in the above embodiment, the
以上のように、実施の形態に係る骨伝導マイクロホン100では、変換器23が含むエンコーダE1が、振動検出素子10によって検出された声帯振動データを発話コードC1、音質コードC2に変換し、生成器24が含むデコーダD4が、エンコーダE1によって変換された発話コードC1と、記憶装置21の音質テーブル212に格納され、エンコーダE1によって変換された音質コードC2に対応する音質コードC4と、に基づいて、音声強調データを生成する。このため、骨伝導マイクロホン100では、明瞭かつ、聞き取りやすい音声を得ることができる。また、声帯振動データに複雑な前処理を施す必要がなく、処理が簡易である。
As described above, in the
また、変換器23が含むエンコーダE1と生成器24が含むデコーダD4は、学習装置300によって学習する。このため、骨伝導マイクロホン100のユーザーの声帯振動データと音声データを格納した学習データ312を用いてエンコーダE1とデコーダD4を学習させることにより、そのユーザーの声帯振動、音声に応じた音声強調データを生成することができる。
Further, the encoder E1 included in the
以上、本発明の実施の形態を説明したが、本発明は上記の実施の形態に限定されるものではない。例えば、実施の形態では、振動検出素子10が圧電素子を備えているが、本発明はこれに限定されない。本発明では、振動検出素子10が声帯の振動を検出できればよく、その限りにおいて素子は任意である。例えば、圧電素子の換わりに、電磁型素子、静電型素子であってもよい。
Although the embodiments of the present invention have been described above, the present invention is not limited to the above embodiments. For example, in the embodiment, the
また、上記の実施の形態では、骨伝導マイクロホン100が接続される外部機器としてスピーカ200が例示されているが、本発明はこれに限定されない。本発明では、骨伝導マイクロホン100が音声を強調した音声強調データを生成すればよく、その接続先は限定されない。例えば、骨伝導マイクロホン100は、クレーン装置、高所作業車等のキャビンのコントローラに接続されてもよい。そして、そのコントローラを介して、キャビン内に配置されたスピーカ200に接続されてもよい。また、骨伝導イヤホンに接続されてもよい。このような形態であれば、大きい作業音が発生して作業者の音声が聞き取りにくい環境であっても、作業者の音声を聞き取りやすくすることができる。
Further, in the above embodiment, the
上記の実施の形態では、学習装置300が、骨伝導マイクロホン100とは別の装置である。しかし、本発明はこれに限定されない。本発明では、骨伝導マイクロホン100が学習装置300を備えていてもよい。例えば、音声強調装置20のコントローラ22が、学習装置300、すなわち、学習部320と学習モデル330を備えていてもよい。この場合、コントローラ22が通常のマイクロホンに接続されているとよい。そして、音声強調装置20では、学習モードと動作モードが切り替え可能であり、学習モード時に、振動検出素子10が検出した声帯音声データと通常のマイクロホンが検出した音声データに基づいて、学習モデル330が学習するとよい。このような形態であれば、ユーザーの声帯振動、音声に応じて骨伝導マイクロホン100を調整することができる。
In the above embodiment, the
10…振動検出素子、20…音声強調装置、21…記憶装置、22…コントローラ、23…変換器、24…生成器、100…骨伝導マイクロホン、200…スピーカ、211…音声強調プログラム、212…音質テーブル、213…モデルデータベース、300…学習装置、310…記憶装置、311…学習プログラム、312…学習データ、320…学習部、330…学習モデル、C1,C3…発話コード、C2,C4…音質コード、D1-D4…デコーダ、E1,E2…エンコーダ 10 ... Vibration detection element, 20 ... Speech enhancement device, 21 ... Storage device, 22 ... Controller, 23 ... Converter, 24 ... Generator, 100 ... Bone conduction microphone, 200 ... Speaker, 211 ... Speech enhancement program, 212 ... Sound quality Table, 213 ... model database, 300 ... learning device, 310 ... storage device, 311 ... learning program, 312 ... learning data, 320 ... learning unit, 330 ... learning model, C1, C3 ... speech code, C2, C4 ... sound quality code , D1-D4 ... Decoder, E1, E2 ... Encoder
Claims (5)
前記振動検出素子が検出した前記声帯振動のデータを第一発話コードと第一音質コードに変換する第一変換器と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
前記第一変換器が変換した前記第一発話コードと前記記憶装置が記憶する前記第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器と、
を備える骨伝導マイクロホン。 A vibration detection element that detects vocal cord vibration in contact with the human body,
A first converter that converts the vocal cord vibration data detected by the vibration detection element into a first utterance code and a first sound quality code.
The second converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code, converts the voice data into the second utterance code and the second sound quality. A storage device that stores the second sound quality code when converted to a code, and
A generator that generates speech enhancement data in which speech is emphasized based on the first utterance code converted by the first converter and the second sound quality code stored in the storage device.
Bone conduction microphone with.
請求項1に記載の骨伝導マイクロホン。 The first transducer is a first encoder that forms a first autoencoder when combined with a first utterance code and a first decoder that restores vocal cord vibration data from the first sound quality code.
The bone conduction microphone according to claim 1.
請求項1または2に記載の骨伝導マイクロホン。 The second converter is a second encoder that forms a second autoencoder when combined with the second utterance code and the second decoder that restores the voice data from the second sound quality code.
The bone conduction microphone according to claim 1 or 2.
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードとに基づいて前記音声データの音声を強調した音声強調データを生成する生成ステップと、
を備える骨伝導マイクロホンの音声強調方法。 A conversion step for converting the vocal cord vibration data acquired from the vibration detection element of the bone conduction microphone that comes into contact with the human body to detect vocal cord vibration into the first speech code and the first sound quality code.
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second speech code and the second sound quality code converts the voice data into the second speech code and the second sound quality code. The voice data is read from the storage device that stores the second sound quality code at the time of conversion, and the voice data is based on the read second sound quality code and the first speech code converted in the conversion step. A generation step to generate voice-enhanced data that emphasizes the voice of
Speech enhancement method for bone conduction microphones.
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
を備える骨伝導マイクロホンの音声強調プログラムであって、
コンピュータに、
前記振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードに基づいて、音声を強調した音声強調データを生成する生成ステップと、
を実行させるための音声強調プログラム。 A vibration detection element that detects vocal cord vibration in contact with the human body,
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code converts the voice data into the second utterance code and the second sound quality code. A storage device that stores the second sound quality code at the time of conversion,
A speech enhancement program for bone conduction microphones
On the computer
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element into a first utterance code and a first sound quality code, and
A generation step of reading the second sound quality code from the storage device and generating voice-enhanced data based on the read second sound quality code and the first utterance code converted in the conversion step.
A speech enhancement program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020178602A JP2022069766A (en) | 2020-10-26 | 2020-10-26 | Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020178602A JP2022069766A (en) | 2020-10-26 | 2020-10-26 | Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022069766A true JP2022069766A (en) | 2022-05-12 |
Family
ID=81534446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020178602A Pending JP2022069766A (en) | 2020-10-26 | 2020-10-26 | Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022069766A (en) |
-
2020
- 2020-10-26 JP JP2020178602A patent/JP2022069766A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6465077B2 (en) | Voice dialogue apparatus and voice dialogue method | |
Nakamura et al. | Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech | |
US8140326B2 (en) | Systems and methods for reducing speech intelligibility while preserving environmental sounds | |
JP4355772B2 (en) | Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
JP4914295B2 (en) | Force voice detector | |
KR101475894B1 (en) | Method and apparatus for improving disordered voice | |
JP5494468B2 (en) | Status detection device, status detection method, and program for status detection | |
Maruri et al. | V-Speech: noise-robust speech capturing glasses using vibration sensors | |
JP6316425B2 (en) | Hearing aid using fundamental frequency correction | |
JP2023123694A (en) | Computer program, server device, terminal device and voice signal processing method | |
WO2008015800A1 (en) | Speech processing method, speech processing program, and speech processing device | |
JP6468258B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP5803125B2 (en) | Suppression state detection device and program by voice | |
KR102198598B1 (en) | Method for generating synthesized speech signal, neural vocoder, and training method thereof | |
JP2016151736A (en) | Speech processing device and program | |
JP2001188779A (en) | Device and method for processing information and recording medium | |
Kwon et al. | Voice frequency synthesis using VAW-GAN based amplitude scaling for emotion transformation | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
JP7360814B2 (en) | Audio processing device and audio processing program | |
JP2022069766A (en) | Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program | |
JP2021108843A (en) | Cognitive function determination apparatus, cognitive function determination system, and computer program | |
JP6791816B2 (en) | Voice section detection device, voice section detection method, and program | |
JP2006259641A (en) | Voice recognition device and program | |
JP4883750B2 (en) | Acoustic rating device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230706 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240402 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20241001 |