JP2022069766A - Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program - Google Patents

Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program Download PDF

Info

Publication number
JP2022069766A
JP2022069766A JP2020178602A JP2020178602A JP2022069766A JP 2022069766 A JP2022069766 A JP 2022069766A JP 2020178602 A JP2020178602 A JP 2020178602A JP 2020178602 A JP2020178602 A JP 2020178602A JP 2022069766 A JP2022069766 A JP 2022069766A
Authority
JP
Japan
Prior art keywords
code
sound quality
data
vibration
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020178602A
Other languages
Japanese (ja)
Inventor
マルダン マムティミン
Maldan Mamthimin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tadano Ltd
Original Assignee
Tadano Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tadano Ltd filed Critical Tadano Ltd
Priority to JP2020178602A priority Critical patent/JP2022069766A/en
Publication of JP2022069766A publication Critical patent/JP2022069766A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

To provide a bone conduction microphone, a voice enhancement method for a bone conduction microphone, and a voice enhancement program that can obtain clearer voice with a simple process.SOLUTION: A bone conduction microphone comprises: a vibration detecting element that contacts a human body and detects vocal fold vibration; a transducer 23 that converts data of vocal fold vibration detected by the vibration detecting element into a first utterance code and a first sound quality code; a storage device 21 that stores the second sound quality code when a second transducer that converts voice data of a human voice caused by air vibration due to the vocal fold vibration into a second utterance code and a second sound quality code converts the voice data into the second utterance code and the second sound quality code; and a generator 24 that generates voice-enhanced data in which the voice is enhanced, based on the first utterance code converted by the converter 23 and the second sound quality code stored by the storage device 21.SELECTED DRAWING: Figure 2

Description

本発明は骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムに関する。 The present invention relates to a bone conduction microphone, a speech enhancement method for the bone conduction microphone, and a speech enhancement program.

骨伝導マイクロホンは、骨を伝導する声帯振動を検出する装置である。しかし、声帯振動は骨を伝導すると高周波成分が減衰してしまうので、骨伝導マイクロホンが検出する音声は、通常明瞭でないことが多い。そこで、より明瞭な音声を得るために、骨伝導マイクロホンが検出した音声データのうち音声成分を強調する音声強調装置が開発されている。 A bone conduction microphone is a device that detects vocal cord vibration that conducts bone. However, since vocal cord vibration attenuates high-frequency components when it conducts bone, the sound detected by the bone conduction microphone is usually not clear. Therefore, in order to obtain a clearer sound, a speech enhancement device that emphasizes the speech component in the speech data detected by the bone conduction microphone has been developed.

例えば、特許文献1には、骨伝導マイクロホンが検出した音声データを分析して有声音か無声音かを判別する判別手段と、有声音と判別された音声データを補正して第一気導音声データを生成する第一補正手段と、無性音と判別された音声データを補正して第二気導音声データを生成する第二補正手段と、生成された第一気導音声データと第二気導音声データを合わせて出力データを生成する出力生成手段と、を備える音声強調装置が開示されている。 For example, Patent Document 1 describes a discriminating means for discriminating between voiced sound and unvoiced sound by analyzing voice data detected by a bone conduction microphone, and first air conduction voice data by correcting voice data discriminated as voiced sound. The first correction means for generating the second air conduction voice data, the second correction means for correcting the voice data determined to be an asexual sound, and the generated first air conduction voice data and the second air. A sound enhancement device including an output generation means for generating output data by combining guide sound data is disclosed.

特開2012-208177号公報Japanese Unexamined Patent Publication No. 2012-208177

特許文献1に記載の音声強調装置では、骨伝導マイクロホンの音声を分析して有声音と無声音に分けるため、音声データの処理が複雑である。 In the speech enhancement device described in Patent Document 1, since the speech of the bone conduction microphone is analyzed and divided into voiced sound and unvoiced sound, the processing of voice data is complicated.

本発明は上記の課題を解決するためになされたもので、より明瞭な音声を簡易な処理で得ることができる骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムを提供することを目的とする。 The present invention has been made to solve the above problems, and to provide a bone conduction microphone, a speech enhancement method for a bone conduction microphone, and a speech enhancement program capable of obtaining clearer speech by simple processing. The purpose.

上記の目的を達成するため、本発明の第一の観点に係る骨伝導マイクロホンは、
人の体に接触して声帯振動を検出する振動検出素子と、
前記振動検出素子が検出した前記声帯振動のデータを第一発話コードと第一音質コードに変換する第一変換器と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
前記第一変換器が変換した前記第一発話コードと前記記憶装置が記憶する前記第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器と、
を備える。
In order to achieve the above object, the bone conduction microphone according to the first aspect of the present invention is
A vibration detection element that detects vocal cord vibration in contact with the human body,
A first converter that converts the vocal cord vibration data detected by the vibration detection element into a first utterance code and a first sound quality code.
The second converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code, converts the voice data into the second utterance code and the second sound quality. A storage device that stores the second sound quality code when converted to a code, and
A generator that generates speech enhancement data in which speech is emphasized based on the first utterance code converted by the first converter and the second sound quality code stored in the storage device.
To prepare for.

前記第一変換器は、前記第一発話コードと前記第一音質コードから前記声帯振動のデータを復元する第一デコーダと組み合わせられた場合に第一オートエンコーダを形成する第一エンコーダであってもよい。 Even if the first transducer is a first encoder that forms a first autoencoder when combined with a first decoder that restores vocal cord vibration data from the first utterance code and the first sound quality code. good.

前記第二変換器は、前記第二発話コードと前記第二音質コードから前記音声データを復元する第二デコーダと組み合わせられた場合に第二オートエンコーダを形成する第二エンコーダであってもよい。 The second converter may be a second encoder that forms a second autoencoder when combined with the second utterance code and the second decoder that restores the voice data from the second sound quality code.

本発明の第二の観点に係る骨伝導マイクロホンの音声強調方法は、
人の体に接触して声帯振動を検出する骨伝導マイクロホンが備える振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードとに基づいて前記音声データの音声を強調した音声強調データを生成する生成ステップと、
を備える。
The speech enhancement method of the bone conduction microphone according to the second aspect of the present invention is
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element of the bone conduction microphone that comes into contact with the human body to detect vocal cord vibration into the first speech code and the first sound quality code.
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second speech code and the second sound quality code converts the voice data into the second speech code and the second sound quality code. The voice data is read from the storage device that stores the second sound quality code at the time of conversion, and the voice data is based on the read second sound quality code and the first speech code converted in the conversion step. A generation step to generate voice-enhanced data that emphasizes the voice of
To prepare for.

本発明の第三の観点に係る音声強調プログラムは、
人の体に接触して声帯振動を検出する振動検出素子と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
を備える骨伝導マイクロホンの音声強調プログラムであって、
コンピュータに、
前記振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードに基づいて、音声を強調した音声強調データを生成する生成ステップと、
を実行させるためのものである。
The speech enhancement program according to the third aspect of the present invention is
A vibration detection element that detects vocal cord vibration in contact with the human body,
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code converts the voice data into the second utterance code and the second sound quality code. A storage device that stores the second sound quality code at the time of conversion,
A speech enhancement program for bone conduction microphones
On the computer
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element into a first utterance code and a first sound quality code, and
A generation step of reading the second sound quality code from the storage device and generating voice-enhanced data based on the read second sound quality code and the first utterance code converted in the conversion step.
Is to execute.

本発明の構成によれば、第一変換器は、振動検出素子が検出した声帯振動のデータを第一発話コードと第一音質コードに変換し、生成器は、その第一発話コードと、記憶部に記憶された、人の声の音声データを第二変換器が変換したときの第二音質コードとに基づいて、音声を強調した音声強調データを生成する。これにより、声帯振動のデータから明瞭な音声のデータが得られる。また、声帯振動のデータに複雑な前処理を施す必要がなく、処理が簡易である。 According to the configuration of the present invention, the first converter converts the voice band vibration data detected by the vibration detection element into the first speech code and the first sound quality code, and the generator stores the first speech code and the storage. The speech enhancement data that emphasizes the voice is generated based on the second sound quality code when the second converter converts the speech data of the human voice stored in the unit. As a result, clear voice data can be obtained from the vocal cord vibration data. In addition, it is not necessary to perform complicated preprocessing on the vocal cord vibration data, and the processing is simple.

本発明の実施の形態に係る骨伝導マイクロホンの部品構成図である。It is a component block diagram of the bone conduction microphone which concerns on embodiment of this invention. 骨伝導マイクロホンが備える音声強調装置のブロック図である。It is a block diagram of the speech enhancement device provided in the bone conduction microphone. 音声強調装置が備える記憶装置に格納された音質テーブルのデータ構成図である。It is a data structure diagram of the sound quality table stored in the storage device provided in the speech enhancement device. 音声強調装置が備えるエンコーダとデコーダを学習させる学習装置のブロック図である。It is a block diagram of the learning device which trains an encoder and a decoder included in a speech enhancement device. 学習装置が備える学習モデルのブロック図である。It is a block diagram of the learning model provided in the learning device. 学習装置が実施する学習処理のフローチャートである。It is a flowchart of the learning process carried out by a learning apparatus.

以下、本発明の実施の形態に係る骨伝導マイクロホン、骨伝導マイクロホンの音声強調方法及び、音声強調プログラムについて図面を参照して詳細に説明する。なお、図中、同一又は同等の部分には同一の符号を付す。 Hereinafter, the bone conduction microphone, the speech enhancement method of the bone conduction microphone, and the speech enhancement program according to the embodiment of the present invention will be described in detail with reference to the drawings. In the figure, the same or equivalent parts are designated by the same reference numerals.

実施の形態に係る骨伝導マイクロホンは、明瞭な音声を得るため、学習済みニューラルネットワークを用いて、振動検出素子が検出した声帯振動のデータから音声強調データを生成する。まず、図1-図3を参照して、骨伝導マイクロホンの構成について説明する。 The bone conduction microphone according to the embodiment uses a trained neural network to generate speech enhancement data from vocal cord vibration data detected by a vibration detection element in order to obtain clear speech. First, the configuration of the bone conduction microphone will be described with reference to FIGS. 1 to 3.

図1は、本発明の実施の形態に係る骨伝導マイクロホン100の部品構成図である。図2は、骨伝導マイクロホン100が備える音声強調装置20のブロック図である。図3は、音声強調装置20が備える記憶装置21に格納された音質テーブル212のデータ構成図である。なお、図1では、理解を容易にするため、骨伝導マイクロホン100が出力するスピーカ200もあわせて示している。 FIG. 1 is a component configuration diagram of a bone conduction microphone 100 according to an embodiment of the present invention. FIG. 2 is a block diagram of the speech enhancement device 20 included in the bone conduction microphone 100. FIG. 3 is a data configuration diagram of the sound quality table 212 stored in the storage device 21 included in the speech enhancement device 20. Note that FIG. 1 also shows a speaker 200 output by the bone conduction microphone 100 for easy understanding.

図1に示すように、骨伝導マイクロホン100は、声帯振動を検出する振動検出素子10と、振動検出素子10が検出した声帯振動のデータに基づいて音声強調データを生成する音声強調装置20と、を備える。 As shown in FIG. 1, the bone conduction microphone 100 includes a vibration detection element 10 that detects vocal cord vibration, a speech enhancement device 20 that generates speech enhancement data based on vocal cord vibration data detected by the vibration detection element 10, and a speech enhancement device 20. To be equipped.

振動検出素子10は、図示しないが、ケースと、ケースに収容された圧電素子とを備える。振動検出素子10では、ケースに振動が伝搬すると、その振動によって圧電素子がたわみ、圧電素子に電位が発生する。振動検出素子10は、その電位から振動を検出する。 Although not shown, the vibration detection element 10 includes a case and a piezoelectric element housed in the case. In the vibration detection element 10, when the vibration propagates to the case, the piezoelectric element bends due to the vibration, and a potential is generated in the piezoelectric element. The vibration detection element 10 detects vibration from its potential.

振動検出素子10のケースは、人体の部位、例えば、頭頂部、側頭部、咽頭部、鼻腔部等の皮膚に接触可能な形状を有する。これにより、振動検出素子10は、ケースが人体の部位に接触した状態に装着される。振動検出素子10は、この状態で、頭蓋骨等の人体の一部を伝搬する声帯振動を検出する。振動検出素子10は、検出した声帯振動のデータを音声強調装置20に送信する。 The case of the vibration detection element 10 has a shape capable of contacting a part of the human body, for example, the skin such as the crown, the temporal region, the pharynx, and the nasal cavity. As a result, the vibration detection element 10 is mounted in a state where the case is in contact with a part of the human body. In this state, the vibration detection element 10 detects vocal cord vibration propagating in a part of the human body such as the skull. The vibration detection element 10 transmits the detected vocal cord vibration data to the speech enhancement device 20.

音声強調装置20は、声帯振動のデータを受信する。音声強調装置20は、その声帯振動のデータを処理するため、記憶装置21およびコントローラ22を備える。 The speech enhancement device 20 receives the data of vocal cord vibration. The speech enhancement device 20 includes a storage device 21 and a controller 22 in order to process the data of the vocal cord vibration.

記憶装置21は、EEPROM(Electrical Erasable Programmable Read-Only Memory)又はフラッシュメモリ等を有する。そして、記憶装置21は、声帯振動のデータから音声強調データを生成する音声強調プログラム211を記憶する。また、記憶装置21は、音声強調プログラム211のパラメータを格納するモデルデータベース213を記憶する。 The storage device 21 has an EEPROM (Electrical Erasable Programmable Read-Only Memory), a flash memory, or the like. Then, the storage device 21 stores the speech enhancement program 211 that generates speech enhancement data from the vocal cord vibration data. Further, the storage device 21 stores a model database 213 that stores the parameters of the speech enhancement program 211.

コントローラ22は、演算処理を行うCPU(Central ProcessingUnit)と、ROM(Read Only Memory)及びRAM(Random Access Memory)を含むメモリとを含むマイクロコンピュータを備える。CPUは、ROM又は記憶装置21に記憶されたプログラムをRAMに読み出して実行することにより、各種処理を行う。例えば、コントローラ22は、CPUが上記音声強調プログラム211を実行する。そして、モデルデータベース213を読み出す。これにより、音声強調処理を行う。コントローラ22は、この音声強調処理を行うため、図2に示すように、ソフトウエアとして構成される変換器23および生成器24の処理ブロックを備える。 The controller 22 includes a microcomputer including a CPU (Central Processing Unit) for performing arithmetic processing, and a memory including a ROM (Read Only Memory) and a RAM (Random Access Memory). The CPU performs various processes by reading the program stored in the ROM or the storage device 21 into the RAM and executing the program. For example, in the controller 22, the CPU executes the speech enhancement program 211. Then, the model database 213 is read out. As a result, speech enhancement processing is performed. In order to perform this speech enhancement process, the controller 22 includes a processing block of a converter 23 and a generator 24 configured as software, as shown in FIG.

変換器23は、図1に示す振動検出素子10が検出した声帯振動のデータを受信する。変換器23は、図2に示すように、エンコーダE1を含み、そのエンコーダE1によって声帯振動のデータを発話コードとマイク音質コード(以下、発話コードC1と音質コードC2という)に変換する。変換器23は、変換した発話コードC1と音質コードC2を生成器24に送信する。 The converter 23 receives the data of vocal cord vibration detected by the vibration detection element 10 shown in FIG. As shown in FIG. 2, the converter 23 includes an encoder E1 and converts vocal cord vibration data into an utterance code and a microphone sound quality code (hereinafter referred to as utterance code C1 and sound quality code C2) by the encoder E1. The converter 23 transmits the converted utterance code C1 and the sound quality code C2 to the generator 24.

一方、記憶装置21には、音質テーブル212が格納されている。その音質テーブル212には、通常のマイクロホンを用いて記録した音声のデータを、エンコーダE1とは別の、後述するエンコーダE2が、発話コードとマイク音質コード(以下、発話コードC3と音質コードC4という)に変換したときの、音質コードC4が、図3に示すように、上記エンコーダE1の音質コードC2に対応付けられている。 On the other hand, the sound quality table 212 is stored in the storage device 21. In the sound quality table 212, the voice data recorded by using a normal microphone is stored in the encoder E2, which will be described later, separately from the encoder E1, and is referred to as a speech code and a microphone sound quality code (hereinafter referred to as speech code C3 and sound quality code C4). ), The sound quality code C4 is associated with the sound quality code C2 of the encoder E1 as shown in FIG.

生成器24は、図2に示すように、上述した変換器23から発話コードC1と音質コードC2を受信する。また、生成器24は、受信した音質コードC2に対応する音質コードC4を記憶装置21の音質テーブル212から読み取る。生成器24は、デコーダD4を含み、そのデコーダD4が上記の受信した発話コードC1と読み取った音質コードC4に基づいて、振動検出素子10が検出した声帯振動に対応する音声を強調した音声強調データを生成する。詳細には、デコーダD4は、発話コードC1と音質コードC4を復号することにより、音声強調データを生成する。 As shown in FIG. 2, the generator 24 receives the utterance code C1 and the sound quality code C2 from the above-mentioned converter 23. Further, the generator 24 reads the sound quality code C4 corresponding to the received sound quality code C2 from the sound quality table 212 of the storage device 21. The generator 24 includes a decoder D4, and speech enhancement data that emphasizes the voice corresponding to the vocal cord vibration detected by the vibration detection element 10 based on the received utterance code C1 and the sound quality code C4 read by the decoder D4. To generate. Specifically, the decoder D4 generates speech enhancement data by decoding the utterance code C1 and the sound quality code C4.

生成器24は、生成した音声強調データを外部機器に出力する。例えば、生成器24は、図1に例示するスピーカ200に音声強調データを出力する。音声強調データでは音声が強調されている。このため、骨伝導マイクロホン100が取得した音は、音声が明瞭で聞き取りやすい。 The generator 24 outputs the generated speech enhancement data to an external device. For example, the generator 24 outputs speech enhancement data to the speaker 200 illustrated in FIG. Speech is emphasized in the speech enhancement data. Therefore, the sound acquired by the bone conduction microphone 100 is clear and easy to hear.

上述した変換器23のエンコーダE1と生成器24のデコーダD4は、学習済みニューラルネットワークを使用することにより変換処理と生成処理を行う。続いて、図4および図5を参照して、エンコーダE1とデコーダD4のニューラルネットワークを学習させる学習装置300について説明する。 The encoder E1 of the converter 23 and the decoder D4 of the generator 24 described above perform conversion processing and generation processing by using the trained neural network. Subsequently, the learning device 300 for learning the neural network of the encoder E1 and the decoder D4 will be described with reference to FIGS. 4 and 5.

図4は、音声強調装置20が備えるエンコーダE1とデコーダD4を学習させる学習装置300のブロック図である。図5は、学習装置300が備える学習モデル330のブロック図である。 FIG. 4 is a block diagram of a learning device 300 for learning the encoder E1 and the decoder D4 included in the speech enhancement device 20. FIG. 5 is a block diagram of the learning model 330 included in the learning device 300.

学習装置300では、図示しないCPUが、図4に示す記憶装置310に記憶された学習プログラム311をRAMに読み出して実行する。これにより、学習装置300は、学習処理を行う。その結果、学習装置300は、ソフトウエアとして構成される学習部320および学習モデル330を備える。 In the learning device 300, a CPU (not shown) reads the learning program 311 stored in the storage device 310 shown in FIG. 4 into the RAM and executes it. As a result, the learning device 300 performs the learning process. As a result, the learning device 300 includes a learning unit 320 and a learning model 330 configured as software.

記憶装置310には、学習データ312が記憶されている。学習部320は、記憶装置310から学習データ312を読み出し、読み出した学習データ312を学習モデル330に入力する。 The learning data 312 is stored in the storage device 310. The learning unit 320 reads the learning data 312 from the storage device 310, and inputs the read learning data 312 into the learning model 330.

学習モデル330は、図5に示すように、エンコーダE1、E2と、デコーダD1-D4と、が組み合わされたモデルである。学習モデル330では、エンコーダE1とデコーダD1が一組のネットワークを形成している。また、エンコーダE2とデコーダD2がもう一組のネットワークを形成している。さらに、デコーダD3、D4それぞれは、エンコーダE1とエンコーダE2に接続され、それぞれが別のネットワークを形成している。 As shown in FIG. 5, the learning model 330 is a model in which the encoders E1 and E2 and the decoders D1-D4 are combined. In the learning model 330, the encoder E1 and the decoder D1 form a set of networks. Further, the encoder E2 and the decoder D2 form another set of networks. Further, the decoders D3 and D4 are connected to the encoder E1 and the encoder E2, respectively, and each forms a different network.

図示しないが、エンコーダE1とデコーダD1は、入力層、隠れ層及び出力層を有するニューラルネットワークモデルによって構築されている。そのニューラルネットワークモデルの入力層と出力層は、次元数が同じであり、隠れ層は、入力層と出力層よりも次元数が小さい。そして、エンコーダE1は、ニューラルネットワークモデルの入力層から隠れ層までの部分によって構築され、デコーダD1は、そのニューラルネットワークモデルの隠れ層から出力層までの部分によって構築されている。 Although not shown, the encoder E1 and the decoder D1 are constructed by a neural network model having an input layer, a hidden layer, and an output layer. The input layer and the output layer of the neural network model have the same number of dimensions, and the hidden layer has a smaller number of dimensions than the input layer and the output layer. The encoder E1 is constructed by the portion from the input layer to the hidden layer of the neural network model, and the decoder D1 is constructed by the portion from the hidden layer to the output layer of the neural network model.

上述した学習データ312には、図4に示すように、振動検出素子10を用いて予め記録しておいた声帯振動データAと、通常のマイクロホンを用いて予め記録しておいた音声データBと、が格納されている。 As shown in FIG. 4, the learning data 312 described above includes vocal cord vibration data A pre-recorded using the vibration detection element 10 and voice data B pre-recorded using a normal microphone. , Is stored.

ここで、音声データBは、声帯振動データAを記録したときの、その声帯振動によって発せられた音声を記録したデータである。すなわち、音声データBは、声帯振動データAに対応する音声を記録している。なお、本明細書では、通常のマイクロホンとは、声帯振動によって空気が振動することにより発生する音声を電気信号に変換するマイクロホンのことをいい、気導音マイクロホンともいう。 Here, the voice data B is data obtained by recording the voice emitted by the vocal cord vibration when the vocal cord vibration data A is recorded. That is, the voice data B records the voice corresponding to the vocal cord vibration data A. In addition, in this specification, a normal microphone means a microphone which converts the sound generated by the vibration of air by vocal cord vibration into an electric signal, and is also referred to as an air conduction sound microphone.

学習部320は、学習データ312のうち、声帯振動データAを、図5に示すように、エンコーダE1に入力する。そして、声帯振動データAとデコーダD1の出力を比較して、ニューラルネットワークモデル内のノード間の重みを調整する。これにより、学習部320は、声帯振動データAとデコーダD1の出力の誤差を小さくする。その結果、エンコーダE1とデコーダD1が、オートエンコーダを学習する。すなわち、自己符号化を学習する。 The learning unit 320 inputs the vocal cord vibration data A of the learning data 312 to the encoder E1 as shown in FIG. Then, the vocal cord vibration data A and the output of the decoder D1 are compared to adjust the weights between the nodes in the neural network model. As a result, the learning unit 320 reduces the error between the output of the vocal cord vibration data A and the decoder D1. As a result, the encoder E1 and the decoder D1 learn the autoencoder. That is, it learns self-coding.

また、エンコーダE2とデコーダD2は、エンコーダE1とデコーダD1で説明したニューラルネットワークモデルとは別のニューラルネットワークモデルによって構築されている。なお、この別のニューラルネットワークモデルは、エンコーダE1とデコーダD1で説明したニューラルネットワークモデルと同じ層構造を備える。 Further, the encoder E2 and the decoder D2 are constructed by a neural network model different from the neural network model described in the encoder E1 and the decoder D1. Note that this other neural network model has the same layer structure as the neural network model described in the encoder E1 and the decoder D1.

学習部320は、学習データ312の音声データBをエンコーダE2に入力する。そして、学習部320は、音声データBとデコーダD2の出力を比較して、上記別のニューラルネットワークモデル内のノード間の重みを調整する。これにより、音声データBとデコーダD2の出力の誤差を小さくする。その結果、エンコーダE2とデコーダD2が自己符号化を学習する。 The learning unit 320 inputs the voice data B of the learning data 312 to the encoder E2. Then, the learning unit 320 compares the output of the voice data B and the output of the decoder D2, and adjusts the weight between the nodes in the other neural network model. As a result, the error between the output of the audio data B and the output of the decoder D2 is reduced. As a result, the encoder E2 and the decoder D2 learn self-coding.

エンコーダE1とデコーダD1、エンコーダE2とデコーダD2がそれぞれ自己符号化を学習すると、エンコーダE1は、声帯振動データAを符号化した発話コードC1と音質コードC2を出力する。また、エンコーダE2は、音声データBを符号化した発話コードC3と音質コードC4を出力する。 When the encoder E1 and the decoder D1 and the encoder E2 and the decoder D2 each learn self-coding, the encoder E1 outputs the utterance code C1 and the sound quality code C2 in which the vocal cord vibration data A is encoded. Further, the encoder E2 outputs the utterance code C3 and the sound quality code C4 in which the voice data B is encoded.

一方、デコーダD3は、デコーダD1、D2と同じ層構造を有するニューラルネットワーク部によって構築されている。学習部320は、デコーダD3に、エンコーダE1が出力する音質コードC2と、エンコーダE2が出力する発話コードC3とを入力する。ここで、音質コードC2は、声帯振動データAを記録した振動検出素子10のマイク音質のコードである。学習部320は、そのマイク音質のコードに対応した出力を得るため、声帯振動データAとデコーダD3の出力を比較する。学習部320は、その比較結果に基づいてニューラルネットワーク部のノード間の重みを調整して、声帯振動データAとデコーダD3の出力の誤差を小さくする。これにより、学習部320は、声帯振動データAを出力する状態にデコーダD3を学習させる。 On the other hand, the decoder D3 is constructed by a neural network unit having the same layer structure as the decoders D1 and D2. The learning unit 320 inputs the sound quality code C2 output by the encoder E1 and the utterance code C3 output by the encoder E2 to the decoder D3. Here, the sound quality code C2 is a microphone sound quality code of the vibration detection element 10 that records the vocal cord vibration data A. The learning unit 320 compares the output of the vocal cord vibration data A with the output of the decoder D3 in order to obtain an output corresponding to the code of the microphone sound quality. The learning unit 320 adjusts the weights between the nodes of the neural network unit based on the comparison result to reduce the error between the outputs of the vocal cord vibration data A and the decoder D3. As a result, the learning unit 320 trains the decoder D3 in a state of outputting the vocal cord vibration data A.

デコーダD4は、デコーダD3のニューラルネットワーク部と同じ層構造を有する別のニューラルネットワーク部によって構築されている。学習部320は、デコーダD4に、エンコーダE1が出力する発話コードC1と、エンコーダE2が出力する音質コードC4とを入力する。その音質コードC4は、音声データBを記録した通常のマイクロホンのマイク音質のコードである。学習部320は、このマイク音質のコードに対応した出力を得るため、音声データBとデコーダD4の出力を比較して、ニューラルネットワーク部のノード間の重みを調整する。これにより、学習部320は、音声データBとデコーダD4の出力の誤差を小さくする。その結果、学習部320は、音声データBを出力する状態にデコーダD4を学習させる。 The decoder D4 is constructed by another neural network unit having the same layer structure as the neural network unit of the decoder D3. The learning unit 320 inputs the utterance code C1 output by the encoder E1 and the sound quality code C4 output by the encoder E2 to the decoder D4. The sound quality code C4 is a microphone sound quality code of a normal microphone that records voice data B. In order to obtain an output corresponding to the code of the microphone sound quality, the learning unit 320 compares the output of the voice data B and the output of the decoder D4 and adjusts the weight between the nodes of the neural network unit. As a result, the learning unit 320 reduces the error between the audio data B and the output of the decoder D4. As a result, the learning unit 320 trains the decoder D4 in a state of outputting the voice data B.

学習部320は、エンコーダE1、E2とデコーダD1-D4を学習させると、すなわち、学習モデル330を学習させると、学習済みの学習モデル330のエンコーダE1、デコーダD4の重み係数等のパラメータを、図2に示すモデルデータベース213として記憶装置21に記憶させる。これにより、学習部320は、変換器23と生成器24の動作に必要なデータベースを音声強調装置20に供給する。 When the learning unit 320 learns the encoders E1 and E2 and the decoders D1-D4, that is, when the learning model 330 is trained, the learning unit 320 displays parameters such as the weighting coefficients of the encoders E1 and the decoder D4 of the learned learning model 330. It is stored in the storage device 21 as the model database 213 shown in 2. As a result, the learning unit 320 supplies the speech enhancement device 20 with the database necessary for the operation of the converter 23 and the generator 24.

また、学習部320は、学習済みの学習モデル330に、再度学習データ312を入力する。学習部320は、そのときにエンコーダE1が出力する音質コードC2と、エンコーダE2が出力する音質コードC4とを用いて、図3に示す音質テーブル212を作成する。学習部320は、作成した音質テーブル212を記憶装置21に記憶させる。これにより、学習部320は、生成器24の動作に必要なテーブルを音声強調装置20に供給する。その結果、上述したように、音声強調装置20が音声強調データを生成して、振動検出素子10が検出した振動を明瞭で聞き取りやすい音声に変換する。 Further, the learning unit 320 inputs the learning data 312 again into the learned learning model 330. The learning unit 320 creates the sound quality table 212 shown in FIG. 3 by using the sound quality code C2 output by the encoder E1 and the sound quality code C4 output by the encoder E2 at that time. The learning unit 320 stores the created sound quality table 212 in the storage device 21. As a result, the learning unit 320 supplies the speech enhancement device 20 with the table necessary for the operation of the generator 24. As a result, as described above, the speech enhancement device 20 generates speech enhancement data, and the vibration detected by the vibration detection element 10 is converted into a clear and easy-to-hear voice.

次に、図6を参照して、学習装置300の学習方法をより詳細に説明する。以下の説明では、図示しないが、学習装置300は、パーソナルコンピュータまたはサーバー(以下、サーバー等という)によって構成されているものとする。そして、それらサーバー等に設けられた記憶装置に学習プログラム311と学習データ312が格納され、さらに、その学習プログラム311のアイコンがディスプレイ装置に表示されているものとする。また、それらサーバー等は、インターネットを介して、骨伝導マイクロホン100の音声強調装置20が備えるコントローラに接続されているものとする。 Next, the learning method of the learning device 300 will be described in more detail with reference to FIG. Although not shown in the following description, it is assumed that the learning device 300 is composed of a personal computer or a server (hereinafter, referred to as a server or the like). Then, it is assumed that the learning program 311 and the learning data 312 are stored in the storage device provided in the server or the like, and the icon of the learning program 311 is displayed on the display device. Further, it is assumed that these servers and the like are connected to the controller included in the speech enhancement device 20 of the bone conduction microphone 100 via the Internet.

図6は、学習装置300が実施する学習処理のフローチャートである。 FIG. 6 is a flowchart of the learning process performed by the learning device 300.

はじめに、学習装置300のユーザーが、上記アイコンを押して、学習プログラム311を起動させる。これにより、サーバーまたは、パーソナルコンピュータのCPUによって学習プログラムが実行され、学習処理のフローが開始される。 First, the user of the learning device 300 presses the above icon to activate the learning program 311. As a result, the learning program is executed by the CPU of the server or the personal computer, and the flow of the learning process is started.

学習処理のフローが開始されると、まず、学習部320は、記憶装置310から学習データ312を読み出す。これにより、学習データ312を取得する(ステップS1)。 When the flow of the learning process is started, the learning unit 320 first reads the learning data 312 from the storage device 310. As a result, the learning data 312 is acquired (step S1).

なお、学習データ312には、音声強調装置20が強調できる音声の種類を増やすため、人が様々な発音をしたときの、声帯振動データAと音声データBが格納されていることが望ましい。例えば、学習データ312には、特定の言語のほとんどの文字について、それら文字を読んだときの声帯振動データAと音声データBが文字毎に格納されていることが望ましい。 It is desirable that the learning data 312 stores vocal cord vibration data A and voice data B when a person makes various pronunciations in order to increase the types of voices that can be emphasized by the voice enhancement device 20. For example, it is desirable that the learning data 312 stores vocal cord vibration data A and voice data B for each character when reading those characters for most characters in a specific language.

続いて、学習部320は、取得した学習データ312を用いて、学習モデル330のエンコーダE1とデコーダD1のニューラルネットワークと、エンコーダE2とデコーダD2のニューラルネットワークを学習させる(ステップS2)。 Subsequently, the learning unit 320 trains the neural network of the encoder E1 and the decoder D1 of the learning model 330 and the neural network of the encoder E2 and the decoder D2 using the acquired learning data 312 (step S2).

詳細には、エンコーダE1に学習データ312の声帯振動データAを入力し、エンコーダE2に学習データ312の音声データBを入力する。そしてデコーダD1の出力をA、デコーダD1の出力をBとする場合に、数式1-数式3で表されるコスト関数Lallが一定値以内に収束するまで、ネットワーク内のノード間の重みを調整する。これにより、エンコーダE1とデコーダD1のネットワークと、エンコーダE2とデコーダD2のネットワークを学習させる。 Specifically, the vocal cord vibration data A of the learning data 312 is input to the encoder E1, and the voice data B of the learning data 312 is input to the encoder E2. When the output of the decoder D1 is A * and the output of the decoder D1 is B * , the weights between the nodes in the network until the cost function L all represented by the formula 1-formula 3 converges within a certain value. To adjust. As a result, the network of the encoder E1 and the decoder D1 and the network of the encoder E2 and the decoder D2 are learned.

Figure 2022069766000002
Figure 2022069766000002

Figure 2022069766000003
Figure 2022069766000003

Figure 2022069766000004
Figure 2022069766000004

次に、学習部320は、学習データ312を用いて、学習モデル330全体を学習させる(ステップS3)。 Next, the learning unit 320 trains the entire learning model 330 using the learning data 312 (step S3).

詳細には、ステップS2と同じく、エンコーダE1に学習データ312の声帯振動データAを入力し、エンコーダE2に学習データ312の音声データBを入力する。そして、デコーダD3の出力をA**、デコーダD4の出力をB**とする場合に、数式4-数式6で表されるコスト関数Lallが一定値以内に収束するまで、ネットワーク内のノード間の重みを調整する。これにより、デコーダD3、D4を含む学習モデル330全体を学習させる。 Specifically, as in step S2, the vocal cord vibration data A of the learning data 312 is input to the encoder E1, and the voice data B of the learning data 312 is input to the encoder E2. Then, when the output of the decoder D3 is A ** and the output of the decoder D4 is B ** , the nodes in the network until the cost function L all represented by the formula 4-formula 6 converges within a certain value. Adjust the weight between. As a result, the entire learning model 330 including the decoders D3 and D4 is trained.

Figure 2022069766000005
Figure 2022069766000005

Figure 2022069766000006
Figure 2022069766000006

Figure 2022069766000007
Figure 2022069766000007

学習モデル330全体の学習が完了すると、学習部320は、学習済みの学習モデル330のパラメータを記憶装置21に格納する(ステップS4)。詳細には、エンコーダE1とデコーダD4のネットワークの層数、ノード数、ノード間の重み係数等のパラメータを記憶装置21のモデルデータベース213に格納する。 When the learning of the entire learning model 330 is completed, the learning unit 320 stores the parameters of the learned learning model 330 in the storage device 21 (step S4). Specifically, parameters such as the number of network layers of the encoder E1 and the decoder D4, the number of nodes, and the weighting coefficient between the nodes are stored in the model database 213 of the storage device 21.

また、学習部320は、学習済みの学習モデル330を用いて、音質テーブル212を作成し、その音質テーブル212を記憶装置21に格納する(ステップS5)。 Further, the learning unit 320 creates a sound quality table 212 using the learned learning model 330, and stores the sound quality table 212 in the storage device 21 (step S5).

詳細には、学習部320は、学習済みの学習モデル330に学習データ312を入力し、そのときのエンコーダE1、E2の出力のデータから、エンコーダE1の出力である音質コードC2に、エンコーダE2の出力である音質コードC4を対応付ける。このとき、例えば、特定の言語の文字ほとんどについて、声帯振動データAと音声データBが学習データ312に格納されている場合、それら文字毎に、音質コードC2に音質コードC4を対応付ける。これにより、学習部320は、音質テーブル212を作成する。そして、作成した音質テーブル212を記憶装置21に格納する。 Specifically, the learning unit 320 inputs the learning data 312 into the learned learning model 330, and from the output data of the encoders E1 and E2 at that time, the sound quality code C2 which is the output of the encoder E1 is input to the encoder E2. The output sound quality code C4 is associated with it. At this time, for example, when vocal cord vibration data A and voice data B are stored in the learning data 312 for most of the characters in a specific language, the sound quality code C2 is associated with the sound quality code C4 for each of these characters. As a result, the learning unit 320 creates the sound quality table 212. Then, the created sound quality table 212 is stored in the storage device 21.

以上のステップにより、学習装置300の学習が完了する。 By the above steps, the learning of the learning device 300 is completed.

学習装置300の学習が完了した後、骨伝導マイクロホン100の図示しない電源ボタンが押されて、骨伝導マイクロホン100が起動すると、コントローラ22は、上記ステップS4で記憶装置21に格納したモデルデータベース213を読み出し、読み出したモデルデータベース213に基づいて、エンコーダE1とデコーダD4のニューラルネットワークモデルを構築する。これにより、学習装置300の学習を骨伝導マイクロホン100の動作に反映させる。 After the learning of the learning device 300 is completed, the power button (not shown) of the bone conduction microphone 100 is pressed to activate the bone conduction microphone 100, and the controller 22 stores the model database 213 stored in the storage device 21 in step S4. Based on the read and read model database 213, a neural network model of the encoder E1 and the decoder D4 is constructed. As a result, the learning of the learning device 300 is reflected in the operation of the bone conduction microphone 100.

続いて、骨伝導マイクロホン100の振動検出素子10が声帯振動を検出すると、コントローラ22は、その振動検出素子10から声帯振動データを取得し、取得した声帯振動データを、モデルデータベース213で構築したニューラルネットワークモデルのエンコーダE1によって発話コードC1と音質コードC2に変換する(このステップのことを変換ステップともいう)。 Subsequently, when the vibration detection element 10 of the bone conduction microphone 100 detects the voice band vibration, the controller 22 acquires the voice band vibration data from the vibration detection element 10, and the acquired voice band vibration data is a neural structure constructed by the model database 213. It is converted into the speech code C1 and the sound quality code C2 by the encoder E1 of the network model (this step is also called a conversion step).

コントローラ22は、上記ステップS5で記憶装置21に格納した音質テーブル212から、変換した音質コードC2に対応する音質コードC4を読み出し、上記エンコーダE1によって変換した発話コードC1と読み出した音質コードC4をデコーダD4に入力することにより、発話コードC1と音質コードC4を復号させる。これにより、コントローラ22は、音声強調データを生成する(このステップのことを生成ステップともいう)。その結果、骨伝導マイクロホン100では、音声が強調され、聞き取りやすい。 The controller 22 reads the sound quality code C4 corresponding to the converted sound quality code C2 from the sound quality table 212 stored in the storage device 21 in step S5, and decodes the utterance code C1 converted by the encoder E1 and the read sound quality code C4. By inputting to D4, the utterance code C1 and the sound quality code C4 are decoded. As a result, the controller 22 generates speech enhancement data (this step is also referred to as a generation step). As a result, in the bone conduction microphone 100, the voice is emphasized and it is easy to hear.

なお、上述したエンコーダE1、E2は、本明細書及び特許請求の範囲でいうところの第一変換器または第一エンコーダ、第二変換器または第二エンコーダの一例である。デコーダD1、D2は、本明細書及び特許請求の範囲でいうところの第一デコーダ、第二デコーダの一例である。また、エンコーダE1とデコーダD1によって構成されるオートエンコーダとエンコーダE2とデコーダD2によって構成されるオートエンコーダは、本明細書及び特許請求の範囲でいうところの第一オートエンコーダ、第二オートエンコーダの一例である。さらに、エンコーダE1、E2が変換する発話コードC1、音質コードC2、発話コードC3および音質コードC4は、本明細書及び特許請求の範囲でいうところの第一発話コード、第一音質コード、第二発話コードおよび第二音質コードの一例である。 The above-mentioned encoders E1 and E2 are examples of the first converter or the first encoder, the second converter or the second encoder as defined in the present specification and the claims. The decoders D1 and D2 are examples of the first decoder and the second decoder as defined in the present specification and claims. Further, the autoencoder composed of the encoder E1 and the decoder D1 and the autoencoder composed of the encoder E2 and the decoder D2 are examples of the first autoencoder and the second autoencoder as defined in the present specification and claims. Is. Further, the utterance code C1, the sound quality code C2, the utterance code C3 and the sound quality code C4 converted by the encoders E1 and E2 are the first utterance code, the first sound quality code, and the second sound quality code as defined in the present specification and claims. It is an example of an utterance code and a second sound quality code.

また、上記の実施の形態では、学習部320には、骨伝導マイクロホン100が接続され、通常のマイクロホンは接続されていないが、学習部320は、骨伝導マイクロホン100のほかに、通常のマイクロホンに接続されていてもよい。この場合に、ユーザーがテキストデータを声に出して読んで、骨伝導マイクロホン100の振動検出素子10が、そのときのユーザーの声帯振動を検出すると共に、通常のマイクロホンがそのときの音声を検出するとよい。そして、学習部320は、検出した声帯振動と音声のデータをステップS1の学習データ312として利用してもよい。この場合、学習部320は、検出した声帯振動と音声のデータを学習データ312として記憶装置310に記憶させるとよい。 Further, in the above embodiment, the bone conduction microphone 100 is connected to the learning unit 320 and the normal microphone is not connected, but the learning unit 320 is connected to the normal microphone in addition to the bone conduction microphone 100. It may be connected. In this case, when the user reads the text data aloud, the vibration detection element 10 of the bone conduction microphone 100 detects the vocal cord vibration of the user at that time, and the normal microphone detects the voice at that time. good. Then, the learning unit 320 may use the detected vocal cord vibration and voice data as the learning data 312 in step S1. In this case, the learning unit 320 may store the detected vocal cord vibration and voice data in the storage device 310 as learning data 312.

以上のように、実施の形態に係る骨伝導マイクロホン100では、変換器23が含むエンコーダE1が、振動検出素子10によって検出された声帯振動データを発話コードC1、音質コードC2に変換し、生成器24が含むデコーダD4が、エンコーダE1によって変換された発話コードC1と、記憶装置21の音質テーブル212に格納され、エンコーダE1によって変換された音質コードC2に対応する音質コードC4と、に基づいて、音声強調データを生成する。このため、骨伝導マイクロホン100では、明瞭かつ、聞き取りやすい音声を得ることができる。また、声帯振動データに複雑な前処理を施す必要がなく、処理が簡易である。 As described above, in the bone conduction microphone 100 according to the embodiment, the encoder E1 included in the converter 23 converts the voice band vibration data detected by the vibration detection element 10 into the speech code C1 and the sound quality code C2, and the generator. The decoder D4 included in the 24 is stored in the speech code C1 converted by the encoder E1 and the sound quality code C4 corresponding to the sound quality code C2 stored in the sound quality table 212 of the storage device 21 and converted by the encoder E1. Generate speech enhancement data. Therefore, with the bone conduction microphone 100, it is possible to obtain clear and easy-to-hear voice. In addition, it is not necessary to perform complicated preprocessing on the vocal cord vibration data, and the processing is simple.

また、変換器23が含むエンコーダE1と生成器24が含むデコーダD4は、学習装置300によって学習する。このため、骨伝導マイクロホン100のユーザーの声帯振動データと音声データを格納した学習データ312を用いてエンコーダE1とデコーダD4を学習させることにより、そのユーザーの声帯振動、音声に応じた音声強調データを生成することができる。 Further, the encoder E1 included in the converter 23 and the decoder D4 included in the generator 24 are learned by the learning device 300. Therefore, by training the encoder E1 and the decoder D4 using the learning data 312 that stores the vocal cord vibration data and voice data of the user of the bone conduction microphone 100, the voice enhancement data corresponding to the user's vocal cord vibration and voice can be obtained. Can be generated.

以上、本発明の実施の形態を説明したが、本発明は上記の実施の形態に限定されるものではない。例えば、実施の形態では、振動検出素子10が圧電素子を備えているが、本発明はこれに限定されない。本発明では、振動検出素子10が声帯の振動を検出できればよく、その限りにおいて素子は任意である。例えば、圧電素子の換わりに、電磁型素子、静電型素子であってもよい。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above embodiments. For example, in the embodiment, the vibration detection element 10 includes a piezoelectric element, but the present invention is not limited thereto. In the present invention, it is sufficient that the vibration detection element 10 can detect the vibration of the vocal cords, and the element is arbitrary as long as it can detect the vibration of the vocal cords. For example, instead of the piezoelectric element, an electromagnetic element or an electrostatic element may be used.

また、上記の実施の形態では、骨伝導マイクロホン100が接続される外部機器としてスピーカ200が例示されているが、本発明はこれに限定されない。本発明では、骨伝導マイクロホン100が音声を強調した音声強調データを生成すればよく、その接続先は限定されない。例えば、骨伝導マイクロホン100は、クレーン装置、高所作業車等のキャビンのコントローラに接続されてもよい。そして、そのコントローラを介して、キャビン内に配置されたスピーカ200に接続されてもよい。また、骨伝導イヤホンに接続されてもよい。このような形態であれば、大きい作業音が発生して作業者の音声が聞き取りにくい環境であっても、作業者の音声を聞き取りやすくすることができる。 Further, in the above embodiment, the speaker 200 is exemplified as an external device to which the bone conduction microphone 100 is connected, but the present invention is not limited thereto. In the present invention, the bone conduction microphone 100 may generate speech enhancement data in which speech is emphasized, and the connection destination thereof is not limited. For example, the bone conduction microphone 100 may be connected to a controller of a cabin such as a crane device or an aerial work platform. Then, it may be connected to the speaker 200 arranged in the cabin via the controller. It may also be connected to a bone conduction earphone. With such a form, it is possible to make it easier to hear the worker's voice even in an environment where a loud work sound is generated and the worker's voice is difficult to hear.

上記の実施の形態では、学習装置300が、骨伝導マイクロホン100とは別の装置である。しかし、本発明はこれに限定されない。本発明では、骨伝導マイクロホン100が学習装置300を備えていてもよい。例えば、音声強調装置20のコントローラ22が、学習装置300、すなわち、学習部320と学習モデル330を備えていてもよい。この場合、コントローラ22が通常のマイクロホンに接続されているとよい。そして、音声強調装置20では、学習モードと動作モードが切り替え可能であり、学習モード時に、振動検出素子10が検出した声帯音声データと通常のマイクロホンが検出した音声データに基づいて、学習モデル330が学習するとよい。このような形態であれば、ユーザーの声帯振動、音声に応じて骨伝導マイクロホン100を調整することができる。 In the above embodiment, the learning device 300 is a device different from the bone conduction microphone 100. However, the present invention is not limited to this. In the present invention, the bone conduction microphone 100 may include the learning device 300. For example, the controller 22 of the speech enhancement device 20 may include a learning device 300, that is, a learning unit 320 and a learning model 330. In this case, it is preferable that the controller 22 is connected to a normal microphone. Then, in the speech enhancement device 20, the learning mode and the operation mode can be switched, and the learning model 330 is based on the vocal cord voice data detected by the vibration detection element 10 and the voice data detected by the normal microphone in the learning mode. You should learn. With such a form, the bone conduction microphone 100 can be adjusted according to the vocal cord vibration and voice of the user.

10…振動検出素子、20…音声強調装置、21…記憶装置、22…コントローラ、23…変換器、24…生成器、100…骨伝導マイクロホン、200…スピーカ、211…音声強調プログラム、212…音質テーブル、213…モデルデータベース、300…学習装置、310…記憶装置、311…学習プログラム、312…学習データ、320…学習部、330…学習モデル、C1,C3…発話コード、C2,C4…音質コード、D1-D4…デコーダ、E1,E2…エンコーダ 10 ... Vibration detection element, 20 ... Speech enhancement device, 21 ... Storage device, 22 ... Controller, 23 ... Converter, 24 ... Generator, 100 ... Bone conduction microphone, 200 ... Speaker, 211 ... Speech enhancement program, 212 ... Sound quality Table, 213 ... model database, 300 ... learning device, 310 ... storage device, 311 ... learning program, 312 ... learning data, 320 ... learning unit, 330 ... learning model, C1, C3 ... speech code, C2, C4 ... sound quality code , D1-D4 ... Decoder, E1, E2 ... Encoder

Claims (5)

人の体に接触して声帯振動を検出する振動検出素子と、
前記振動検出素子が検出した前記声帯振動のデータを第一発話コードと第一音質コードに変換する第一変換器と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する第二変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
前記第一変換器が変換した前記第一発話コードと前記記憶装置が記憶する前記第二音質コードとに基づいて、音声を強調した音声強調データを生成する生成器と、
を備える骨伝導マイクロホン。
A vibration detection element that detects vocal cord vibration in contact with the human body,
A first converter that converts the vocal cord vibration data detected by the vibration detection element into a first utterance code and a first sound quality code.
The second converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code, converts the voice data into the second utterance code and the second sound quality. A storage device that stores the second sound quality code when converted to a code, and
A generator that generates speech enhancement data in which speech is emphasized based on the first utterance code converted by the first converter and the second sound quality code stored in the storage device.
Bone conduction microphone with.
前記第一変換器は、前記第一発話コードと前記第一音質コードから前記声帯振動のデータを復元する第一デコーダと組み合わせられた場合に第一オートエンコーダを形成する第一エンコーダである、
請求項1に記載の骨伝導マイクロホン。
The first transducer is a first encoder that forms a first autoencoder when combined with a first utterance code and a first decoder that restores vocal cord vibration data from the first sound quality code.
The bone conduction microphone according to claim 1.
前記第二変換器は、前記第二発話コードと前記第二音質コードから前記音声データを復元する第二デコーダと組み合わせられた場合に第二オートエンコーダを形成する第二エンコーダである、
請求項1または2に記載の骨伝導マイクロホン。
The second converter is a second encoder that forms a second autoencoder when combined with the second utterance code and the second decoder that restores the voice data from the second sound quality code.
The bone conduction microphone according to claim 1 or 2.
人の体に接触して声帯振動を検出する骨伝導マイクロホンが備える振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードとに基づいて前記音声データの音声を強調した音声強調データを生成する生成ステップと、
を備える骨伝導マイクロホンの音声強調方法。
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element of the bone conduction microphone that comes into contact with the human body to detect vocal cord vibration into the first speech code and the first sound quality code.
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second speech code and the second sound quality code converts the voice data into the second speech code and the second sound quality code. The voice data is read from the storage device that stores the second sound quality code at the time of conversion, and the voice data is based on the read second sound quality code and the first speech code converted in the conversion step. A generation step to generate voice-enhanced data that emphasizes the voice of
Speech enhancement method for bone conduction microphones.
人の体に接触して声帯振動を検出する振動検出素子と、
前記声帯振動によって空気が振動することにより生じる人の声の音声データを第二発話コードと第二音質コードに変換する変換器が、前記音声データを前記第二発話コードと前記第二音質コードに変換したときの、前記第二音質コードを記憶する記憶装置と、
を備える骨伝導マイクロホンの音声強調プログラムであって、
コンピュータに、
前記振動検出素子から取得した前記声帯振動のデータを第一発話コードと第一音質コードに変換する変換ステップと、
前記記憶装置から前記第二音質コードを読み出し、読み出した前記第二音質コードと前記変換ステップで変換した前記第一発話コードに基づいて、音声を強調した音声強調データを生成する生成ステップと、
を実行させるための音声強調プログラム。
A vibration detection element that detects vocal cord vibration in contact with the human body,
The converter that converts the voice data of the human voice generated by the vibration of the air due to the vocal band vibration into the second utterance code and the second sound quality code converts the voice data into the second utterance code and the second sound quality code. A storage device that stores the second sound quality code at the time of conversion,
A speech enhancement program for bone conduction microphones
On the computer
A conversion step for converting the vocal cord vibration data acquired from the vibration detection element into a first utterance code and a first sound quality code, and
A generation step of reading the second sound quality code from the storage device and generating voice-enhanced data based on the read second sound quality code and the first utterance code converted in the conversion step.
A speech enhancement program to execute.
JP2020178602A 2020-10-26 2020-10-26 Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program Pending JP2022069766A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020178602A JP2022069766A (en) 2020-10-26 2020-10-26 Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020178602A JP2022069766A (en) 2020-10-26 2020-10-26 Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program

Publications (1)

Publication Number Publication Date
JP2022069766A true JP2022069766A (en) 2022-05-12

Family

ID=81534446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020178602A Pending JP2022069766A (en) 2020-10-26 2020-10-26 Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program

Country Status (1)

Country Link
JP (1) JP2022069766A (en)

Similar Documents

Publication Publication Date Title
JP6465077B2 (en) Voice dialogue apparatus and voice dialogue method
Nakamura et al. Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech
US8140326B2 (en) Systems and methods for reducing speech intelligibility while preserving environmental sounds
JP4355772B2 (en) Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program
Tran et al. Improvement to a NAM-captured whisper-to-speech system
JP4914295B2 (en) Force voice detector
KR101475894B1 (en) Method and apparatus for improving disordered voice
JP5494468B2 (en) Status detection device, status detection method, and program for status detection
Maruri et al. V-Speech: noise-robust speech capturing glasses using vibration sensors
JP6316425B2 (en) Hearing aid using fundamental frequency correction
JP2023123694A (en) Computer program, server device, terminal device and voice signal processing method
WO2008015800A1 (en) Speech processing method, speech processing program, and speech processing device
JP6468258B2 (en) Voice dialogue apparatus and voice dialogue method
JP5803125B2 (en) Suppression state detection device and program by voice
KR102198598B1 (en) Method for generating synthesized speech signal, neural vocoder, and training method thereof
JP2016151736A (en) Speech processing device and program
JP2001188779A (en) Device and method for processing information and recording medium
Kwon et al. Voice frequency synthesis using VAW-GAN based amplitude scaling for emotion transformation
JP7339151B2 (en) Speech synthesizer, speech synthesis program and speech synthesis method
JP7360814B2 (en) Audio processing device and audio processing program
JP2022069766A (en) Bone conduction microphone, method for enhancing voice of bone conduction microphone, and voice enhancement program
JP2021108843A (en) Cognitive function determination apparatus, cognitive function determination system, and computer program
JP6791816B2 (en) Voice section detection device, voice section detection method, and program
JP2006259641A (en) Voice recognition device and program
JP4883750B2 (en) Acoustic rating device and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20241001