JP2008042740A - Non-audible murmur pickup microphone - Google Patents

Non-audible murmur pickup microphone Download PDF

Info

Publication number
JP2008042740A
JP2008042740A JP2006217028A JP2006217028A JP2008042740A JP 2008042740 A JP2008042740 A JP 2008042740A JP 2006217028 A JP2006217028 A JP 2006217028A JP 2006217028 A JP2006217028 A JP 2006217028A JP 2008042740 A JP2008042740 A JP 2008042740A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
microphone
nam
voice
audible
non
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006217028A
Other languages
Japanese (ja)
Inventor
Yoshitaka Nakajima
淑貴 中島
Original Assignee
Nara Institute Of Science & Technology
国立大学法人 奈良先端科学技術大学院大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a non-audible murmur pickup microphone (NAM microphone) capable of picking up a non-audible voice, and converting it into a voice signal that a listener and a voice recognition means easily recognize and then outputting the voice signal with simple constitution.
SOLUTION: The NAM microphone X includes an NAM propagation unit 12 as a soft member which is brought into contact with a skin surface 1a to propagate a non-audible murmur (NAM) propagated in the human body, a microphone 11 which transduces the NAM propagated in the NAM propagation unit 12 into an electric signal, and a high-pass filter 22 which performs high-pass filter processing of about 1000 Hz in cutoff frequency for a signal of a voice obtained by the microphone 11.
COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、非可聴つぶやき音声を採取する非可聴つぶやき音声採取用マイクロホンに関するものである。 The present invention relates to a non-audible murmur sampled microphone for collecting non-audible murmur.

昨今、携帯電話機及びその通信網の普及により、いつでもどこでも他の人と音声(会話)によるコミュニケーションをとることが可能となっている。 In recent years, the spread of mobile phone and its communications network, it is possible to take a communication through anytime, anywhere other people and voice (conversation). さらに、音声認識手段を備えたパーソナルコンピュータやカーナビゲーション装置等の各種の装置が、音声の指令に応じて処理を実行することも可能となっている。 Moreover, various devices such as a personal computer, a car navigation system equipped with a speech recognition means is also capable of executing processing in response to a command voice.
その一方で、電車内や図書館内など、周囲の人への迷惑防止のために発声が制限される状況や、会話の内容が機密事項等であるために発声が制限される状況も多い。 On the other hand, such as in and the library train, situation or utterance for nuisance to the surrounding people is limited, the contents of the conversation situation often is uttered in order to be confidential matters is limited. そのように発声が制限される状況においても、周囲に発声内容が漏れることなく音声通話や装置に対する音声での指令を行うことができれば、音声によるコミュニケーションのさらなるオンデマンド化や、音声による機器の遠隔制御等が促進され、各種業務の効率化にもつながる。 Even in a situation where such uttered is limited, if it is possible to perform the command in the voice for the voice call or apparatus without leaking is uttered contents around, and further on demand of communication by voice, remote equipment by voice control, etc. is promoted, leading to efficiency of various operations.
また、咽頭部(声帯など)に障害があるため通常音声を発声できない障害者であっても、非可聴つぶやき音声であれば発声できる場合が多い。 Further, even handicapped can not be uttered normal voice because of the failure in the throat (such as vocal cords), it can often be uttered as long as it is a non-audible murmur. このため、非可聴つぶやき音声による通話や機器に対する指令が可能になれば、そのような咽頭部の障害者の利便性が格段に向上する。 Therefore, if possible command to call or equipment with non-audible murmur, convenience of disability such pharynx is remarkably improved.
これに対し、特許文献1には、非可聴つぶやき音声(NAM:Non−Audible Murmur)を採取することによって音声入力するコミュニケーションインタフェースシステムが提案されている。 In contrast, Patent Document 1, non-audible murmur: communication interface system for speech input by (NAM Non-Audible Murmur) collected has been proposed. 非可聴つぶやき音声(NAM)は、声帯の規則振動を伴わない音声(無声音)であって、外部からは非可聴な体内軟部組織を伝播する振動音(呼吸音)である。 Non-audible murmur (NAM) is a voice without rules vibration of the vocal cords (voiceless sound), a vibration sound propagating inaudible intracorporeal soft tissue from the outside (breathing sounds). 即ち、人体の声道において生じる声帯の振動を伴わない呼吸音による音声である。 In other words, a voice by breathing sound without vibration of the vocal cords that occurs in the human body of the vocal tract. 例えば、防音室環境において、1〜2m程度離れた周囲の人に聞こえない程度の非可聴音声(呼吸音)を「非可聴つぶやき音声」と定義し、声道(特に、口腔)を絞って声道を通過する空気の流速を上げることにより、1〜2m程度離れた周囲の人に聞こえる程度に無声音を発声する可聴音声を「可聴ささやき音声」と定義する。 For example, in a soundproof room environment, the non-audible voice to the extent that not hear the people around you away about 1~2m (breathing sound) is defined as "non-audible murmur", squeeze the vocal tract (in particular, the oral cavity) voice by increasing the flow rate of air passing through the road, an audible sound to be uttered unvoiced degree audible to people around apart about 1~2m defined as "audible whisper audio".
このような非可聴つぶやき音声の信号は、音響空間の振動を検知する通常のマイクロホンでは採取できないため、通常、体内の肉伝導音を採取する肉伝導マイクロホンにより採取される。 Signals of such non-audible murmur, because not be collected in the usual microphone for detecting vibration of the acoustic space, usually collected by meat conduction microphone for collecting a body flesh conduction sound. この肉伝導マイクロホンは、従来、主として非可聴ささやき音声(NAM)の採取に用いられるため、NAMマイクロホンとも呼ばれ、その詳細は、特許文献1等に示されている。 The meat conduction microphone is conventionally for use mainly taken inaudible whisper speech (NAM), also called NAM microphone, its details are shown in Patent Document 1 or the like.
このNAMマイクロホン(肉伝導マイクロホン)は、人体の皮膚表面に密着されることにより非可聴つぶやき音声を伝播させるシリコン等からなる軟性部材と、その軟性部材を伝播する非可聴つぶやき音声を電気信号に変換するマイクロホンとを備えている。 The NAM microphone (meat conduction microphone) is converted a flexible member made of silicon or the like for propagating the non-audible murmur by being in close contact with the human skin surface, the non-audible murmur to propagate the flexible member into an electrical signal and a microphone for. そして、NAMマイクロホンは、耳介の下方部における頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面に前記軟性部材が密着するよう装着され、声道で発生して体内の軟組成(骨以外の筋肉や脂肪など)を伝わる肉伝導音(非可聴ささやき音声)を採取する。 Then, NAM microphone immediately below the mastoid of the skull in the lower part of the auricle, is attached to close contact said flexible member to the skin surface on the sternoclavicular papillary muscle, the body of soft composition occurring in the vocal tract ( meat conduction sound transmitted through the muscle and fat, etc.) other than the bone (non-audible whisper voice) are collected.
ここで、NAMマイクロホンは、主として人体の軟組成を経由して伝播してくる音のみを採取するため、周囲の騒音(ノイズ音)が大きい場合であっても、人体がノイズ除去フィルタの機能を果たし、SN比の高い音響信号を採取することができる。 Here, NAM microphone, to collect only the sound coming propagated via primarily human soft composition, even when ambient noise (noise sound) is large, the human body functions of the noise removal filter plays, can be collected with a high SN ratio acoustic signal. 即ち、NAMマイクロホンは、空中を伝播する音響に対する耐ノイズ性が高い。 That, NAM microphone has a high noise immunity for sound propagating in the air.

ところで、可聴ささやき音声は、十分な音量に増幅さえすれば、特段の訓練を受けていない一般的な人によってもその発話内容を高い認識率で聴き取ることができる。 By the way, audible whisper voice, if even amplified in sufficient volume, it is possible to take listening to the speech content also by common people who have not received special training at a high recognition rate.
一報、非可聴つぶやき音声は、その音声を単に増幅しても、受話者が発話内容を聴き取りにくい(認識率が低い)という問題点がある。 Inform the non-audible murmur can be simply amplifying the audio, there is a problem that the listener is hard to hear the speech contents (low recognition rate). このことは、音声認識手段においても同様である。 This also applies to the speech recognition means.
これに対し、例えば非特許文献1には、統計的スペクトル変換法によるモデルの一例である混合正規分布モデルに基づいて、NAMマイクロホン(肉伝導マイクロホン)により得られる非可聴つぶやき音声の信号を、通常発声した音声(有声音)の信号に変換する技術が示されている。 In contrast, for example, in Non-Patent Document 1, based on the Gaussian mixture model is an example of a model by statistical spectrum conversion method, the non-audible murmur of a signal obtained by NAM microphone (meat conduction microphone), usually technique for converting a signal uttered voice (voiced) are shown.
また、特許文献2には、2つのNAMマイクロホン(肉伝導マイクロホン)により得られる非可聴つぶやき音声の信号のパワーの比較により、通常の発声音(有声音)のピッチ周波数を推定し、その推定結果に基づいて、非可聴つぶやき音声の信号を通常発声した音声(有声音)の信号に変換する技術が示されている。 In Patent Document 2, by comparing the power of the non-audible murmur of a signal obtained by the two NAM microphone (meat conduction microphone), to estimate the pitch frequency of a normal utterance (voiced) result the estimated based on a technique for converting a signal of the speech (voiced) the signal of non-audible murmur was normal utterance is shown.
これら非特許文献1や特許文献1に示される技術を用いることにより、体内伝導マイクロホンを通じて得られた非可聴つぶやき音声の信号を、受話者が比較的聴き取りやすい通常音声(有声音)の信号に変換できる。 By using these non-patent document 1 or technology disclosed in Patent Document 1, the non-audible murmur signal obtained through the body conduction microphone, the signal of the receiver's relatively Listening easy normal speech (voiced) It can be converted.
WO2004/021738号パンフレット WO2004 / 021738 pamphlet 特開2006−086877号公報 JP 2006-086877 JP

しかしながら、音声変換モデルに基づいて非可聴つぶやき音声を通常の可聴音声に変換するという従来技術(特許文献1や特許文献2に示される技術)は、その変換に要する時間だけ音声信号伝送の遅延が生じるという問題点を有していた。 However, the prior art of converting non-audible murmur based on sound conversion model the normal audible speech (technique shown in Patent Documents 1 and 2), the delay of the audio signal transmission by the time required for the conversion We had a problem that arises points. さらに、その従来技術を実現する装置は、音声変換モデルに基づく信号変換処理を実行する演算手段(マイクロコンピュータ)等が必要となることから、電力消費量が比較的大きく、コストも高いという問題点を有していた。 Furthermore, the prior art to realize a device, since it is required calculation means (microcomputer) or the like to execute the signal conversion processing based on the sound conversion model, the power consumption is relatively large, a problem that the cost is high the had. ここで、音声通話や機器に対する音声での指令を行う場合、携帯型或いは身体装着型の音声の入出力装置を構成する必要があるが、その場合、電力消費量が大きいという問題は、十分な連続使用時間を確保できないという問題点にもつながる。 Here, when the instruction of voice for voice communications and equipment, portable or it is necessary to configure the body-worn audio input and output devices, in which case the problem of large power consumption, sufficient also it leads to a problem that can not be ensured the continuous use time.
また、特許文献2にも示されるように、非可聴つぶやき音声は、声帯の規則振動を伴わない無声音である。 Further, as shown in Patent Document 2, a non-audible murmur is unvoiced without rules vibration of the vocal cords. そして、特許文献1や特許文献2に示されるように、無声音である非可聴つぶやき音声の信号を通常音声(有声音)の信号へ変換する場合、声道による音響的な特徴量の変換特性(入力信号の特徴量から出力信号の特徴量への変換特性)を表す声道特徴量変換モデルと、音源(声帯)による音響的な特徴量の変換特性を表す声帯特徴量変換モデルとを組み合わせた音声変換モデルが用いられる。 Then, as shown in Patent Documents 1 and 2, to convert the non-audible murmur signal is unvoiced to the normal signal of the speech (voiced), characteristics of the acoustic feature quantity by the vocal tract ( a combination of the vocal tract feature transformation model from the feature of an input signal representative of a conversion characteristic) of the characteristic quantity of the output signal, and a vocal feature transformation model representative of the characteristics of the acoustic feature quantity by the sound source (vocal cords) voice conversion model is used. このような音声変換モデルを用いた処理は、声の高さの情報に関して「無」から「有」を作り出す(推定する)処理を含むこととなる。 Such speech conversion model treatment with the (estimated) create a "Yes" from the "free" for information on voice pitch will contain the process. このため、非可聴つぶやき音声の信号を通常音声(有声音)の信号へ変換すると、イントネーションが不自然な音声や本来発声していない誤った音声を含む信号が得られてしまい、受話者や音声認識手段の音声認識率が低下するという問題点があった。 Therefore, when converting the signal of non-audible murmur to the normal signals of audio (voiced), intonation will be signals comprising voice erroneous that not speaking unnatural voice and originally obtained, listener and sound speech recognition rate of the recognition means is disadvantageously reduced.
従って、本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ごく簡易な構成により、非可聴つぶやき音声を採取し、これを受話者や音声認識手段が認識しやすい音声信号に変換して出力することができる非可聴つぶやき音声採取用マイクロホン(NAMマイクロホン)を提供することにある。 Accordingly, the present invention has been made in view of the above circumstances, it is an object of the very simple configuration, the non-audible murmur sampled, which was recognized the listener and speech recognition means sensitive voice and to provide a non-audible murmur sampled microphone that can be output into a signal (NAM microphone).

上記目的を達成するために本発明は、次の(1)〜(3)に示す構成要素を備えることにより、非可聴つぶやき音声(人体の声道において生じる声帯の振動を伴わない呼吸音による音声)を採取する非可聴つぶやき音声採取用マイクロホン(以下、NAMマイクロホンという)である。 To accomplish the above object, the speech by by providing the components shown in the following (1) to (3), the non-audible murmur (breath sound without vibration of the vocal cords occurring in the human vocal tract ) non-audible murmur sampled microphone for collecting (below, a NAM as microphones).
(1)人体の皮膚表面に密着されることにより前記非可聴つぶやき音声を伝播させる軟性部材。 (1) flexible member that propagates the non-audible murmur by being in close contact with the human skin surface.
(2)前記軟性部材を伝播する前記非可聴つぶやき音声を電気信号に変換するマイクロホン。 (2) a microphone that converts the non-audible murmur propagating the flexible member into an electrical signal.
(3)前記マイクロホンにより得られる前記非可聴つぶやき音声の信号に対してハイパスフィルタ処理を施すハイパスフィルタ。 (3) high-pass filter for performing high pass filtering on the non-audible murmur of a signal obtained by the microphone.
ここで、前記ハイパスフィルタのカットオフ周波数は、例えば、800〜1400Hz程度であることが望ましい。 Here, the cut-off frequency of the high-pass filter, for example, it is desirable that about 800~1400Hz. さらにその場合、前記ハイパスフィルタのスロープ特性は、−16〜−14dB/oct程度であることが望ましい。 In that case further, the slope characteristic of the high pass filter is preferably about -16~-14dB / oct.
このように、非可聴つぶやき音声の信号を前記ハイパスフィルタに通して得られる信号(前記ハイパスフィルタの出力信号)は、それを単に増幅するだけで、前記可聴ささやき音声の信号とほぼ同等に聴き取りやすい(認識しやすい)信号になることがわかった。 Thus, the non-audible murmur signal a signal obtained through the high-pass filter (output signal of the high-pass filter) is it simply amplifies the audible whisper almost as audible speech signal cheap was found to be in (recognizable) signal. しかも、前記ハイパスフィルタは、ごく簡易で電力消費が極めて少ない回路により実現できる(例えば、コンデンサと抵抗素子とによって実現できる)。 Moreover, the high-pass filter can be realized by a very small circuit power consumption in a very simple (for example, can be implemented by a capacitor and a resistor element).
なお、一般に、マイクロホンは音声信号を増幅するアンプを備えているが、本発明に係るNAMマイクロホンにおいては、前記マイクロホンと前記ハイパスフィルタとの間で前記非可聴つぶやき音声の信号を増幅するアンプを備えることが望ましい。 In general, the microphone is an amplifier for amplifying the audio signal, in the NAM microphone according to the present invention comprises an amplifier for amplifying the signal of the non-audible murmur between the microphone and the high-pass filter it is desirable.
これにより、音量レベルが低い前記非可聴つぶやき音声の信号を、前記ハイパスフィルタの入力信号として十分なレベルに増幅することができる。 Thus, a signal volume level is low the non-audible murmur can be amplified to a sufficient level as an input signal of the high pass filter.

本発明に係るNAMマイクロホンよれば、非可聴つぶやき音声を採取することにより、受話者にとって聴き取りやすい音声信号を得ることができる。 According NAM microphone according to the present invention, by taking a non-audible murmur can be obtained easily audio signals to hear for the listener. その聴き取りやすさは、前記可聴ささやき音声と同程度である。 Its Listening ease is comparable with the audible murmur sounds.
また、本発明に係るNAMマイクロホンにより得られる音声は、従来手法により得られる通常音声(非可聴音声の信号を、声道特徴量変換モデルと音源特徴量変換モデルとを組合せたモデルに基づいて変換した通常音声(有声音))のように、イントネーションが不自然な音声や本来発声していない誤った音声を含むことがなく安定している。 The audio obtained by NAM microphone according to the present invention, a signal of the normal sound (non-audible speech obtained by a conventional technique, conversion based on the model of a combination of a vocal tract feature value conversion model and the sound source feature transformation model the usual such as voice (voiced sound)), intonation is stable without including the voice that wrong that not speaking unnatural voice and original.
さらに、本発明によれば、音声変換モデルに基づく信号変換処理(比較的負荷の高い処理)が不要であり、音声信号伝送の遅延が生じず、その処理を実行する演算手段(マイクロコンピュータ)等も不要である。 Furthermore, according to the present invention, a required-speech model-based signal conversion processing (relatively high load process) causes no delay of the audio signal transmission, calculation means (microcomputer) or the like for executing the processing it is also unnecessary. このため、本発明に係るNAMマイクロホンは、携帯電話機や身体装着型の機器などの小型の機器に組み込まれるような場合でも、機器の重量や体積の増大や、連続使用時間の短縮を招くことがほとんどない。 Therefore, NAM microphone according to the present invention, even if a mobile phone or as incorporated into small devices such as wearable devices, the weight and volume increase in the equipment, can lead to shortening of the continuous use time rare.

以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理解に供する。 With reference to the accompanying drawings, a description of embodiments of the present invention, it provides an understanding of the present invention. 尚、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格のものではない。 The following embodiments are merely examples embodying the present invention, not intended to limit the technical scope of the present invention.
ここに、図1は本発明の実施形態に係るNAMマイクロホンXの概略構成図(一部ブロック図)、図2はNAMマイクロホンXが人体に装着された状態を表す模式図、図3は非可聴つぶやき音声の声紋と可聴ささやき音声の声紋とを表す図、図4はNAMマイクロホンXの第1評価実験(自然性評価実験)の結果を表すグラフ、図5はNAMマイクロホンXの第2評価実験(単語認識精度評価実験)の結果を表すグラフである。 Here, FIG. 1 is a schematic structural diagram of a NAM microphone X according to the embodiment of the present invention (partial block diagram), Figure 2 is a schematic view showing a state in which the NAM microphone X is attached to a human body, FIG. 3 is inaudible diagram showing the voiceprint of murmur voice voiceprint and audible whisper voice, 4 is a graph representing the result of the first evaluation experiment of NAM microphone X (natural evaluation experiment), Figure 5 is a second evaluation experiment of NAM microphone X ( it is a graph representing the word accuracy evaluation experiment) results.

まず、図1を参照しつつ、本発明の実施形態に係るNAMマイクロホンXの構成について説明する。 First, referring to FIG. 1, the configuration of the NAM microphone X according to the embodiment of the present invention.
ここで、図1(a)は、NAMマイクロホンXの全体構成図、図1(b)は、NAMマイクロホンXの一部を構成する音声検出部10の正面図(皮膚への接触面側から見た図)、図1(c)は、NAMマイクロホンXの一部を構成する信号処理部20の構成を表すブロック図である。 Here, FIG. 1 (a), an overall configuration diagram of a NAM microphone X, FIG. 1 (b), seen from the contact surface side of the front view of the voice detection unit 10 constituting a part of a NAM microphone X (to the skin and FIG.), 1 (c) is a block diagram showing a configuration of a signal processing unit 20 which constitutes a part of a NAM microphone X. なお、図1(a)において、音声検出部10については断面図を示している。 Incidentally, in FIG. 1 (a), a cross-sectional view for speech detection section 10.
NAMマイクロホンXは、人体の声道において生じる声帯の振動を伴わない呼吸音による音声である非可聴つぶやき音声(NAM)を採取する非可聴つぶやき音声採取用マイクロホンである。 NAM microphone X is a non-audible murmur for collecting microphone for a certain harvesting the non-audible murmur (NAM) in the voice due to breathing sounds without vibration of the vocal cords that occurs in the human body of the vocal tract.
図1(a)に示すように、NAMマイクロホンXは、音声検出部10と、信号処理部20と、それらを接続する信号線30とを備え、信号処理部20は、耳装着用筐体27に収容されている。 As shown in FIG. 1 (a), NAM microphone X includes a voice detector 10, a signal processing unit 20, and a signal line 30 connecting them, the signal processing unit 20, earpiece housing 27 It is housed in.
音声検出部10は、人体の皮膚表面に装着されることにより、人体の声道によって発生し、体内軟部組織(主として肉の部分)を伝播する非可聴つぶやき音声(NAM)の振動を電気信号に変換するものである。 Speech detector 10, by being mounted on the human skin surface, caused by the body of the vocal tract, into an electrical signal vibrations of the non-audible murmur (NAM) for propagating the body soft tissue (mainly piece of meat) it is intended to be converted.
また、信号処理部20は、音声検出部10による検出信号(音声信号)に対する各種の処理(信号増幅処理や外部機器への伝送処理等)を行うものである。 The signal processing unit 20 performs the detection signal by the voice detection unit 10 various kinds of processing with respect to (audio signal) (transmission processing to the signal amplification processing or external device, etc.).

以下、図1(a)及び図1(b)を参照しつつ、音声検出部10について説明する。 Hereinafter, with reference to FIGS. 1 (a) and 1 (b), will be described voice detecting unit 10.
この音声検出部10は、マイクロホン11と、NAM伝播部12と、内側カバー部材13と、粘着遮音部14と、外側カバー部材15とを備えて構成されている。 The audio detector 10, a microphone 11, a NAM propagation portion 12, an inner cover member 13, the adhesive sound insulation portion 14 is constructed by an outer cover member 15.
NAM伝播部12は、その一面12aが人体1の皮膚表面1aに密着されることにより、人体内を伝播する非可聴つぶやき音声を伝播させる軟性部材である。 NAM propagation unit 12, by one side 12a thereof is in close contact with the skin surface 1a of the body 1, a flexible member that propagates non-audible murmur to propagate human body. このNAM伝播部12は、その音響インピーダンスの特性が、人体における肉部の音響インピーダンスの特性に近い材料、例えば、ウレタンエラストマーやシリコン等により構成されている。 The NAM propagation unit 12, characteristics of the acoustic impedance, the material close to the characteristic acoustic impedance of the wall portion of the human body, for example, composed of a urethane elastomer or silicon. これにより、非可聴つぶやき音声を、人体(皮膚)からNAM伝播部12へ効率的に伝播させることができる。 Thus, the non-audible murmur can be efficiently propagated from the human body (skin) to the NAM propagation portion 12.
マイクロホン11は、NAM伝播部12(軟性部材)を伝播する非可聴つぶやき音声(振動)を電気信号に変換するものである。 Microphone 11 is used to convert NAM propagation portion 12 a non-audible murmur to propagate (soft member) (vibration) into electric signals. このマイクロホン11は、音声の振動を感知する感音部(図1(a)における左側面)の全体がNAM伝播部12に対して直接接触している。 The microphone 11, the whole sensitive clef sense vibrations of sound (left side in FIG. 1 (a)) is in contact directly against NAM propagation portion 12. これにより、マイクロホン11は、NAM伝播部12の振動(音声)を高感度で検出する。 Thus, the microphone 11 detects the vibration of the NAM propagation portion 12 (voice) with high sensitivity. このマイクロホン11の出力信号(非可聴つぶやき音声の信号)は、信号線30を通じて信号処理部20へ伝送される。 The output signal of the microphone 11 (signal of the non-audible murmur) is transmitted through a signal line 30 to the signal processing section 20.
内側カバー部材13は、NAM伝播部12の皮膚表面1aとの接触面(以下、皮膚接触面12aという)以外の部分全体を覆うものである。 The inner cover member 13, the contact surface between the skin surface 1a of the NAM propagation portion 12 (hereinafter, referred to as the skin-contacting surface 12a) is intended to cover the entire portion other than. 即ち、内側カバー部材13は、一の面が開口状態となった容器状の部材であり、その内側に、マイクロホン11が収容されるとともに、NAM伝播部12(軟性部材)がほぼ隙間なく充填された状態(NAM伝播部12の中にマイクロホン11が埋め込まれた状態)となっている。 That is, the inner cover member 13, one surface is a container-like member having an opening state, on its inside, with a microphone 11 is accommodated, NAM propagation portion 12 (flexible member) is filled substantially with no gap state has (microphone 11 in the NAM propagation portion 12 is embedded state) that.
粘着遮音部14は、粘着性のある軟性部材であるウレタンエラストマーからなり、内側カバー部材13の外側全体を覆うように形成されている。 Adhesive sound insulation portion 14 is made of urethane elastomer is a soft material that is tacky, and is formed to cover the entire outside of the inner cover member 13. さらに、粘着遮音部14は、人体1の皮膚表面1aに接触して粘着する部分(以下、皮膚接着部14aという)を有している。 Furthermore, the adhesive sound insulation part 14, part of the adhesive in contact with the skin surface 1a of the body 1 (hereinafter, referred to as skin-adhesive portion 14a) has a. この皮膚接着部14aは、NAM伝播部12における皮膚1aとの接触面(以下、皮膚接触面12aという)の周り全体に渡って形成されている。 The skin adhesion portion 14a, the contact surface between the skin 1a in NAM propagation portion 12 (hereinafter, referred to as the skin-contacting surface 12a) is formed over the entire circumference of the.
また、外側カバー部材15は、粘着遮音部14の前記皮膚接着部14a以外の外側全体を覆うものであり、音声検出部10の外装を形成するものである。 Further, the outer cover member 15, which covers the entire outer than the skin adhesion portion 14a of the adhesive sound insulation part 14, and forms an exterior of the speech detection section 10. 即ち、外側カバー部材15は、一の面が開口状態となった容器状の部材であり、その内側に、NAM伝播部12及びマイクロホン11を内包する内側カバー部材13が収容されるとともに、粘着遮音部14(ウレタンエラストマー)がほぼ隙間なく充填された状態となっている。 That is, the outer cover member 15, one surface is a container-like member having an opening state, on its inside, with inner cover member 13 which encloses the NAM propagation portion 12 and the microphone 11 is accommodated, adhesive sound insulation part 14 in a state of (urethane elastomer) is filled substantially with no gap.

ここで、粘着遮音部14は、その皮膚接着部14aが皮膚表面1aに対して粘着することにより、NAM伝播部12の皮膚接触面12aを皮膚表面1aに密着させるとともに、当該音声検出部10を人体に対して接着した状態(装着状態)に保持するものである。 Here, the adhesive sound insulation part 14, by the skin adhesion section 14a from sticking to the skin surface 1a, the skin-contacting surface 12a of the NAM propagation portion 12 together to close contact with the skin surface 1a, the voice detection unit 10 it is intended to hold the bonding state (mounted state) to the human body. なお、NAM伝播部12をウレタンエラストマー(粘着性の軟性部材)によって構成することにより、NAM伝播部12の皮膚接触面12aと皮膚接着部14aとの両方が皮膚表面1aに対して粘着し、当該音声検出部10がより強固に人体に対して保持されるので好適である。 Incidentally, by forming the NAM propagation portion 12 by urethane elastomer (adhesive flexible member), both the skin-contacting surface 12a and a skin adhesion portion 14a of the NAM propagation portion 12 is adhered to the skin surface 1a, the it is suitable because the voice detecting unit 10 can be more firmly held to the human body.
また、粘着遮音部14は、内側カバー部材13の外側全体を覆うとともに、NAM伝播部12の皮膚接触面12aの周り全体で皮膚接着部14aが皮膚表面1aに接着することにより、空気中を伝播する外乱音響がマイクロホン11に浸入することを防ぐ遮音材としても機能する。 Further, the adhesive sound insulation portion 14 covers the entire outside of the inner cover member 13, by the skin adhesion section 14a is adhered to the skin surface 1a in all around the skin-contacting surface 12a of the NAM propagation portion 12, propagating in air disturbance sound which also functions as a sound insulator to prevent entering the microphone 11.

次に、図1(c)を参照しつつ、信号処理部20の構成について説明する。 Next, referring to FIG. 1 (c), the description will be given of a configuration of the signal processing unit 20.
信号処理部20は、アンプ21、ハイパスフィルタ22、A/D変換部23、無線通信部24、アンテナ25及びバッテリ26を備えて構成されている。 The signal processing unit 20 includes an amplifier 21, a high-pass filter 22, A / D converter 23, the wireless communication unit 24 is configured by an antenna 25 and a battery 26.
アンプ21は、音声検出部10から伝送されてくる非可聴つぶやき音声の信号(マイクロホン11により得られる音声の信号)を増幅するものである。 Amplifier 21 is for amplifying the non-audible murmur signal transmitted from the sound detector 10 (signal of the speech obtained by the microphone 11).
ハイパスフィルタ22は、音声検出部10から伝送されてくる非可聴つぶやき音声の信号(マイクロホン11により得られる音声の信号)に対してハイパスフィルタ処理を施し、処理後の信号を後段の回路へ出力するものである。 The high-pass filter 22 performs high-pass filtering process on the non-audible murmur signal transmitted from the sound detector 10 (signal of the speech obtained by the microphone 11), and outputs the processed signal to the subsequent circuit it is intended.
ここで、アンプ21は、音声検出部10におけるマイクロホン11とハイパスフィルタ22との間に配置され、ハイパスフィルタ22に入力される前の非可聴つぶやき音声の信号を増幅する。 Here, the amplifier 21 is disposed between the microphone 11 and the high-pass filter 22 in the sound detector 10, amplifies the non-audible murmur signal before being input to the high-pass filter 22.
これにより、音量レベルが低い非可聴つぶやき音声の信号を、ハイパスフィルタ22の入力信号として十分なレベルに増幅することができる。 Thus, a signal volume level is lower non-audible murmur can be amplified to a sufficient level as an input signal of the high-pass filter 22.
図1(c)に示すハイパスフィルタ22は、コンデンサと抵抗素子とにより構成されるごく簡易なC−R回路(微分回路)である。 High-pass filter 22 shown in FIG. 1 (c) is a very simple C-R circuit composed of a capacitor and a resistor element (differentiating circuit). 例えば、そのコンデンサ容量を0.1μF程度、抵抗値を1.6kΩ程度とすることが考えられる(カットオフ周波数≒1kHz)。 For example, 0.1ĩF about its capacitance, it is conceivable to about 1.6kΩ resistor value (cut-off frequency ≒ 1 kHz).

A/D変換部23は、アンプ21により増幅され、ハイパスフィルタ22によりフィルタ処理が施された非可聴音声の信号(アナログ信号)を、所定のサンプリング周波数でデジタル信号に変換するものである。 A / D converter 23 is amplified by the amplifier 21, it converts the non-audible speech signal filtering has been performed by the high-pass filter 22 (analog signal) into a digital signal at a predetermined sampling frequency. 例えば、A/D変換部23は、8kHz程度のサンプリング周波数でA/D変換を行う。 For example, A / D conversion unit 23 performs A / D conversion at a sampling frequency of about 8 kHz.
無線通信部24は、A/D変換部23によってデジタル化された非可聴音声信号を、通信機能を備えた外部装置に対してアンテナ25を通じて無線送信するものである。 The wireless communication unit 24 is for the non-audible speech signal digitized by the A / D converter 23, and wirelessly transmitted via the antenna 25 to an external device having a communication function. 例えば、周知のBluetoothの通信規格に従って、デジタル音声信号を外部装置に送信する。 For example, according to well known Bluetooth communication standard, and transmits the digital audio signal to an external device.
バッテリ26は、信号処理部20を構成する各機器(アンプ21、A/D変換部23、無線通信部24)に対して電力を供給するものである。 Battery 26, each apparatus in the signal processing unit 20 (amplifier 21, A / D converter 23, the wireless communication unit 24) and supplies power to. また、バッテリ26は、音声検出部10のマイクロホン11が駆動電力を必要とするもの(例えば、バイアス型のコンデンサマイクロホン等)である場合、そのマイクロホン11に対しても電力供給を行う。 The battery 26 is, when it is intended to microphone 11 of the voice detector 10 requires a drive power (e.g., biased condenser microphone, etc.) and supplies power also to the microphone 11. もちろん、マイクロホン11が、駆動電力を必要としないもの(例えば、バックエレクトレット型のコンデンサマイクロホン等)である場合には、音声検出部10側への電力供給は要しない。 Of course, the microphone 11, which does not require a driving power (for example, a back electret type condenser microphone, etc.) If it is, the does not require electric power supply to the voice detection unit 10 side.

図2はNAMマイクロホンXが人体に装着された状態を表す模式図である。 Figure 2 is a schematic view showing a state in which the NAM microphone X mounted on the human body.
図2に示すように、音声検出部10は、耳介の下方部における頭蓋骨の乳様突起直下の、胸鎖乳頭筋上の皮膚表面に、NAM伝播部12の皮膚接触面12aが密着するようにして人体に装着(粘着遮音部14により粘着)される。 As shown in FIG. 2, the speech detector 10, immediately below the mastoid of the skull in the lower part of the ear, to the skin surface on the sternoclavicular papillary muscle, so that the skin-contacting surface 12a of the NAM propagation portion 12 is in close contact is (adhesive by the adhesive sound insulating portion 14) attached to a human body in the. これにより、声道で発生した非可聴つぶやき音声(NAM)が、骨等が障害物となることなく体内の肉部からNAM伝播部12へ効率的に伝播する。 Thus, the non-audible murmur occurring in the vocal tract (NAM) is efficiently propagated from the wall portion of the body without bones or the like is an obstacle to the NAM propagation portion 12.
また、信号処理部20は、その筐体である耳装着用筐体27が耳に係合することにより人体に装着される。 The signal processing unit 20, earpiece housing 27 which is a housing is attached to the body by engaging the ear.
これにより、ハンズフリー状態で、音声検出部10で検出され、ハイパフフィルタ処理が施された非可聴つぶやき音声の信号が、信号処理部20から外部装置に対して無線伝送される。 Thus, in a hands-free state, is detected by the speech detection section 10, the non-audible murmur signal high puff filter processing has been applied, is wirelessly transmitted to an external device from the signal processing unit 20. 従って、信号処理部20と通信可能な外部装置が、例えば、非可聴つぶやき音声の信号に基づく音声認識機能と、認識した音声に応じて自装置の動作を制御する自動制御機能とを備えれば、NAMマイクロホンXの装着者は、ハンズフリーの状態で、かつ、周囲に音が漏れない非可聴つぶやき音声の発声により、外部装置を遠隔制御することができる。 Thus, the signal processor 20 can communicate with external devices, for example, the voice recognition function based on a signal in the non-audible murmur, if Sonaere an automatic control function for controlling the operation of the apparatus in accordance with the recognized speech , wearer of NAM microphone X is a hands-free state, and, by the utterance of non-audible murmur not leak sound around, it is possible to remotely control the external device.
また、信号処理部20に、外部装置から非可聴つぶやき音声の信号を受信して音声として出力する機器を付加すれば、非可聴つぶやき音声による通話機となる。 Further, the signal processing unit 20, if the additional equipment to be output as a sound by receiving a signal of non-audible murmur from an external device, becomes a talking machine by non-audible murmur. この場合、例えば、無線通信部24に、外部装置から非可聴つぶやき音声の信号を受信する機能を設ける。 In this case, for example, the wireless communication unit 24, provided with a function of receiving a signal of the non-audible murmur from the external device. さらに、信号処理部20に、無線通信部24によって受信した音声信号(ディジタル信号)をアナログ信号に変換するD/A変換部と、D/A変換後の音声信号(アナログ信号)を増幅するアンプと、増幅後の音声信号を出力するスピーカ(イヤホン)とを付加する。 Further, the signal processing unit 20, amplifies the D / A converter for converting audio signals received by the wireless communication unit 24 (digital signal) into an analog signal, D / A converted audio signal (analog signal) amplifier When, it adds a speaker (earphone) for outputting an audio signal after amplification. これにより、NAMマイクロホンXは、非可聴つぶやき音声による通話機となる。 Thus, NAM microphone X becomes a talking machine by non-audible murmur.

ところで、肉伝導音として採取された非可聴つぶやき音声(NAM)と、空気伝導音として採取された可聴ささやき音声とは、いずれも無声音(声帯の振動を伴わない音声)である。 Meanwhile, the non-audible murmur voice (NAM) taken as meat conduction sound, and is audible whisper voice taken as an air conduction sound, are both unvoiced (speech without vibration of the vocal cords). しかしながら、前述したように、非可聴つぶやき音声は、単に増幅しただけではその発話内容を認識し難く(聴き取りにくい)、可聴つぶやき音声は比較的その発話内容を認識しやすい。 However, as described above, the non-audible murmur is simply amplified is difficult to recognize the speech content (hard to hear), audible murmur is easy to recognize the relatively its speech content.
図3は、従来のNAMマイクロホン(フィルタ処理なし)により採取された非可聴つぶやき音声(NAM)の声紋(a)と、一般的なマイクロホンにより空気伝導音として採取された可聴ささやき音声の声紋(b)とを表す図である。 Figure 3 is a conventional NAM microphone voiceprint of non-audible murmur taken by (unfiltered) (NAM) (a), by a general microphone audible whisper voice taken as an air conduction sound voiceprint (b ) and it is a diagram illustrating a.
図3(a)と図3(b)とを比較すると、発話内容を比較的認識しやすいささやき音声(b)に比べ、非可聴つぶやき音声(a)は、750Hz以下の周波数成分の信号強度が強い傾向がある。 Figure 3 (a) and FIG. 3 is compared with the (b), compared to relatively easily recognizable whisper voice utterance (b), the non-audible murmur (a) is the signal strength of the frequency components lower than 750Hz there is a strong trend. これは、非可聴ささやき音声の信号において、750Hzを超える信号成分が、主として発話内容の識別に寄与する信号成分(S)であり、750Hz以下の信号成分が、主として発話内容の識別に寄与しないノイズ成分(N)であることが予想される。 Noise which, in the non-audible whisper signal, the signal components above 750Hz is a mainly contributing signal components to identify the utterance (S), the following signal components 750Hz does not contribute to primarily identify the speech content it is expected that a component (N).

以上のことから、肉伝導音として採取された非可聴つぶやき音声の信号から、750Hz以下の周波数成分をハイパスフィルタ22(即ち、ローカットフィルタ)により除去すれば、SN比が向上することが予想される。 From the above, the non-audible murmur signal taken as meat conduction sound, be removed by the high-pass filter the frequency components lower than 750 Hz 22 (i.e., low-cut filter), it is expected that the SN ratio is improved .
実際に、NAMマイクロホンXにより、非可聴つぶやき音声を採取すると、それを単に増幅するだけで受話者にとって聴き取りやすい(認識しやすい)音声信号が得られることがわかった。 Indeed, the NAM microphone X, when taken non-audible murmur, easy to take (easily recognized) to listen to only the listener simply amplify it was found that the audio signal is obtained. その聴き取りやすさは、前記可聴ささやき音声と同程度である。 Its Listening ease is comparable with the audible murmur sounds.
また、本発明に係るNAMマイクロホンにより得られる音声は、音声変換モデルに基づいて変換した通常音声(有声音)のように、イントネーションが不自然な音声や本来発声していない誤った音声を含むことがなく安定している。 The audio obtained by NAM microphone according to the present invention, as is normal speech which is converted based on the sound conversion model (voiced), to include voice incorrect intonation is not speaking unnatural sound and original It is stable without.
さらに、ハイパスフィルタ22は、携帯電話機や身体装着型の機器などの小型の機器に組み込まれるような場合でも、機器の重量や体積をほとんど増大させることがなく、また、連続使用時間の短縮を招くこともない。 Further, the high-pass filter 22, even if, as incorporated into small devices such as mobile phones or wearable devices, without hardly increase the weight and volume of the equipment, also leading to shortening of the continuous use time nor.
また、NAMマイクロホンXにおいては、音声変換モデルに基づく信号変換処理のように、演算負荷の高い処理が不要であるので、音声信号伝送の遅延が生じない。 In the NAM microphone X, as in the signal conversion processing based on the sound conversion model, since high processing the calculation load is not required, no delay of the audio signal transmission. これにより、非可聴つぶやき音声によるスムーズな対話や機器の遠隔制御を実現することができる。 Thus, it is possible to realize the remote control of smooth dialogue and equipment by non-audible murmur.

次に、NAMマイクロホンXに採用するハイパスフィルタの特性とマイク性能との関係を評価した実験である第1評価実験及び第2評価実験について説明する。 Next, a description will be given of the first evaluation experiment and the second evaluation experiment an experiment of evaluating the relationship between the characteristic of the high-pass filter and a microphone performance employing the NAM microphone X.
第1及び第2評価実験は、いずれも22人の被験者(男性10名、女性12名)が、それぞれ音源や信号処理(ハイパスフィルタ処理)の内容が異なる22種類のサンプル音声(第1〜第22のサンプル音声)を聴き取り、その聴き取りよって得た感覚(評価結果)に従って、予め定められた評価項目について回答するという方式で行われたものである。 First and second evaluation experiment are both 22 subjects (10 males, 12 females) of 22 types of different contents of the sample audio (first to each sound source and signal processing (high pass filtering) to hear 22 of the sample audio) according sensation obtained by listening As (evaluation results), were made in a manner that answer evaluation items determined in advance.
ここで、第1〜第10のサンプル音声は、所定の発話者が、所定のサンプルテキスト(文章、単語を含む)を非可聴つぶやき音声(NAM)で発話したときの肉伝導音を、それぞれカットオフ周波数が200、400、600、…2000Hz(200Hzきざみ)であり、スロープ特性が−120dB/octであるハイパスフィルタを備えたNAMマイクロホンXにより収録されたフィルタ処理後の非可聴ささやき音声である。 Here, first to tenth sample audio of a given speaker are given sample text body transmitted sound when uttered by a non-audible murmur (the sentence containing the word) (NAM), cut respectively off frequency 200, 400, 600, ... it is 2000 Hz (200 Hz increments), slope characteristic is a non-audible whisper after filtering was recorded by NAM microphone X with a high-pass filter is -120 dB / oct.
また、第11〜第20のサンプル音声は、所定の発話者が、前記サンプルテキストを非可聴つぶやき音声で発話したときの肉伝導音を、それぞれカットオフ周波数が200、400、600、…2000Hz(200Hzきざみ)であり、、それぞれスロープ特性が−23.0、−18.6、−16.8、−15.6、−15.0、−14.4、−13.9、−13.6、−13.2及び−13.0dB/octであるハイパスフィルタを備えたNAMマイクロホンXにより収録されたフィルタ処理後の非可聴ささやき音声である。 Further, the sample voice eleventh 20, predetermined speaker is, the sample meat conduction sound when uttered by a non-audible murmur text, each cut-off frequency 200, 400, 600, ... 2000 Hz ( a 200Hz increments) ,, each slope characteristic is -23.0, -18.6, -16.8, -15.6, -15.0, -14.4, -13.9, -13.6 , a non-audible whisper after filtering was recorded by NAM microphone X with a high-pass filter is -13.2 and -13.0dB / oct.
また、第21のサンプル音声は、通常のマイクロホン(空気伝導音を採取するマイクロホン)により収録された前記可聴ささやき音声である。 Further, the sample audio of the 21 is the audible whisper speech was recorded by a conventional microphone (the microphone for collecting the air conduction sound).
また、第22のサンプル音声は、ハイパスフィルタ処理を行わない従来のNAMマイクロホンにより収録された非可聴ささやき音声(NAM)である。 Further, the sample audio of the 22 is a non-audible murmur sound was recorded by conventional NAM microphone is not performed a high-pass filtering (NAM).
また、前記サンプルテキストは、単語数20〜30程度の新聞記事等である。 In addition, the sample text is a word number 20 to 30 about the newspaper articles and the like.
なお、いずれのサンプル音声も、量子化ビット数が16bit、サンプリングレートが8kHzのデジタル音声(PCM音声)として録音し、これを再生した。 Incidentally, one of the sample audio also record the number of quantization bits 16bit, as digital audio sampling rate is 8 kHz (PCM audio), and reproduce it.

<第1評価実験(自然性評価実験)> <First evaluation experiment (natural Evaluation experiment)>
第1評価実験では、22種類のサンプル音声の中から任意に選択した2種類で1組(ペア)のサンプル音声を11組ずつ各被験者に聴き取らせ、各組について、いずれのサンプル音声の方が会話音声として自然であると感じたかを選択させた。 In the first evaluation experiment, 22 kinds of sample audio of the set in two arbitrarily selected from and take listened by 11 sets of sample voice (pairs) in each subject for each set, towards any sample speech There was select whether felt to be a natural as conversational speech. この第1評価実験では、より多くの被験者によって自然であるものとして選択されたサンプル音声が、自然性が高いといえる。 In the first evaluation experiment, more samples sound selected as a natural by subject, it can be said that high naturalness.
図4は、第1評価実験(自然性評価実験)の結果を表すグラフであり、22種類のサンプル信号それぞれについて、被験者により、当該サンプル信号の方が、比較対象となった他のサンプル信号よりも自然であるとして選択された割合(二者択一選択率)を表す。 Figure 4 is a graph showing the results of the first evaluation experiment (Nature Evaluation experiment), each 22 kinds of sample signals, by the subject, who of the sample signal, than other samples signals the comparison subjects also it represents the percentage selected as a natural (alternative selectivity).
図4からわかるように、ハイパスフィルタ処理を施さない非可聴つぶやき音声(第21のサンプル音声v21)は、それが自然であると評価された率(選択率)が5割を下回るのに対し、第15のサンプル音声v15(カットオフ周波数1000Hz、スロープ特性−15.0dB/octのハイパスフィルタ処理)は、それが自然であると評価された率が8割を超えている。 As can be seen from Figure 4, the non-audible murmur not subjected to high-pass filtering (sample audio v21 of 21), compared it to below the 50% rate was estimated to be natural (selectivity), 15 of sample audio v15 (cut-off frequency 1000 Hz, high-pass filtering of the slope characteristic -15.0dB / oct), it exceeds the rate is 80%, which is evaluated as being natural. ここで、可聴ささやき音声(第22のサンプル音声v22)の選択率が9割強であるので、非可聴つぶやき音声に対して単にハイパスフィルタ処理を施すだけで、自然性が可聴ささやき音声に匹敵する程度まで自然性が向上することがわかる。 Since the selectivity of audible whisper speech (sample audio v22 of 22) is over 90 percent, only performs simple high-pass filtering for the non-audible murmur, comparable to voice whisper naturalness audible it can be seen that the improvement is natural to the extent.
また、図4からわかるように、スロープ特性によらず、カットオフ周波数が800〜1200Hzのハイパスフィルタ処理を施した非可聴つぶやき音声(第4〜第6、第14〜第16のサンプル音声信号v4〜v6、v14〜v16)の選択率が6割を超え、自然性の向上が認められる。 Moreover, as can be seen from Figure 4, irrespective of the slope characteristic, the cut-off non-audible murmur the frequency is subjected to high-pass filtering of the 800~1200Hz (fourth to sixth, fourteenth 16 samples the audio signal v4 ~v6, v14~v16) of selectivity of over 60%, is observed improvement of naturalness.
また、図4からわかるように、ハイパスフィルタ処理におけるスロープ特性が急峻(−120dB)な信号よりも、スロープ特性が比較的緩やかな信号(特に、第14〜第20のサンプル信号)の方が、自然性の向上に適している。 Moreover, as can be seen from FIG. 4, than the slope characteristic steep (-120 dB) signals in high-pass filtering, slope characteristic is relatively moderate signal (in particular, the sample signal of the fourteenth 20) towards, It is suitable for the improvement of naturalness.

<第2評価実験(単語認識精度評価実験)> <Second evaluation experiment (word recognition accuracy evaluation experiment)>
第2評価実験では、新聞記事(即ち、意味のある文章)の読み上げ音声である22種類のサンプル音声の中から任意に選択したものを被験者に聴き取らせ、単語の認識精度(被験者が認識した単語の正解率)を評価した。 In the second evaluation experiment, newspaper articles (that is, a sentence of meaning) was taken to listen to a subject that has been arbitrarily selected from among the read-aloud voice and is 22 kinds of sample voice, the words of recognition accuracy (the subject has recognized It was to evaluate the word accuracy rate of).
図5は、第2評価実験(単語認識精度評価実験)の結果を表すグラフであり、22種類のサンプル信号(新聞記事の読み上げ音声)それぞれについて、被験者による単語の認識精度(認識した単語の正解率)を表す。 Figure 5 is a graph showing the results of the second evaluation experiment (word accuracy evaluation experiment), 22 kinds of (speech reading newspaper) for each sample signal, correct the word and recognition accuracy (recognition of a word by the subject It represents the rate).
図5からわかるように、ハイパスフィルタ処理を施さない非可聴つぶやき音声(第21のサンプル音声v21)は、単語認識精度が約85%であるのに対し、第14のサンプル音声v14(カットオフ周波数800Hz、スロープ特性−15.6dB/octのハイパスフィルタ処理)は、単語認識精度が約90%である。 As it can be seen from FIG. 5, the non-audible murmur (21 sample voice v21) not subjected to high-pass filtering, whereas the word recognition accuracy is about 85%, 14 of sample audio v14 (cut-off frequency 800 Hz, high-pass filtering of the slope characteristic -15.6dB / oct), the word recognition accuracy is about 90%.
また、図5からわかるように、カットオフ周波数が200〜1400Hzの範囲で、比較的緩やかなスロープ特性(−23.0〜−13.9dB/oct)のハイパスフィルタ処理を施した非可聴つぶやき音声(第14〜17のサンプル音声信号v14〜v17)は、ハイパスフィルタ処理を施さない非可聴つぶやき音声に比べて同等以上の単語認識精度が得られる。 Moreover, as can be seen from FIG. 5, the range cut-off frequency of 200~1400Hz, non-audible murmur subjected to high-pass filtering of the relatively gentle slope characteristic (-23.0~-13.9dB / oct) (Section 14 to 17 sample audio signal v14~v17 of), it is equal or word recognition accuracy can be obtained as compared with the non-audible murmur not subjected to high-pass filtering.
同様に、スロープ特性が急峻(−120dB/oct)である場合は、カットオフ周波数が200〜600Hzのハイパスフィルタ処理を施した非可聴つぶやき音声(第1〜3のサンプル音声信号v1〜v3)は、ハイパスフィルタ処理を施さない非可聴つぶやき音声に比べて同等以上の単語認識精度が得られる。 Similarly, if the slope characteristic is steep (-120 dB / oct) are non-audible murmur cutoff frequency is subjected to high-pass filtering of the 200~600Hz (first to third sample audio signal V1 to V3) is , is equal or word recognition accuracy can be obtained as compared with the non-audible murmur not subjected to high-pass filtering.
以上より、前記NAMマイクロホンXにおいて、ハイパスフィルタ22のカットオフ周波数を800〜1400Hz程度(特に、800〜1000Hz程度)とし、さらにスロープ特性を−14〜−16dB/oct程度とすることにより、自然で聴き取りやすい(単語を認識しやすい)音声を採取できることがわかる。 In more, the NAM microphone X above, about 800~1400Hz the cutoff frequency of the high-pass filter 22 (in particular, about 800~1000Hz) by a further and -14 to-16 dB / oct about the slope characteristic, natural easy to hear (easy to recognize the word) it can be seen that that can be collected voice.

以上に示した実施形態では、ハイパスフィルタ処理後の非可聴つぶやき音声を無線伝送(送信)するNAMマイクロホンX(無線タイプのマイクロホン)について示したが、これに限るものではない。 In the embodiment described above, it is shown for the non-audible murmur wireless transmission after high-pass filtering (transmitting) to NAM microphone X (wireless type microphones), not limited to this.
例えば、図1に示した前記NAMマイクロホンXから、A/D変換部23及び無線通信部24が除かれ、その代わりに外部装置の音声信号(アナログ)入力端子に接続する出力端子が設けられた有線タイプのNAMマイクロホンも考えられる。 For example, from the NAM microphone X shown in FIG. 1, A / D converter 23 and the radio communication unit 24 is removed and the output terminal connected to the audio signal (analog) input terminal of an external device is provided instead wired type of NAM microphone can also be considered.
また、ハイパスフィルタ22は、750Hz〜1400Hz程度のカットオフ周波数を有するものであれば、CR回路以外の周知の回路により構成されたものも考えられる。 Further, the high-pass filter 22, as long as it has a cutoff frequency of approximately 750Hz~1400Hz, also conceivable that is composed by a well-known circuits other than CR circuit.
また、ハイパスフィルタ22のスロープ特性は、−16dB/oct〜−14dB/oct程度に限るものではない。 Further, the slope characteristic of the high-pass filter 22 is not limited to about -16dB / oct~-14dB / oct.

本発明は、非可聴つぶやき音声を採取するためのマイクロホンに利用可能である。 The present invention is applicable to a microphone for collecting a non-audible murmur.

本発明の実施形態に係るNAMマイクロホンXの概略構成図(一部ブロック図)。 Schematic diagram of a NAM microphone X according to the embodiment of the present invention (partial block diagram). NAMマイクロホンXが人体に装着された状態を表す模式図。 Schematic view illustrating a state where NAM microphone X mounted on the human body. 非可聴つぶやき音声の声紋と可聴ささやき音声の声紋とを表す図。 Figure representing the voice of the voiceprint whisper audible and non-audible murmur voiceprint. NAMマイクロホンXの第1評価実験(自然性評価実験)の結果を表すグラフ。 Graph showing the results of the first evaluation experiment of NAM microphone X (natural Evaluation experiment). NAMマイクロホンXの第2評価実験(単語認識精度評価実験)の結果を表すグラフ。 Graph showing the results of the second evaluation experiment of NAM microphone X (word accuracy evaluation experiment).

符号の説明 DESCRIPTION OF SYMBOLS

X…本発明の実施形態に係る非可聴つぶやき音声採取用マイクロホン10…音声検出部11…マイクロホン12…NAM伝播部13…内側カバー部材14…粘着遮音部15…外側カバー部材20…信号処理部21…アンプ22…ハイパスフィルタ23…A/D変換部24…無線通信部25…アンテナ26…バッテリ27…耳装着用筐体30…信号線 X ... according to the embodiment of the present invention the non-audible murmur sampled microphone 10 ... speech detection unit 11 ... microphone 12 ... NAM propagation portion 13 ... inner cover member 14 ... adhesive sound insulation part 15 ... outer cover member 20 ... signal processing unit 21 ... amplifier 22 ... high-pass filter 23 ... A / D converter 24 ... wireless communication unit 25 ... antenna 26 ... battery 27 ... earpiece housing 30 ... signal line

Claims (4)

  1. 人体の声道において生じる声帯の振動を伴わない呼吸音による音声である非可聴つぶやき音声を採取する非可聴つぶやき音声採取用マイクロホンであって、 A non-audible murmur taken microphone to collect the non-audible murmur, which is a voice by breathing sound without vibration of the vocal cords that occurs in the human body of the vocal tract,
    人体の皮膚表面に密着されることにより前記非可聴つぶやき音声を伝播させる軟性部材と、 A flexible member for propagating the non-audible murmur by being in close contact with the human skin surface,
    前記軟性部材を伝播する前記非可聴つぶやき音声を電気信号に変換するマイクロホンと、 A microphone for converting the non-audible murmur propagating the flexible member into an electrical signal,
    前記マイクロホンにより得られる前記非可聴つぶやき音声の信号に対してハイパスフィルタ処理を施すハイパスフィルタと、 A high pass filter for performing high pass filtering on the non-audible murmur of a signal obtained by the microphone,
    を具備してなることを特徴とする非可聴つぶやき音声採取用マイクロホン。 Non-audible murmur sampled microphone characterized by comprising comprises a.
  2. 前記ハイパスフィルタのカットオフ周波数が略800Hz乃至略1400Hzである請求項1に記載の非可聴つぶやき音声採取用マイクロホン。 The non-audible murmur sampled microphone of claim 1 cut-off frequency of the high pass filter is substantially 800Hz to approximately 1400 Hz.
  3. 前記ハイパスフィルタのスロープ特性が略−16dB/oct乃至略−14dB/octである請求項2に記載の非可聴つぶやき音声採取用マイクロホン。 The non-audible murmur sampled microphone according to claim 2 slope characteristic of the high pass filter is approximately -16 dB / oct to approximately -14 dB / oct.
  4. 前記マイクロホンと前記ハイパスフィルタとの間で前記非可聴つぶやき音声の信号を増幅するアンプを具備してなる請求項1〜3のいずれかに記載の非可聴つぶやき音声採取用マイクロホン。 Non-audible murmur sampled microphone according to claim 1 which is formed by including an amplifier for amplifying the signal of the non-audible murmur between said microphone and said high-pass filter.
JP2006217028A 2006-08-09 2006-08-09 Non-audible murmur pickup microphone Pending JP2008042740A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006217028A JP2008042740A (en) 2006-08-09 2006-08-09 Non-audible murmur pickup microphone

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006217028A JP2008042740A (en) 2006-08-09 2006-08-09 Non-audible murmur pickup microphone

Publications (1)

Publication Number Publication Date
JP2008042740A true true JP2008042740A (en) 2008-02-21

Family

ID=39177242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006217028A Pending JP2008042740A (en) 2006-08-09 2006-08-09 Non-audible murmur pickup microphone

Country Status (1)

Country Link
JP (1) JP2008042740A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011182000A (en) * 2010-02-26 2011-09-15 Nippon Electronics Service Kk Body-conducted sound sensor
JP2014143582A (en) * 2013-01-24 2014-08-07 Nippon Hoso Kyokai <Nhk> Communication device

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0838481A (en) * 1994-07-30 1996-02-13 Shimadzu Corp Portable voice monitor device
JP2002044771A (en) * 2000-07-31 2002-02-08 Amenitekku:Kk Handset
WO2004021738A1 (en) * 2002-08-30 2004-03-11 Asahi Kasei Kabushiki Kaisha Microphone and communication interface system
JP2005520211A (en) * 2002-03-05 2005-07-07 アリフコム Vocalization activity detection for use with a noise suppression system (vad) devices and methods
WO2005067340A1 (en) * 2004-01-09 2005-07-21 Asahi Kasei Kabushiki Kaisha Body conducted sound microphone, signal processing device, communication interface system, and sound collecting method
JP2006086877A (en) * 2004-09-16 2006-03-30 Asahi Kasei Corp Pitch frequency estimation device, silent signal converter, silent signal detection device and silent signal conversion method
JP2006126558A (en) * 2004-10-29 2006-05-18 Asahi Kasei Corp Voice speaker authentication system
JP2006180994A (en) * 2004-12-27 2006-07-13 Keakomu:Kk Bone conduction calling device
JP2006192020A (en) * 2005-01-12 2006-07-27 Advanced Telecommunication Research Institute International Heartbeat and respiration information collecting device
WO2006086877A1 (en) * 2005-02-17 2006-08-24 Shopmedia Inc. Methods and apparatus for selling shipping services online through a mediator's web site

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0838481A (en) * 1994-07-30 1996-02-13 Shimadzu Corp Portable voice monitor device
JP2002044771A (en) * 2000-07-31 2002-02-08 Amenitekku:Kk Handset
JP2005520211A (en) * 2002-03-05 2005-07-07 アリフコム Vocalization activity detection for use with a noise suppression system (vad) devices and methods
WO2004021738A1 (en) * 2002-08-30 2004-03-11 Asahi Kasei Kabushiki Kaisha Microphone and communication interface system
WO2005067340A1 (en) * 2004-01-09 2005-07-21 Asahi Kasei Kabushiki Kaisha Body conducted sound microphone, signal processing device, communication interface system, and sound collecting method
JP2006086877A (en) * 2004-09-16 2006-03-30 Asahi Kasei Corp Pitch frequency estimation device, silent signal converter, silent signal detection device and silent signal conversion method
JP2006126558A (en) * 2004-10-29 2006-05-18 Asahi Kasei Corp Voice speaker authentication system
JP2006180994A (en) * 2004-12-27 2006-07-13 Keakomu:Kk Bone conduction calling device
JP2006192020A (en) * 2005-01-12 2006-07-27 Advanced Telecommunication Research Institute International Heartbeat and respiration information collecting device
WO2006086877A1 (en) * 2005-02-17 2006-08-24 Shopmedia Inc. Methods and apparatus for selling shipping services online through a mediator's web site

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011182000A (en) * 2010-02-26 2011-09-15 Nippon Electronics Service Kk Body-conducted sound sensor
JP2014143582A (en) * 2013-01-24 2014-08-07 Nippon Hoso Kyokai <Nhk> Communication device

Similar Documents

Publication Publication Date Title
US6782106B1 (en) Apparatus and method for transmitting sound
US6993480B1 (en) Voice intelligibility enhancement system
US20090287496A1 (en) Loudness enhancement system and method
US20080267416A1 (en) Method and Device for Sound Detection and Audio Control
US4323999A (en) Automatic transmission or recording or transmission and reception control system
US20040247145A1 (en) Automatic magnetic detection in hearing aids
US20080089530A1 (en) Method and system for automatically muting headphones
US20070297634A1 (en) Earphone system with usage detection
US5692059A (en) Two active element in-the-ear microphone system
US20060159297A1 (en) Ear canal signal converting method, ear canal transducer and headset
US20030165246A1 (en) Voice detection and discrimination apparatus and method
US6671379B2 (en) Ear microphone apparatus and method
US20090323976A1 (en) Noise reduction audio reproducing device and noise reduction audio reproducing method
US20080253583A1 (en) Always on headwear recording system
US20140081631A1 (en) Wearable Communication System With Noise Cancellation
US8081780B2 (en) Method and device for acoustic management control of multiple microphones
US20080187163A1 (en) Method and device for audio recording
JP2007028610A (en) Hearing apparatus and method for operating the same
US20090016542A1 (en) Method and Device for Acoustic Management Control of Multiple Microphones
US20050244020A1 (en) Microphone and communication interface system
US20040162722A1 (en) Speech quality indication
JP2007019898A (en) Portable telephone
US20060188115A1 (en) Hearing device improvements using modulation techniques
JP2000261534A (en) Handset
US20070230715A1 (en) Audio limiting device for headphones

Legal Events

Date Code Title Description
A621 Written request for application examination

Effective date: 20090616

Free format text: JAPANESE INTERMEDIATE CODE: A621

A977 Report on retrieval

Effective date: 20101227

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110111

A521 Written amendment

Effective date: 20110310

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110419