JP3647499B2

JP3647499B2 - 音声ピックアップシステム

Info

Publication number: JP3647499B2
Application number: JP07587595A
Authority: JP
Inventors: 卓郎山口
Original assignee: フオスター電機株式会社
Priority date: 1995-03-31
Filing date: 1995-03-31
Publication date: 2005-05-11
Anticipated expiration: 2020-05-11
Also published as: JPH08275279A

Description

【０００１】
【産業上の利用分野】
本発明は音声ピックアップシステムに関し、更に詳しくは、骨伝導音や気道音をピックアップで検出する音声ピックアップシステムに関する。
【０００２】
【従来の技術】
騒音が存在する環境で使用するマイクロホンとして、骨伝導音を検出する骨伝導音ピックアップが知られている。
【０００３】
この骨伝導音ピックアップはユーザの顔面や頭部に密着させておき、ユーザの発声に伴う顔面や頭部の振動を検出するものである。
また、似たようなマイクロホンとして、イヤホンのような形状のピックアップを外耳に挿入して、外耳道の気道音を検出するものも存在している。
【０００４】
以上のような骨伝導音や気道音を検出するピックアップは周囲の騒音を比較的拾わずに、目的とするユーザの音声を検出し易いという利点を有する。
【０００５】
【発明が解決しようとする課題】
しかし、通常の音声のスペクトルが３００Ｈｚ〜３ｋＨｚであるとした場合に、図５特性Ｂに示すように、１ｋＨｚ以上の周波数領域で検出レベルが低下する問題を有している。
【０００６】
すなわち、骨伝導音や気道音といった間接的に音声を検出する形式のピックアップの検出音は、通常のマイクロホンで検出した音声信号（図５特性Ａ）と比較して、音声の低域成分が強調されて高域成分が徐々に低下する感じになり（図５特性Ｂ）、明瞭度が低下する問題を有している。
【０００７】
図６は男性の声を実際に骨伝導音ピックアップで検出した場合の周波数特性を示す特性図である。この特性図からも高域成分の低下の様子が読み取れる。実際には、骨伝導音ピックアップを顔面若しくは頭部に押さえつける際の圧力や、男性／女性の別などによって高域成分の低下の度合は若干異なるが、高域成分が低下することには変わりがない。
【０００８】
本発明は上記の問題点に鑑みてなされたもので、その目的は、周囲の騒音を拾うことなく、かつ、明瞭度の高い状態で音声を伝達することが可能な音声ピックアップシステムを提供することにある。
【０００９】
【課題を解決するための手段】
本件出願の発明者は、従来の音声ピックアップシステムにおいて予想される明瞭度等の不具合を改良すべく鋭意研究を行った結果、従来は周波数特性の点で明瞭度に問題を有していた骨伝導音や気道音を検出するピックアップにおいても明瞭度の高い音声を伝達できる構成を見出し、本発明を完成させたものである。
【００１０】
従って、課題を解決する手段である本発明は以下に説明するように構成されたものである。
（１）すなわち、上記の課題を解決する第１の手段は、骨伝導音若しくは気道音をピックアップで検出する音声ピックアップシステムにおいて、前記ピックアップで検出された検出音を認識可能な音声認識手段と、前記音声認識手段で認識された音のデータを用いて、この認識された音のデータを通常のマイクロホンで検出した場合の周波数成分のスペクトルを生成するスペクトル発生手段と、前記認識された前記検出音毎に、前記スペクトル発生手段が生成したスペクトルと前記ピックアップで検出された検出音のスペクトルとを比較して、両スペクトルの差分に応じた部分の欠落スペクトルを求める比較手段と、前記比較手段での比較の結果により、前記検出音毎に求められた欠落スペクトルを補完音として生成する欠落スペクトル発生手段と、前記ピックアップで検出された検出音と前記欠落スペクトル発生手段で生成された補完音とを加算して出力する合成手段と、を有することを特徴とする音声ピックアップシステムである。
【００１１】
尚、このような音声ピックアップシステムにおいて、欠落スペクトル発生手段において生成する補完音としては、予めシステムに音声合成用の学習をさせておいて、使用者の音声に似せた音声を発生するために必要な欠落スペクトルとすることも可能である。
【００１４】
【作用】
課題を解決する第１の手段である音声ピックアップシステムにおいて、骨伝導音若しくは気道音をピックアップで検出し、ピックアップで検出した音を音声認識手段で認識し、音声認識手段で認識された音のデータを用いて、この認識された音のデータを通常のマイクロホンで検出した場合の周波数成分のスペクトルを生成し、このように生成したスペクトルとピックアップで実際に検出した音のスペクトルとを比較手段で比較し欠落している周波数成分を求めて、比較手段での比較の結果からピックアップで検出した音に欠落している周波数成分の音を欠落スペクトル発生手段で補完音として生成し、ピックアップで検出した音と欠落スペクトル発生手段で生成した補完音とを合成手段において合成して出力する。
【００１５】
以上のような音声ピックアップシステムによれば、骨伝導音や気道音を検出した後に音声認識して欠落スペクトルを補完することで、本人の音声の特徴を損なうことなく通常の音声に近い明瞭な音声信号を生成することができるようになる。また、周囲の騒音の影響を受けることもない。
【００１８】
【実施例】
図面を用いて本発明の一実施例について詳細に説明する。
＜音声ピックアップシステムの構成（１）＞
まず、本発明の一実施例である音声ピックアップシステムの構成について図１を用いて説明を行なう。
【００１９】
ピックアップ１は骨伝導音若しくは気道音などを検出する検出手段であり、骨伝導音を検出するものとしては骨伝導マイクロホン（骨伝導音ピックアップ）、気道音を検出するものとしては気道音マイクロホンが該当する。
【００２０】
音声認識回路２は周知の音声若しくは音節を認識する回路であり、ユーザの個々の特徴部分を学習するものであっても、また、このような学習を行わないものであっても構わない。
【００２１】
補完音生成回路３は前記音声認識回路２で認識された音（音声，音節）のデータを用いて、ピックアップ１で検出された音に欠落している周波数成分の音を補完音として生成する一種の人工音発生回路である。また、この補完音生成回路３は、スペクトル発生回路３ａと、比較回路３ｂと、欠落スペクトル発生回路３ｃとから構成されている。
【００２２】
スペクトル発生回路３ａは前記音声認識回路２で認識された音のデータを用いて、認識された音が通常のマイクロホンで検出された場合のスペクトルを発生する。比較回路３ｂは前記スペクトル発生回路３ａが発生したスペクトルと、前記ピックアップで検出した音のスペクトルとを比較する。欠落スペクトル発生回路３ｃは、比較回路３ｂの比較結果に応じて、スペクトルの差分に応じた部分のスペクトル（欠落スペクトル）を補完音として発生する。
【００２３】
合成回路４はピックアップ１で検出された音（骨伝導音，気道音）と補完音生成回路３で生成された補完音とを合成して出力する出力手段である。
＜音声ピックアップシステムの動作（１）＞
本発明の一実施例である音声ピックアップシステムの動作は、大きく分けて以下に示したような▲１▼，▲２▼，▲３▼，▲４▼，▲５▼，▲６▼の各ステップにより構成されている。このステップを順を追って説明する。
【００２４】
▲１▼音（骨伝導音，気道音）の検出：
ピックアップ１を用いて骨伝導音若しくは気道音を検出する。
▲２▼音（骨伝導音，気道音）の認識：
ピックアップ１の検出音を音声認識回路２で認識する。この場合、音声認識回路２の認識方法により、単音での認識か音節での認識かが異なるが、いずれであっても構わない。また、ユーザの音声を学習して認識するものであっても、また、ユーザを特定した学習を行わないで認識するものであっても構わない。
【００２５】
▲３▼認識音のスペクトル発生：
認識音のデータを用いて、スペクトル発生回路３ａが通常のマイクロホンで検出した場合に得られるであろうスペクトル（以下、これを標準音のスペクトルと言う）を発生する。このために、スペクトル発生回路３ａは認識音（単音，音節）に従ったスペクトルを有しているものとし、認識音に従って対応するスペクトルが呼び出されるようになっている。
【００２６】
この場合のスペクトルとしては、ユーザ毎のスペクトルを有しても良いし、標準的なスペクトルを有しても良い。また、標準的なスペクトルを有するとした場合には、成人男性，成人女性，子供等のように幾つかのスペクトルを有するようにしても構わない。
【００２７】
▲４▼標準音と検出音とのスペクトル比較：
比較回路３ｂにおいて、標準音のスペクトルと検出音とのスペクトルとを比較する。
【００２８】
例えば、図５を用いて説明すると、認識された検出音毎に、標準音のスペクトルＡと検出音のスペクトルＢとを比較して、検出音の欠落スペクトルＣ（＝Ａ−Ｂ）を算出する。
【００２９】
▲５▼補完音（欠落スペクトル）発生：
比較回路３ｂで得られた欠落スペクトルのデータに応じて欠落スペクトル発生回路３ｃが欠落スペクトルの信号を発生する。この場合も、スペクトル発生回路３ａと同じ様に、発生する欠落スペクトルとして、ユーザ毎のスペクトルを有しても良いし、標準的なスペクトルを有しても良い。また、標準的なスペクトルを有するとした場合には、成人男性，成人女性，子供等のように幾つかのスペクトルを有するようにしても構わない。
【００３０】
▲６▼検出音と補完音との合成：
合成回路４において、欠落スペクトルと検出音のスペクトルとを合成する。この合成処理により、検出音の欠落スペクトルが補完音として加算され、標準スペクトルと同等なスペクトルの合成音が得られる。従って、標準的なマイクロホンで集音したものと同等な音声信号が得られる。
【００３１】
尚、補完音がユーザ本人のものであれば合成された結果得られる合成音も本人のものとなるが、補完音が標準的なデータに基づくものであったとしても、補完音の部分は高域の部分のみであるので違和感は極めて少ない。
【００３２】
尚、ユーザの声に応じた欠落スペクトルを発生したい場合には、図２に示すように、個人データメモリ３ｄを備えておいて、ユーザの音声を予め収録（サンプリング）しておいて特徴部分のデータを格納しておくことが可能である。
【００３３】
また、ユーザの声の質を判定して、欠落スペクトル発生用に複数備えた標準的なスペクトルの中から近いものを自動的に選択するようなことも可能である。
＜構成（１）により得られる効果＞
以上のような音声ピックアップシステムによれば、骨伝導音や気道音を検出した後に音声認識して欠落スペクトルを補完することで、本人の音声の特徴を損なうことなく通常の音声に近い明瞭な音声信号を生成することができるようになる。また、周囲の騒音の影響を受けることもない。
【００３４】
また、歯噛音などのようにピックアップで検出されるものの無意味な音については、音声認識の処理で意味をなさないので補完音が生成されない。従って、ピックアップで検出された低域成分のみが出力されるため、悪影響は少ない。
【００３５】
＜音声ピックアップシステムの構成（２）＞
まず、本発明の第二の実施例である音声ピックアップシステムの構成について図３を用いて説明を行なう。
【００３６】
ピックアップ１は骨伝導音若しくは気道音などを検出する検出手段であり、骨伝導音を検出するものとしては骨伝導マイクロホン、気道音を検出するものとしては気道音マイクロホンが該当する。
【００３７】
音声認識回路２は周知の音声若しくは音節を認識する回路であり、ユーザの個々の特徴部分を学習するものであっても、また、このような学習を行わないものであっても構わない。
【００３８】
人工音発生回路５は前記音声認識回路２で認識された音（音声，音節）のデータを用いて、ピックアップ１で検出された音に対応した人工音を生成するものである。
【００３９】
＜音声ピックアップシステムの動作（２）＞
本発明の一実施例である音声ピックアップシステムの動作は、大きく分けて以下に示したような▲１▼，▲２▼，▲３▼の各ステップにより構成されている。このステップを順を追って説明する。
【００４０】
▲１▼音（骨伝導音，気道音）の検出：
ピックアップ１を用いて骨伝導音若しくは気道音を検出する。
▲２▼音（骨伝導音，気道音）の認識：
ピックアップ１の検出音を音声認識回路２で認識する。この場合、音声認識回路２の認識方法により、単音での認識か音節での認識かが異なるが、いずれであっても構わない。また、ユーザの音声を学習して認識するものであっても、また、ユーザを特定した学習を行わないで認識するものであっても構わない。
【００４１】
▲３▼認識音のスペクトル発生：
認識音のデータを用いて、人工音発生回路５が通常のマイクロホンで検出した場合に得られるであろう標準スペクトルを発生する。このために、人工音発生回路５は認識音（単音，音節）に従ったスペクトルを有しているものとし、認識音に従って対応するスペクトルが呼び出されるようになっている。
【００４２】
この場合のスペクトルとしては、ユーザ毎のスペクトルを有しても良いし、標準的なスペクトルを有しても良い。また、標準的なスペクトルを有するとした場合には、成人男性，成人女性，子供等のように幾つかのスペクトルを有するようにして切り替えて使用する構成でも構わない。従って、標準的なマイクロホンで集音したものと同等な音声信号が得られる。
【００４３】
尚、ユーザの声に応じた欠落スペクトルを発生したい場合には、図４に示すように、個人データメモリ６を備えておいて、ユーザの音声を予め収録（サンプリング）しておいて特徴部分のデータを格納しておくことが可能である。
【００４４】
また、ユーザの声の質を判定して、欠落スペクトル発生用に複数備えた標準的なスペクトルの中から近いものを自動的に選択するようなことも可能である。
＜構成（２）により得られる効果＞
以上のような音声ピックアップシステムによれば、骨伝導音や気道音を検出し、音声認識されたデータにより対応する人工音声を発生することで、通常の音声に近い明瞭な音声信号を生成することができるようになる。また、周囲の騒音の影響を受けることもない。
【００４５】
また、歯噛音などのようにピックアップで検出されるものの無意味な音については、音声認識の処理で意味をなさないので人工音が生成されない。従って、出力されないため悪影響は少ない。
【００４６】
＜その他の好ましい例＞
以上のような音声ピックアップシステムは各種の応用が可能であるが、騒音環境下で音声を伝達する各種システムに組み込んで使用することが可能である。例えば、携帯電話等の機器に組み込むことで明瞭な送話が可能になる。そして、周囲の音を相手に聞かれることが無いという利点も有している。
【００４７】
【発明の効果】
以上のような音声ピックアップシステムによれば、骨伝導音や気道音を検出した後に音声認識して欠落スペクトルを補完することで、本人の音声の特徴を損なうことなく通常の音声に近い明瞭な音声信号を生成することができるようになる。また、周囲の騒音の影響を受けることもない。従って、周囲の騒音を拾うことなく、かつ、明瞭度の高い状態で音声を伝達することが可能な音声ピックアップシステムを実現できるようになる。
【図面の簡単な説明】
【図１】本発明の一実施例の音声ピックアップシステムの構成を示す構成図である。
【図２】本発明の一実施例の音声ピックアップシステムの変形例の構成を示す構成図である。
【図３】本発明の第二の実施例の音声ピックアップシステムの構成を示す構成図である。
【図４】本発明の第二の実施例の音声ピックアップシステムの変形例の構成を示す構成図である。
【図５】音声のスペクトルを模式的に示す特性図である。
【図６】音声のスペクトルの実測結果を示す特性図である。
【符号の説明】
１ピックアップ
２音声認識回路
３補完音生成回路
３ａスペクトル発生回路
３ｂ比較回路
３ｃ欠落スペクトル発生回路
４合成回路

Claims

骨伝導音若しくは気道音をピックアップで検出する音声ピックアップシステムにおいて、前記ピックアップで検出された検出音を認識可能な音声認識手段と、
前記音声認識手段で認識された音のデータを用いて、この認識された音のデータを通常のマイクロホンで検出した場合の周波数成分のスペクトルを生成するスペクトル発生手段と、
前記認識された前記検出音毎に、前記スペクトル発生手段が生成したスペクトルと前記ピックアップで検出された検出音のスペクトルとを比較して、両スペクトルの差分に応じた部分の欠落スペクトルを求める比較手段と、
前記比較手段での比較の結果により、前記検出音毎に求められた欠落スペクトルを補完音として生成する欠落スペクトル発生手段と、
前記ピックアップで検出された検出音と前記欠落スペクトル発生手段で生成された補完音とを加算して出力する合成手段と、
を有することを特徴とする音声ピックアップシステム。