JP2004279768A - Device and method for estimating air-conducted sound - Google Patents

Device and method for estimating air-conducted sound Download PDF

Info

Publication number
JP2004279768A
JP2004279768A JP2003071560A JP2003071560A JP2004279768A JP 2004279768 A JP2004279768 A JP 2004279768A JP 2003071560 A JP2003071560 A JP 2003071560A JP 2003071560 A JP2003071560 A JP 2003071560A JP 2004279768 A JP2004279768 A JP 2004279768A
Authority
JP
Japan
Prior art keywords
sound
air
conduction sound
sample
conducted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003071560A
Other languages
Japanese (ja)
Inventor
Tadahiro Matsukawa
忠裕 松川
Tetsuya Shimamura
徹也 島村
Takeshi Tomikura
健 富倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2003071560A priority Critical patent/JP2004279768A/en
Publication of JP2004279768A publication Critical patent/JP2004279768A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To correct the quality of a sound picked up by a bone conduction microphone into almost that of a natural sound. <P>SOLUTION: A sample of an air-conducted sound and a sample of a bone-conducted sound are picked up to find the long-time spectrum of each sound. The absolute value of the long-time spectrum of the sample of the air-conducted sound is divided by the absolute value of the long-time spectrum of the sample of the bone-conducted sound to derive and store a value as a filter function. A bone-conducted sound is picked up, its frequency characteristic is converted according to the stored filter function, and is then outputted. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、骨伝導音の音質を改善する技術に関する。
【0002】
【従来の技術】
工場、船、工事現場に例示される騒音が大きい環境においては、通常のマイクを用いた音声の交信が困難になることがある。騒音が大きい環境において音声による交信をスムーズに行うために、骨伝導マイクが用いられている。骨伝導マイクは、人体の表面に装着され、人体の骨格を媒体として伝播する音声を集音する。骨導音マイクによって集音される音は、通常のマイク(骨導音マイクと区別するために気導音マイクと呼ばれることがある)によって集音される音と比較して、周辺環境の騒音から受ける影響が少ない。騒音が大きい環境において音声による交信をさらにスムーズにする技術が開発されることが望ましい。
【0003】
装用者の発話音声による骨振動を電気信号に変換する骨伝導マイクと、骨伝導マイクが変換した信号の周波数特性を調整するイコライザとを備え、イコライザから出力された信号を発話音声信号として次段に出力するマイク装置において、装用者の発話音声による外界の空気振動を電気信号に変換する設定用マイクと、設定モード時に、骨伝導マイクが変換した信号と設定用マイクが変換した信号とを比較し、この比較結果に基づいて、イコライザから出力される信号の周波数特性が、設定用マイクが変換した信号の周波数特性に近づくようにイコライザの特性を設定する設定手段とを備えたマイク装置が知られている(特許文献1参照)。
【0004】
【特許文献1】特開2002−125298号公報
【0005】
【発明が解決しようとする課題】
本発明の目的は、骨導音を気導音に近い音に復元する気導音推定装置を提供することである。
本発明の他の目的は、骨導音を気導音に近い音に復元するためのフィルタを自動的に作成する気導音推定装置を提供することである。
本発明の更に他の目的は、安定した精度で骨導音を気導音に近い音に復元する気導音推定装置を提供することである。
本発明の更に他の目的は、騒音が大きい環境において違和感が少ない会話を可能にする気導音推定装置を提供することである。
本発明の更に他の目的は、騒音が大きい環境において音声による個人の識別を可能にする気導音推定装置を提供することである。
本発明の更に他の目的は、騒音が大きい環境において音声認識を可能にする気導音推定装置を提供することである。
本発明の更に他の目的は、少ない計算量で骨導音を気導音に近い音に復元する気導音推定装置を提供することである。
【0006】
【課題を解決するための手段】
以下に、[発明の実施の形態]で使用される番号を括弧付きで用いて、課題を解決するための手段を説明する。これらの番号は、[特許請求の範囲]の記載と[発明の実施の形態]との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
【0007】
本発明による気導音推定装置(2、3、4、5、6)は、骨導音マイク(10)によって集音されたサンプル骨導音(d(n))の長時間スペクトル(D(f))を気導音マイク(20)によって集音されたサンプル気導音(s(n))の長時間スペクトル(S(f))に変換する関数であるフィルタ関数(H(f))を格納する記憶部(30、35、35a、35b)と、骨導音マイク(10、10a、10b)によって集音された入力骨導音(d(n)、d(n)、d(n))の周波数特性をフィルタ関数(H(f))を用いて変換し推定気導音(r(n)、r(n)、r(n))として出力する気導音推定部(32、32a、32b)とを具備している。
【0008】
こうした気導音推定装置によれば、骨導音が通常の音声に近い音(推定気導音)に変換される。
【0009】
長時間スペクトルは、さまざまな種類の言語音を含む音声から得られるスペクトルを平均化したものである。そのためフィルタ関数(H(f))は、言語音の種類による固有の特性が平均化されている。こうしたフィルタ関数(H(f))を用いた気導音推定装置(2、3、4、4a、5、6)によれば、さまざまな種類の言語音を含む骨導音が精度よく気導音に近い音に変換される。
【0010】
本発明による気導音推定装置(1)は、フィルタ関数作成部(7)を具備している。フィルタ関数作成部(7)は、サンプル骨導音(d(n))とサンプル気導音(s(n))とを収集する収集部(11、21)と、サンプル骨導音(d(n))の長時間スペクトル(D(f))とサンプル気導音(s(n))の長時間スペクトル(S(f))とを算出する長時間スペクトル算出部(12、22)と、サンプル骨導音(d(n))の長時間スペクトル(D(f))をサンプル気導音(s(n))の長時間スペクトル(S(f))に変換する関数であるフィルタ関数(H(f))を算出し記憶部(30)に格納するフィルタ関数算出部(14、24、26)とを具備している。
【0011】
こうした気導音推定装置(1)によれば、骨導音を気導音に近い音に変換するためのフィルタ(H(f))が自動的に作成される。こうした気導音推定装置(1)によれば、骨導音を気導音に近い音に変換するための調整が、人間の聴覚に頼らずに行われる。
【0012】
こうした気導音推定装置(1)によれば、操作する者の主観によらず誰が操作しても実質的に同じ気導音の推定が行われる。そのため、こうした気導音推定装置(1)によって得られた音声は、本人認証あるいは音声認識に例示される機械によって処理される音声として好適に用いられる。
【0013】
本発明による気導音推定装置(1)は、骨導音マイク(10)によって集音された音声であるサンプル骨導音(d(n))と気導音マイク(20)によって集音された音声であるサンプル気導音(s(n))とを収集する収集部(11、21)と、サンプル骨導音(d(n))の長時間スペクトル(D(f))とサンプル気導音(s(n))の長時間スペクトル(S(f))とを算出する長時間スペクトル算出部(12、22)と、サンプル骨導音(d(n))の長時間スペクトル(D(f))をサンプル気導音(s(n))の長時間スペクトル(S(f))に変換する関数であるフィルタ関数(H(f))を算出するフィルタ関数算出部(14、24、26)と、フィルタ関数(H(f))を格納する記憶部(30)とを具備している。
【0014】
こうした気導音推定装置(1)によれば、骨導音を気導音に近い音に変換するためのフィルタが自動的に作成される。
【0015】
本発明による気導音推定装置(1)において、フィルタ関数算出部(14、24、26)は、サンプル気導音(s(n))の長時間スペクトルの絶対値(|S(f)|)をサンプル骨導音(d(n))の長時間スペクトルの絶対値(|D(f)|)で割ったものをフィルタ関数(H(f))として算出する。
【0016】
人間が発する言語音は、位相に依存しないという特性をもっている。そのため、位相を捨象した|S(f)|、|D(f)|から得られたフィルタ関数H(f)を用いることによって、骨導音が高い精度で気導音に近い音に変換される。あるいは、計算量が低減する。
【0017】
入力音声を短い時間幅(数10msec程度)の区画に分けてサンプリングし、区画ごとにフィルタ関数による周波数の変換を施して出力することによって実質的にリアルタイムな音声変換を行う場合が考えられる。そうした場合、各々の区画の音声が有する位相成分は不明であるため、位相成分に依存しないフィルタ関数H(f)が好適に用いられる。
【0018】
本発明による気導音推定装置(3、4、4a)は、推定気導音(r´(n)、r´(n)、r´(n))を骨伝導によって人体に伝える骨導音スピーカ(42、42a、42b)を具備している。
【0019】
骨導音スピーカによって出力される音声は、騒音の影響を受けにくく、騒音が大きい環境にいる人に音声が明瞭に伝達される。骨伝導マイクと骨伝導スピーカとを具備する気導音推定装置は、騒音が大きい環境において正確な会話を可能にする。
【0020】
本発明による気導音推定装置(5)は、事前に集音された気導音である認証用サンプル気導音(s(n))から抽出された認証用サンプル気導音特徴量(56)を格納するデータベース(53)と、推定気導音(r´(n))から抽出された特徴量と認証用サンプル気導音特徴量(56)とを比較することによって入力骨導音(d(n))を発声した発声者(8)の本人認証を行う本人認証部(54)とを具備している。
【0021】
音声の長時間スペクトルを用いて作成されたフィルタ関数は、骨導音を高い精度で気導音に近い音に変換するため、気導音特徴量(56)を用いた本人認証が正確に行われる。こうした気導音推定装置によれば、騒音が大きい環境において音声による本人認証に及ぼされる騒音の影響が低減される。
【0022】
本発明による気導音推定装置(6)は、事前に集音された音声認識用サンプル気導音(s(n))から抽出された音声認識用情報を格納する音声認識用データベース(73)と、音声認識用データベース(73)を参照して推定気導音(r´(n))の音声認識を行う音声認識部(74)とを具備している。
【0023】
こうした気導音推定装置によれば、騒音が大きい環境において音声認識に及ぼされる騒音の影響が低減する。こうした気導音推定装置によれば、騒音が大きい環境において音声認識が高い精度で行われる。
【0024】
本発明による気導音推定方法は、骨導音マイク(10)を用いて発声者(8)の音声をサンプル骨導音(d(n))として集音するステップ(S2)と、気導音マイク(20)を用いて発声者の音声をサンプル気導音(s(n))として集音するステップ(S8)と、サンプル骨導音(d(n))の長時間スペクトル(D(f))を導出するステップ(S4)と、サンプル気導音(s(n))の長時間スペクトル(S(f))を導出するステップ(S10)と、サンプル骨導音(d(n))の長時間スペクトル(D(f))をサンプル気導音(s(n))の長時間スペクトル(S(f))に変換する関数であるフィルタ関数(H(f))を導出し記憶するステップ(S6、S12、S14、S15)と、骨導音マイク(10)を用いて発声者(8)の音声を入力骨導音(d(n))として集音するステップ(S20)と、入力骨導音(d(n))の周波数特性をフィルタ関数(H(f))を用いて変換し推定気導音(r(n))を作成するステップ(S22)とを具備している。
【0025】
こうした気導音推定方法によれば、骨導音が気導音に近い音に変換される。こうした気導音推定方法によれば、骨導音を気導音に近い音に変換するための調整が、人間の聴覚に頼らずに行われる。こうした気導音推定装置によれば、操作する者の主観によらず誰が操作しても実質的に同じ気導音の推定が行われる。
【0026】
本発明による気導音推定方法において、フィルタ関数(H(f))は、サンプル気導音(s(n))の長時間スペクトルの絶対値(|S(f)|)をサンプル骨導音(d(n))の長時間スペクトルの絶対値(|D(f)|)で割ることによって導出される。
【0027】
本発明による気導音推定方法は、気導音マイク(20)を用いて発声者(8)の音声を認証用サンプル気導音(s(n))として収集し記憶するステップ(S52)と、推定気導音(r´(n))を認証用サンプル気導音(s(n))と比較することによって入力骨導音(d(n))を発声した発声者(8)の本人認証を行うステップ(S66)とを具備している。
【0028】
こうした気導音推定方法によれば、騒音が大きい環境において音声による本人認証に及ぼされる騒音の影響が低減される。こうした気導音推定方法によれば、騒音が大きい環境における本人認証の正確さが向上する。
【0029】
本発明による気導音推定方法は、気導音マイク(20)を用いて音声を音声認識用サンプル気導音(s(n))として収集し記憶するステップ(S72)と、音声認識用サンプル気導音(s(n))に基づいて言語音を識別するための音声認識用情報を作成するステップ(S74)と、音声認識用情報を用いて推定気導音(r´(n))の音声認識を行うステップ(S82)とを具備している。
【0030】
こうした気導音推定方法によれば、騒音が大きい環境において音声認識に及ぼされる騒音の影響が低減する。こうした気導音推定方法によれば、騒音が大きい環境において音声認識が高い精度で行われる。
【0031】
【発明の実施の形態】
[実施の第1形態]
以下、図面を参照しながら、本発明の実施の第1形態について説明する。図1を参照して、気導音推定フィルタ作成装置1は、骨導音マイク10と、気導音マイク20と、収集部11、21と、長時間スペクトル導出器12、22と、絶対値導出器14、24と、除算器26と、入力部28と、気導音推定フィルタデータベース30とを具備している。図2を参照して、気導音推定フィルタデータベース30は、発声者ID31と、気導音推定フィルタ関数H(f)とを対応づけて格納している。
【0032】
骨導音マイク10は、発声者8の頭頂部、こめかみ、喉に例示される、骨の振動が伝わりやすい部位に接触して配置される。骨導音マイク10は、発声者8の骨格を媒体として伝導する発声者8の声を集音し、サンプル骨導音電気信号s(n)として図示されている電気信号に変換し出力する。気導音マイク20は、空気中を伝播する発声者8の声を集音し、サンプル気導音電気信号d(n)として図示されている電気信号に変換し出力する。収集部11はサンプル骨導音電気信号d(n)を収集し、収集部21はサンプル気導音電気信号s(n)を収集する。
【0033】
長時間スペクトルは、音声の特性を評価する用途に広く用いられている。入力される音声の電気信号から長時間スペクトルを導出し出力する長時間スペクトル導出器12、22は周知技術を利用することによって実現される。
【0034】
長時間スペクトル導出器12と長時間スペクトル導出器22とは同一であることがある。その場合、長時間スペクトル導出器12、22は、サンプル気導音電気信号s(n)から気導音長時間スペクトルS(f)を導出する動作と、サンプル骨導音電気信号d(n)から骨導音長時間スペクトルD(f)を導出する動作とのどちらか一方を先に、他方を後にして順次、行う。
【0035】
絶対値導出器14と絶対値導出器24とは同一であることがある。その場合、絶対値導出器14、24は、骨導音長時間スペクトルD(f)から位相を除いた絶対値|D(f)|を求める動作と、気導音長時間スペクトルS(f)から位相を除いた絶対値|S(f)|を求める動作とのどちらか一方を先に、他方を後にして順次、行う。
【0036】
入力部28は、発声者8を特定する情報である発声者ID31の入力を受け付ける。
【0037】
フィルタ関数作成部7、入力部28および気導音推定フィルタデータベース30の全部あるいは一部分は、パーソナルコンピュータあるいはワークステーションに例示されるコンピュータシステムによって実現可能である。
【0038】
こうした気導音推定フィルタ作成装置1の動作が図3に示されている。発声者ID31が、入力部28から入力される(ステップS1)。骨導音マイク10は、発声者8が発する音声の骨導音であるサンプル骨導音を集音し、サンプル骨導音電気信号d(n)に変換して出力する(ステップS2)。サンプル骨導音は、a、i、u、e、oの母音をすべて含んでいる音声であることが望ましい。収集部11は、サンプル骨導音電気信号d(n)を収集する。
【0039】
長時間スペクトル導出器12は、サンプル骨導音電気信号d(n)の長時間スペクトルD(f)を導出し出力する(ステップS4)。絶対値導出器14は、長時間スペクトルD(f)の絶対値|D(f)|を導出して出力する(ステップS6)。
【0040】
気導音マイク20は、発声者8が発する音声の気導音であるサンプル気導音を集音し、サンプル気導音電気信号s(n)に変換して出力する(ステップS8)。サンプル気導音は、a、i、u、e、oの母音をすべて含んでいる音声であることが望ましい。収集部21は、サンプル気導音電気信号s(n)を収集する。
【0041】
収集部11と収集部21とは、発声者8が音声を発するときにリアルタイムでサンプル骨導音電気信号d(n)とサンプル気導音電気信号s(n)とを収集してもよいし、発声者8が発する音声を一旦録音しておいた音声を集音してもよい。
【0042】
長時間スペクトル導出器22は、サンプル気導音電気信号s(n)の長時間スペクトルS(f)を導出して出力する(ステップS10)。絶対値導出器24は、長時間スペクトルS(f)の絶対値|S(f)|を導出して出力する(ステップS12)。
【0043】
除算器26は、|S(f)|を|D(f)|で割り、気導音推定フィルタ関数H(f)として出力する(ステップS14)。気導音推定フィルタ関数H(f)は、発声者8と対応づけられて気導音推定フィルタデータベース30に格納される(ステップS15)。
【0044】
こうした気導音推定フィルタ関数H(f)は、骨導音の周波数特性を気導音の周波数特性に修正することで、骨導音を気導音に近い音(推定気導音)に変換することを可能にする。
【0045】
こうした気導音推定フィルタ作成装置によれば、サンプルとして入力された骨導音と気導音から、骨導音を気導音に近い音に変換するために用いられる関数H(f)が自動的に作成される。
【0046】
こうした気導音推定フィルタ作成装置によれば、骨導音が気導音に近い音に変換されるように人間が聴覚的に確かめながらフィルタを調整する手順が省略される。こうした気導音推定フィルタ作成装置によれば、操作する者の主観に依存する感覚と無関係に、誰でも実質的に同一の気導音推定フィルタが作成される。
【0047】
長時間スペクトルS(f)、D(f)は、さまざまな種類の言語音を含む音から得られたスペクトルを平均したものである。そのため、長時間スペクトルS(f)、D(f)を用いて得られた気導音推定フィルタ関数H(f)は、言語音の種類による固有の特性が捨象されている。こうした気導音推定フィルタ関数H(f)は、さまざまな種類の言語音を含む骨導音を、安定した精度で気導音に近い音に変換する。
【0048】
気導音推定フィルタ関数H(f)は長時間スペクトルS(f)、D(f)を用いて作成されているため、予め作成しておいた気導音推定フィルタ関数H(f)によって新規に入力される骨導音を気導音に近い音に変換することが可能になる。すなわち、骨導音の短時間(数10msec程度)の性質に応じてフィルタを変える必要がない。
【0049】
ある発声者から集音された音を用いて作成された気導音推定フィルタ関数H(f)は、他の発声者に転用することが可能である。音声の長時間スペクトルは国語、話者あるいは性別によって差異があることが知られているため、各々の発声者に対応して気導音推定フィルタ関数が作成されることが好ましい。
【0050】
人間が発する言語音は、位相に依存しないという特性をもっている。そのため、長時間スペクトルS(f)、D(f)に代えて、位相を捨象した|S(f)|、|D(f)|を用いて導出された気導音推定フィルタ関数H(f)は、骨導音を高い精度で気導音に近い音に変換する。こうした気導音推定フィルタ関数H(f)を用いた音声の変換は、位相の計算が省略される分だけ計算量が低減する。
【0051】
[実施の第2形態]
図4は、本発明による気導音推定装置2を示している。発声者8は骨導音マイク10を装着している。骨導音マイク10は気導音推定フィルタ32に接続されている。気導音推定フィルタ32はノイズ除去フィルタ34に接続されている。ノイズ除去フィルタ34は気導音スピーカ40に接続されている。「気導音スピーカ」は、入力した電気信号を空気の振動に変えて出力する通常のスピーカを骨導音スピーカと区別して指し示すために用いられる名称である。
【0052】
気導音推定フィルタ32は更に、気導音推定フィルタデータベース30に接続されている。気導音推定フィルタデータベース30は、入力部33に接続されている。
【0053】
気導音推定装置2は、ノイズを低減するノイズ除去フィルタ34を具備することが好ましい。ノイズ除去フィルタとしては、スペクトル引算法を用いてノイズを低減するフィルタが例示される。ノイズ除去フィルタ34を取り除いた構成を有する気導音推定装置は、構成の簡易さの面から好ましい。
【0054】
気導音推定フィルタデータベース30、気導音推定フィルタ32、ノイズ除去フィルタ34の全部あるいは一部分は、パーソナルコンピュータあるいはワークステーションに例示されるコンピュータシステムによって実行されるソフトウェアによって実現可能である。
【0055】
以上の構成を具備する気導音推定装置2の動作が図5に示されている。発声者8に対応する発声者ID31が入力部33から入力されると(ステップS16)、気導音推定フィルタデータベース30において対応する気導音推定フィルタ関数H(f)が検索される(ステップS18)。骨導音マイク10が発声者8の声の骨導音を集音し、骨導音電気信号d(n)に変換する(ステップS20)。
【0056】
気導音推定フィルタ32は、骨導音電気信号d(n)の周波数特性に気導音推定フィルタ関数H(f)を掛け合わせることによって、骨導音電気信号d(n)を推定気導音電気信号r(n)に変換し出力する(ステップS22)。
【0057】
気導音推定フィルタ32から出力された骨導音電気信号d(n)は、ノイズ除去フィルタ34によってノイズを低減され、修正推定気導音電気信号r´(n)として出力される(ステップS24)。気導音スピーカ40は、修正推定気導音電気信号r´(n)を空気の振動に変えて出力する(ステップS26)。ステップS20〜ステップS26の動作が繰り返されることによって、発声者8の骨導音から得られた推定気導音が気導音スピーカ40から連続的に出力される。
【0058】
こうした気導音推定装置によれば、騒音が大きい環境にいる発話者の声が、騒音の影響を受けることが少なく、気導音スピーカ40から出力される。気導音スピーカ40から出力される声は気導音に近く、聞き取りやすい。気導音スピーカ40から出力される音は気導音に近いため、その音から発声者が誰であるかを特定しやすい。
【0059】
[実施の第3形態]
図6は、本発明による推定気導音会話装置3の構成を示している。推定気導音会話装置3は、工場あるいは船舶に例示される騒音が大きい環境にいる発声者と、騒音が小さい事務所あるいは防音区画にいる発声者との会話を支援するために用いられる。工場44にいる発声者8aは、骨導音マイク10と、骨導音スピーカ42とを装着している。骨導音マイク10は気導音推定フィルタ32に接続されている。気導音推定フィルタ32は気導音推定フィルタ関数H(f)を格納する記憶部35に接続されている。
【0060】
気導音推定フィルタ32は更に、ノイズ除去フィルタ34に接続されている。気導音推定フィルタ32は気導音推定フィルタ関数H(f)を格納している。気導音推定フィルタ関数H(f)は気導音推定フィルタ作成装置1によって作成された関数である。ノイズ除去フィルタ34は、電気信号を有線または無線によって伝送する伝送装置38aに接続されている。伝送装置38aによって伝送された電気信号は、オフィス46に設置された気導音スピーカ40によって空気中を伝播する音声に変換される。
【0061】
骨導音マイク10は、発声者8aがフリーハンドで使用できるように発声者8aの身体に固定されていることが好ましい。発声者8aが工場あるいは船舶で作業を行っているとき、フリーハンドで使用できる骨導音マイク10は、作業がしやすく、かつ騒音が大きい環境において会話をスムーズに行うことを可能にする。
【0062】
伝送装置38aの位置は、骨導音マイク10と気導音推定フィルタ32との間であっても、図6の推定気導音会話装置3と同じ効果を奏する。この場合、骨導音電気信号d(n)は伝送装置38aによって伝送されてから気導音推定フィルタ32に入力される。
【0063】
オフィス46には、オフィス46にいる発声者8bが発する音声を集音する気導音マイク20が設置されている。気導音マイク20は、電気信号を有線または無線によって伝送する伝送装置38bに接続されている。伝送装置38bによって伝送された電気信号を入力された骨伝導スピーカ42は、発声者8aの骨格を振動させることで発声者8aに音声を伝える。
【0064】
以上の構成を具備する推定気導音会話装置3の動作が図7(a)及び図7(b)に示されている。図7(a)を参照して、発声者8aが発する声の骨導音が骨導音マイク10に集音され、骨導音電気信号d(n)に変換される(ステップS28)。
【0065】
気導音推定フィルタ32は、記憶部35から気導音推定フィルタ関数H(f)を読み出し、骨導音電気信号d(n)の周波数特性を気導音推定フィルタ関数H(f)によって変換したものを推定気導音電気信号として出力する(ステップS30)。
【0066】
気導音推定フィルタ32から出力された電気信号は、ノイズ除去フィルタ34によってノイズを低減され、修正推定気導音電気信号r´(n)として出力される(ステップS31)。修正推定気導音電気信号r´(n)は、伝送装置38aによってオフィス46に伝送される(ステップS32)。気導音スピーカ40は、修正推定気導音電気信号r´(n)を空気の振動音に変換して出力する(ステップS33)。
【0067】
図7(b)を参照して、発声者8bは気導音スピーカ40から出力される音声を聞く。気導音マイク20は、発声者8bが発する音声を集音して電気信号に変換する(ステップS34)。その電気信号は伝送装置38bによって工場44に伝送される(ステップS35)。伝送された電気信号を入力された骨伝導スピーカ42は、発声者8aの骨格を振動させることで発声者8aに音声を伝える(ステップS36)。
【0068】
骨伝導スピーカ42は、騒音が大きい環境においても発声者8aに明瞭に音声を伝達することを可能にする。骨導音スピーカ42が出力する音は、その骨導音スピーカ42を装着している人にしか聞こえない。こうした骨導音スピーカを用いた推定気導音会話装置によれば、会話の秘匿性が求められる場合、例えば工場、船舶あるいは飛行場などで複数の団体が集まっている中で、特定の団体のメンバーにだけ情報を伝えたい場合に好適に用いられる。
【0069】
こうした推定気導音会話装置によれば、騒音が大きい環境にいる人と騒音が小さい環境にいる人との間で容易に会話が行われる。騒音が大きい環境にいる人の声は気導音に近い声に変換されているので、聞き取りやすく、自然な会話ができる。気導音推定フィルタ作成装置1で作成された気導音推定フィルタH(f)を用いた推定気導音会話装置3は、骨導音を気導音に近い音に変換する精度が高く、更に聞き取りやすく自然な会話を可能にする。
【0070】
[実施の第4形態]
実施の第4形態における推定気導音会話装置4は、騒音が大きい環境にいる複数の発声者が会話を行うときに使用される。図8を参照して、発声者8aは骨導音マイク10aと骨導音スピーカ42aとを装着している。骨導音マイク10aによって集音された音は、骨導音電気信号d(n)に変換されて伝送装置38aによって気導音推定フィルタ32に伝送される。発声者8bは骨導音マイク10bと骨導音スピーカ42bとを装着している。骨導音マイク10bによって集音された音は、骨導音電気信号d(n)に変換されて伝送装置38bによって気導音推定フィルタ32に伝送される。
【0071】
気導音推定フィルタ32は、気導音推定フィルタ関数H(f)を格納する記憶部35に接続されている。気導音推定フィルタ32は骨導音電気信号d(f)を推定気導音電気信号r(n)に変換して出力し、骨導音電気信号d(f)を推定気導音電気信号r(n)に変換して出力する。ノイズ除去フィルタ34は、入力した推定気導音電気信号r(n)、r(n)に対してノイズを低減する処理を行い、おのおの修正推定気導音電気信号r´(n)、r´(n)として出力する。
【0072】
伝送装置38a、38bは、各々が発声者8aと8bに装着される無線による伝送装置であることが好ましい。更に伝送装置38も無線による伝送装置であることが好ましい。このような伝送装置を備えた推定気導音会話装置4によれば、発話者8a、8bはコード類によって動きが妨げられることがない。
【0073】
伝送装置38は、入力した修正推定気導音電気信号r´(n)を骨導音スピーカ42bに伝送する。伝送装置38は、入力した修正推定気導音電気信号r´(n)を骨導音スピーカ42aに伝送する。
【0074】
図8は2人の発話者を図示しているが、3人以上の複数の発話者によって使用可能なように推定気導音会話装置4の構成を拡張することは容易である。
【0075】
以上の構成を具備する推定気導音会話装置4の動作が、図9(a)及び図9(b)に示されている。図9(a)を参照して、骨導音マイク10aは発声者8aが発する音声の骨導音を集音して骨導音電気信号d(n)に変換する(ステップS38a)。骨導音電気信号d(n)は、伝送装置38aによって気導音推定フィルタ32へ伝送される(ステップS40a)。
【0076】
気導音推定フィルタ32は記憶部35から気導音推定フィルタ関数H(f)を読み出し、骨導音電気信号d(n)の周波数特性を気導音推定フィルタ関数H(f)によって変換して骨導音電気信号d(n)として出力する(ステップS42a)。
【0077】
気導音推定フィルタ32から出力された電気信号はノイズ除去フィルタ34によってノイズを低減され修正推定気導音電気信号r´(n)として出力される(ステップS44a)。修正推定気導音電気信号r´(n)は伝送装置38によって骨導音スピーカ42bに伝送される(ステップS46a)。骨導音スピーカ42bは、修正推定気導音電気信号をr´(n)を空気の振動音に変換する(ステップS48a)。発声者8bは、発声者8aの骨導音から得られた推定気導音を骨導音マイク10bから聞く。
【0078】
図9(b)を参照して、骨導音マイク10bは発声者8bが発する音声の骨導音を集音して骨導音電気信号d(n)に変換する(ステップS38b)。骨導音電気信号d(n)は、伝送装置38bによって気導音推定フィルタ32へ伝送される(ステップS40b)。
【0079】
気導音推定フィルタ32は記憶部35から気導音推定フィルタH(f)を読み出し、骨導音電気信号d(n)の周波数特性を気導音推定フィルタ関数H(f)によって変換して骨導音電気信号d(n)として出力する(ステップS42a)。
【0080】
気導音推定フィルタ32から出力された電気信号はノイズ除去フィルタ34によってノイズを低減され修正推定気導音電気信号r´(n)として出力される(ステップS44b)。修正推定気導音電気信号r´(n)は伝送装置38によって骨導音スピーカ42aに伝送される(ステップS46b)。骨導音スピーカ42aは、修正推定気導音電気信号r´(n)を空気の振動音に変換する(ステップS48b)。発声者8aは、発声者8bの骨導音から得られた推定気導音を骨導音マイク10aから聞く。
【0081】
こうした推定気導音会話装置によれば、騒音が大きい環境にいる複数の人の間で容易に会話が行われる。骨導音が気導音に近い音に変換されていることによって、声が聞き取りやすく、聞いている声の主が誰なのかを声から識別することが容易にできる。
【0082】
図10は、本実施の形態の変形例を示している。推定気導音会話装置4aは、図8における推定気導音会話装置4と比較して、発声者8a、8bの数と同じ数の気導音推定フィルタ32a、32b、記憶部35a、35b、ノイズ除去フィルタ34a、34b及び伝送装置38a、38bを備えている。伝送装置38aは、骨導音マイク10aと気導音推定フィルタ32aの間に置かれてもよい。伝送装置38bは、骨導音マイク10bと気導音推定フィルタ32bの間に置かれてもよい。
【0083】
こうした構成を備えた推定気導音会話装置4aの動作は、図9においてステップS40aとステップS40bとを取り除いたフローチャートによって示される。推定気導音会話装置4aにおいて、ステップS42aは気導音推定フィルタ32a、ステップS44aはノイズ除去フィルタ34a、ステップS46aは伝送装置38aによって行われる。推定気導音会話装置4aにおいて、ステップS42bは気導音推定フィルタ32b、ステップS44bはノイズ除去フィルタ34b、ステップS46bは伝送装置38bによって行われる。その他の動作は推定気導音会話装置4と同一である。こうした推定気導音会話装置4aは、推定気導音会話装置4と同じ効果を奏する。
【0084】
[実施の第5形態]
図11は、本発明による推定気導音認証装置5の実施の形態を示している。発声者8は、骨導音マイク10を装着している。骨導音マイク10は気導音推定フィルタ32に接続されている。気導音推定フィルタ32は、気導音推定フィルタ関数H(f)を格納する記憶部35に接続されている。気導音推定フィルタ32はノイズ除去フィルタ34に接続されている。ノイズ除去フィルタ34は気導音本人認証装置50に接続されている。気導音本人認証装置50は電子鍵開閉装置60に接続されている。電子鍵開閉装置60は電子制御扉62に接続されている。電子制御扉62はオートロック式の扉である。電子鍵開閉装置60は特定の信号に応じて電子制御扉62の鍵を解除するように制御を行う。
【0085】
図12を参照して、気導音本人認証装置50は、入力部51と、気導音特徴量抽出部52と、気導音特徴量データベース53と、照合部54と、出力部55とを具備している。図13を参照して、気導音特徴量データベース53は、発声者ID31と気導音特徴量56とを対応づけて格納している。
【0086】
以上の構成を具備する推定気導音認証装置5の動作が図14に示されている。入力部51から発声者8に対応する発声者ID31が入力され、気導音特徴量データベース53に格納される(ステップS50)。発声者8は本人認証をするためのベースとなるサンプル音声を発する。骨導音マイク10はサンプル音声の骨導音を集音してサンプル骨導音電気信号d(n)に変換し出力する(ステップS51)。
【0087】
気導音推定フィルタ32は記憶部35から気導音推定フィルタ関数H(f)を読み出し、サンプル骨導音電気信号d(n)の周波数を気導音推定フィルタ関数H(f)によって変換してサンプル推定気導音電気信号r(n)として出力する(ステップS52)。ノイズ除去フィルタ34は、推定気導音電気信号r(n)のノイズを低減してサンプル修正推定気導音電気信号r´(n)として出力する(ステップS53)。
【0088】
気導音特徴量抽出部52は、サンプル修正推定気導音電気信号r´(n)から、発声者に特有の性質を示す量である気導音特徴量56を抽出する(ステップS54)。抽出された気導音特徴量56は、発声者ID31と対応づけられて気導音特徴量データベース53に格納される(ステップS56)。
【0089】
発声者8は、電子制御扉62を開けようとするとき、音声を発生する。骨導音マイク10は、発声者8の骨格を媒体として伝達される音声を集音して骨導音電気信号d(n)に変換し出力する(ステップS58)。気導音推定フィルタ32は記憶部35から気導音推定フィルタ関数H(f)を読み出し、骨導音電気信号d(n)の周波数特性を気導音推定フィルタ関数H(f)によって変換し、推定気導音電気信号r(n)として出力する(ステップS60)。ノイズ除去フィルタ34は、推定気導音電気信号r(n)を低減して修正推定気導音電気信号r´(n)を出力する(ステップS62)。
【0090】
ノイズ除去フィルタ34から出力された電気信号は、気導音本人認証装置50の入力部51に入力される。気導音特徴量抽出部52は、修正推定気導音電気信号r´(n)から特徴量を抽出する(ステップS64)。
【0091】
照合部54は、気導音特徴量データベース53に格納されている気導音特徴量56と、修正推定気導音電気信号r´(n)から抽出された特徴量とを照合する(ステップS66)。照合した結果が一致したとき、出力部55は電子鍵を解除する信号を電子鍵開閉装置60に出す(ステップS68)。電子鍵開閉装置60は、鍵を解除する信号を電子制御扉に送り、電子制御扉の鍵が解除される(ステップS70)。
【0092】
こうした推定気導音認証方法によれば、騒音が大きい環境において音声による個人の識別が高い精度で行われる。
【0093】
こうした気導音本人認証装置は、通常の音声(気導音)を用いて個人の識別をする本人認証装置による公知技術を応用して開発することができるため、開発コストが低く抑えられる。
【0094】
音声の長時間スペクトルを用いて作成された気導音推定フィルタ32は、骨導音を高い精度で気導音に近い音声に変換するため、本人の認証をするために好適に用いられる。
【0095】
通常の音声の特徴量(気導音特徴量)を用いて個人の識別を行う本人認証装置において気導音特徴量のデータが蓄積されていた場合、推定気導音を用いた認証装置はそのデータを利用することができ、好ましい。
【0096】
本実施の形態の変形例として、推定気導音認証装置5の構成において、気導音本人認証装置50の入力部51に気導音マイクを接続した構成が考えられる。気導音マイクは発声者8から音声を集音してサンプル気導音電気信号に変換する。サンプル気導音電気信号は、ステップS54以下の動作において、ステップS53で出力されるサンプル修正推定気導音電気信号r´(n)の代わりとして用いられる。こうした推定気導音認証装置によれば、通常の音声(気導音)を用いて個人の識別をする公知の本人認証装置において気導音特徴量56のデータが蓄積されていたとき、そのデータを利用して騒音が大きい環境のもとにおける本人認証を行うことが可能である。
【0097】
本実施の形態の第2の変形例として、推定気導音認証装置5の構成において、気導音本人認証装置50がパーソナルコンピュータあるいは携帯情報通信端末に例示される電子機器に接続するための端子を備えており、電子鍵開閉装置60と電子制御扉62とを取り除いた構成を有する推定気導音認証装置が考えられる。電子機器は、気導音本人認証装置50から入力された信号に応答してその電子機器が備える機能の一部あるいは全部の使用を禁止あるいは許可するパスワード機能を有する。
【0098】
こうした構成を有する推定気導音認証装置において、気導音本人認証装置50の照合部54は、気導音特徴量データベース53に格納されている気導音特徴量56と、修正推定気導音電気信号r´(n)から抽出された特徴量とを照合する。照合した結果が一致したとき、気導音本人認証装置50は電子機器に対してその機能の一部あるいは全部の使用を許可する信号を出す。照合した結果が不一致であったとき、気導音本人認証装置50は電子機器に対してその機能の一部あるいは全部の使用を禁止する信号を出す。
【0099】
こうした推定気導音認証装置によれば、騒音が大きい環境において電子機器の使用が所定の人に対してだけ許可される。
【0100】
[実施の第6形態]
図15は、本発明による推定気導音音声認識装置6の実施の形態を示している。推定気導音音声認識装置6は、発声者8に装着される骨導音マイク10を具備している。骨導音マイク10は気導音推定フィルタ32に接続されている。気導音推定フィルタ32は、気導音推定フィルタ関数H(f)を格納する記憶部35に接続されている。
【0101】
気導音推定フィルタ32は更に、ノイズ除去フィルタ34に接続されている。ノイズ除去フィルタ34は気導音音声認識装置70に接続されている。気導音音声認識装置70は認識結果記録装置80と、ディスプレイ90に接続されている。気導音音声認識装置70には更に音声合成装置92に接続されており、音声合成装置92は気導音スピーカ40に接続されている。
【0102】
図16を参照して、気導音音声認識装置70は、入力部71と、音声認識用データ作成部72と、音声認識用データベース73と、音声認識部74と、出力部75とを具備している。
【0103】
以上の構成を具備する推定気導音音声認識装置6の動作が図17に示されている。骨導音マイク10は、音声認識をするためのベースとなるサンプル音声を集音してサンプル骨導音電気信号d(n)に変換して出力する(ステップS71)。
【0104】
気導音推定フィルタ32は記憶部35から気導音推定フィルタ関数H(f)を読み出し、サンプル骨導音電気信号d(n)の周波数を気導音推定フィルタ関数H(f)によって変換してサンプル推定気導音電気信号r(n)として出力する(ステップS72)。ノイズ除去フィルタ34は、推定気導音電気信号r(n)のノイズを低減してサンプル修正推定気導音電気信号r´(n)として出力する(ステップS73)。
【0105】
音声認識用データ作成部72は、サンプル修正推定気導音電気信号r´(n)から音声認識に用いるための情報を抽出し、音声認識用データベース73に格納する(ステップS74)。
【0106】
骨導音マイク10は、発声者8の骨格を媒体として伝達される発声者8の音声を集音して骨導音電気信号12に変換する(ステップS76)。気導音推定フィルタ32は記憶部35から気導音推定フィルタ関数35を読み出して骨導音電気信号d(n)の周波数特性を気導音推定フィルタ関数H(f)によって変換し、推定気導音電気信号r(n)として出力する(ステップS78)。ノイズ除去フィルタ34は、推定気導音電気信号r(n)のノイズを低減して修正推定気導音電気信号r´(n)として出力する(ステップS80)。
【0107】
修正推定気導音電気信号r´(n)は、気導音音声認識装置70の入力部71に入力される。音声認識部74は、音声認識用データベース73を用いて、入力された修正推定気導音電気信号r´(n)の音声認識を行う(ステップS82)。音声認識の結果は認識結果記録装置80に記録され、ディスプレイ90に表示される。あるいは音声合成装置92は音声認識の結果に基づいて音声を合成し、気導音スピーカ40から出力する(ステップS84)。その後、ステップS76に戻って処理が続けられる。
【0108】
こうした推定気導音音声認識装置によれば、騒音が大きい環境において音声認識が高い精度で行われる。
【0109】
こうした推定気導音音声認識装置は、通常の音声(気導音)に対して音声認識を行う音声認識装置に関する公知技術を応用して開発することができるため、開発コストが低く抑えられる。
【0110】
音声の長時間スペクトルを用いて作成された気導音推定フィルタ32は、骨導音を高い精度で気導音に近い音声に変換するため、音声認識が高い精度で行われる。
【0111】
本実施の形態の変形例として、推定気導音認証装置5の構成において、気導音本人認証装置50の入力部51に気導音マイクを接続した構成が考えられる。気導音マイクは発声者8から音声を集音してサンプル気導音電気信号に変換する。サンプル気導音電気信号は、ステップS74以下の動作において、ステップS73で出力されるサンプル修正推定気導音電気信号r´(n)の代わりとして用いられる。
【0112】
こうした推定気導音音声認識装置は、通常の音声(気導音)による音声認識装置が音声認識をするために用いるデータを利用することができる。
【0113】
【発明の効果】
本発明によれば、骨導音を気導音に近い音に復元する気導音推定装置が提供される。
更に本発明によれば、骨導音を気導音に近い音を復元するためのフィルタを自動的に作成する気導音推定装置が提供される。
更に本発明によれば、安定した精度で骨導音を気導音に近い音を復元する気導音推定装置が提供される。
更に本発明によれば、騒音が大きい環境において違和感が少ない会話を可能にする気導音推定装置が提供される。
更に本発明によれば、騒音が大きい環境において音声による個人の識別を可能にする気導音推定装置が提供される。
更に本発明によれば、騒音が大きい環境において音声認識を可能にする気導音推定装置が提供される。
更に本発明によれば、少ない計算量で骨導音を気導音に近い音に復元する気導音推定装置が提供される。
【図面の簡単な説明】
【図1】図1は、気導音推定フィルタ作成装置の構成を示する
【図2】図2は、気導音推定フィルタデータベースを示す。
【図3】図3は、気導音推定フィルタ作成装置の動作を示すフローチャートである。
【図4】図4は、気導音推定装置の構成を示す。
【図5】図5は、気導音推定装置の動作を示すフローチャートである。
【図6】図6は、推定気導音会話装置の構成を示す。
【図7】図7は、推定気導音会話装置の動作を示すフローチャートである。
【図8】図8は、推定気導音会話装置の構成を示す。
【図9】図9は、推定気導音会話装置の動作を示すフローチャートである。
【図10】図10は、推定気導音会話装置の構成を示す。
【図11】図11は、推定気導音認証装置の構成を示す。
【図12】図12は、気導音本人認証装置の構成を示す。
【図13】図13は、気導音特徴量データベースの構成を示す。
【図14】図14は、推定気導音認証装置の動作を示すフローチャートである。
【図15】図15は、推定気導音音声認識装置の構成を示す。
【図16】図16は、気導音音声認識装置の構成を示す。
【図17】図17は、推定気導音音声認識装置の動作を示すフローチャートである。
【符号の説明】
1…気導音推定装置
2…気導音推定装置
3…推定気導音会話装置
4…推定気導音会話装置
5…推定気導音認証装置
6…推定気導音音声認識装置
7…気導音推定フィルタ作成装置
8、8a、8b…発声者
10、10a、10b…骨導音マイク
11…収集部
12…長時間スペクトル導出器
14…絶対値導出器
20…気導音マイク
21…収集部
22…長時間スペクトル導出器
24…絶対値導出器
26…除算器
28…入力部
29…気導音推定フィルタ記憶部
30…気導音推定フィルタデータベース
31…発声者ID
32、32a、32b…気導音推定フィルタ
33…入力部
34、34a、34b…ノイズ除去フィルタ
35…記憶部
38a、38b…伝送装置
40…気導音スピーカ
42、42a、42b…骨導音スピーカ
44…工場
46…オフィス
50…気導音本人認証装置
51…入力部
52…気導音特徴量抽出部
53…気導音特徴量データベース
54…照合部
55…出力部
56…気導音特徴量
60…電子鍵開閉装置
62…電子制御扉
70…気導音音声認識装置
71…入力部
72…音声認識用データ作成部
73…音声認識用データベース
74…音声認識部
75…出力部
80…認識結果記録装置
90…ディスプレイ
92…音声合成装置
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a technique for improving the sound quality of bone conduction sound.
[0002]
[Prior art]
In a noisy environment such as a factory, a ship, or a construction site, communication of voice using a normal microphone may be difficult. A bone conduction microphone is used in order to smoothly perform voice communication in a noisy environment. The bone conduction microphone is mounted on the surface of a human body, and collects sound propagating through the skeleton of the human body as a medium. The sound collected by a bone-conducting microphone is compared to the sound collected by a normal microphone (sometimes called an air-conducting microphone to distinguish it from the bone-conducting microphone), and the ambient noise Less affected by It is desirable to develop a technology for making voice communication smoother in a noisy environment.
[0003]
A bone conduction microphone that converts bone vibration caused by the speech voice of the wearer into an electric signal, and an equalizer that adjusts the frequency characteristics of the signal converted by the bone conduction microphone, and a signal output from the equalizer is used as a speech voice signal at the next stage. The setting microphone that converts the external air vibration caused by the voice of the wearer into an electric signal, and compares the signal converted by the bone conduction microphone and the signal converted by the setting microphone in the setting mode. Then, based on the comparison result, a microphone device including setting means for setting the equalizer characteristics so that the frequency characteristics of the signal output from the equalizer approaches the frequency characteristics of the signal converted by the setting microphone is known. (See Patent Document 1).
[0004]
[Patent Document 1] JP-A-2002-125298
[0005]
[Problems to be solved by the invention]
An object of the present invention is to provide an air-conducted sound estimation device that restores bone-conducted sound to a sound close to air-conducted sound.
Another object of the present invention is to provide an air-conducted sound estimating device that automatically creates a filter for restoring bone-conducted sound to a sound close to air-conducted sound.
Still another object of the present invention is to provide an air-conducted sound estimation device that restores bone-conducted sound to a sound close to air-conducted sound with stable accuracy.
Still another object of the present invention is to provide an air-conducted sound estimating device that enables conversation with less discomfort in an environment where noise is large.
Still another object of the present invention is to provide an air-conducted sound estimating device that enables an individual to be identified by voice in an environment with a large amount of noise.
Still another object of the present invention is to provide an air-conducted sound estimating device that enables speech recognition in a noisy environment.
Still another object of the present invention is to provide an air-conducted sound estimating apparatus for restoring bone-conducted sound to a sound similar to air-conducted sound with a small amount of calculation.
[0006]
[Means for Solving the Problems]
Hereinafter, the means for solving the problem will be described using the numbers used in [Embodiments of the Invention] in parentheses. These numbers are added to clarify the correspondence between the description in the claims and the embodiment of the invention. However, those numbers should not be used to interpret the technical scope of the invention described in [Claims].
[0007]
The air conduction sound estimating apparatus (2, 3, 4, 5, 6) according to the present invention includes a sample bone conduction sound (d) collected by a bone conduction microphone (10). 0 (N)) a long-term spectrum (D (f)) of the sample air-conducted sound (s) collected by the air-conducted microphone (20). 0 (N)) a storage unit (30, 35, 35a, 35b) for storing a filter function (H (f)) which is a function for converting into a long-time spectrum (S (f)); , 10a, 10b), the input bone conduction sounds (d (n), d a (N), d b (N)) is converted by using the filter function (H (f)), and the estimated air conduction sound (r (n), r a (N), r b (N)) and an air-conducted sound estimating unit (32, 32a, 32b) that outputs the result.
[0008]
According to such an air conduction sound estimating device, bone conduction sound is converted into a sound (estimated air conduction sound) close to a normal voice.
[0009]
The long-term spectrum is an average of spectra obtained from speech including various types of speech sounds. Therefore, in the filter function (H (f)), the characteristic peculiar to the type of language sound is averaged. According to the air-conducted sound estimating device (2, 3, 4, 4a, 5, 6) using such a filter function (H (f)), bone-conducted sounds including various types of speech sounds are accurately air-conducted. It is converted to a sound close to the sound.
[0010]
The air conduction sound estimating apparatus (1) according to the present invention includes a filter function creating unit (7). The filter function creating unit (7) outputs the sample bone conduction sound (d 0 (N)) and the sample air conduction sound (s 0 (N)) and a sample bone conduction sound (d 0 (N)) long-term spectrum (D (f)) and sample air conduction sound (s 0 (N)) a long-term spectrum calculator (12, 22) for calculating a long-term spectrum (S (f)); 0 (N)) is converted to the sample air conduction sound (s 0 (N)) a filter function calculating section (14, 24, 26) for calculating a filter function (H (f)) which is a function for converting into a long-time spectrum (S (f)) and storing it in the storage section (30). Is provided.
[0011]
According to such an air-conducted sound estimation device (1), a filter (H (f)) for converting a bone-conducted sound into a sound close to an air-conducted sound is automatically created. According to such an air-conducted sound estimation device (1), adjustment for converting bone-conducted sound into a sound close to air-conducted sound is performed without depending on human hearing.
[0012]
According to such an air-conducted sound estimation device (1), substantially the same air-conducted sound is estimated regardless of who performs the operation, regardless of the subjectivity of the operator. Therefore, the voice obtained by the air-conducted sound estimation device (1) is suitably used as a voice processed by a machine exemplified in personal authentication or voice recognition.
[0013]
An air conduction sound estimation device (1) according to the present invention includes a sample bone conduction sound (d) which is a sound collected by a bone conduction sound microphone (10). 0 (N)) and a sample air conduction sound (s) which is a sound collected by the air conduction sound microphone (20). 0 (N)) and a sample bone conduction sound (d 0 (N)) long-term spectrum (D (f)) and sample air conduction sound (s 0 (N)) a long-term spectrum calculator (12, 22) for calculating a long-term spectrum (S (f)); 0 (N)) is converted to the sample air conduction sound (s 0 (N)) a filter function calculating section (14, 24, 26) for calculating a filter function (H (f)) which is a function for converting into a long-time spectrum (S (f)); )) And a storage unit (30) for storing the information.
[0014]
According to the air-conducted sound estimation device (1), a filter for converting bone-conducted sound into a sound close to air-conducted sound is automatically created.
[0015]
In the air conduction sound estimating device (1) according to the present invention, the filter function calculation unit (14, 24, 26) includes an absolute value (| S (f) | of a long-term spectrum of the sample air conduction sound (s (n)). ) Divided by the absolute value (| D (f) |) of the long-term spectrum of the sample bone conduction sound (d (n)) is calculated as a filter function (H (f)).
[0016]
Speech sounds emitted by humans have the property that they do not depend on the phase. Therefore, by using the filter function H (f) obtained from | S (f) | and | D (f) | with the phase omitted, the bone conduction sound is converted into a sound close to the air conduction sound with high accuracy. You. Alternatively, the amount of calculation is reduced.
[0017]
There may be a case where substantially real-time audio conversion is performed by sampling the input audio in sections having a short time width (about several tens of msec), performing frequency conversion by a filter function for each section, and outputting. In such a case, since the phase component of the sound in each section is unknown, a filter function H (f) that does not depend on the phase component is preferably used.
[0018]
The air conduction sound estimation device (3, 4, 4a) according to the present invention provides an estimated air conduction sound (r ′ (n), r a '(N), r b '(N)) to the human body through bone conduction.
[0019]
The sound output from the bone conduction speaker is not easily affected by noise, and the sound is clearly transmitted to a person in a noisy environment. An air conduction sound estimation device including a bone conduction microphone and a bone conduction speaker enables accurate conversation in a noisy environment.
[0020]
The air conduction sound estimating device (5) according to the present invention provides an authentication sample air conduction sound (s) which is an air conduction sound collected in advance. 1 (N)), a database (53) storing the authentication sample air-conducted sound feature quantity (56) extracted from the estimated air-conducted sound (r ′ (n)) and the authentication sample air-conducted sound feature quantity (r ′ (n)). An identity authentication unit (54) is provided for authenticating the identity of the speaker (8) who uttered the input bone conduction sound (d (n)) by comparing the input bone conduction sound (d (n)) with the sound conduction feature amount (56).
[0021]
Since the filter function created using the long-term spectrum of the voice converts bone conduction sound into a sound close to the air conduction sound with high accuracy, the personal authentication using the air conduction sound feature (56) is performed accurately. Is According to such an air-conducted sound estimation device, the influence of noise exerted on personal identification by voice in an environment where noise is high is reduced.
[0022]
The air-conducted sound estimating device (6) according to the present invention provides a sample air-conducted sound (s 2 (N)) A speech recognition database (73) storing speech recognition information extracted from the speech recognition database (73), and speech recognition of the estimated air conduction sound (r ′ (n)) is performed with reference to the speech recognition database (73). And a voice recognition unit (74) for performing.
[0023]
According to such an air conduction sound estimation device, the influence of noise exerted on speech recognition in an environment with large noise is reduced. According to such an air conduction sound estimation device, speech recognition is performed with high accuracy in an environment where noise is high.
[0024]
The air conduction sound estimation method according to the present invention uses the bone conduction sound microphone (10) to convert the voice of the speaker (8) into the sample bone conduction sound (d). 0 (N)) and collecting the sound of the speaker using the air conduction sound microphone (20) as a sample air conduction sound (s). 0 (N)) and collecting the sample bone conduction sound (d) 0 (N)) deriving a long-term spectrum (D (f)) (S4); 0 (N)) to derive a long-term spectrum (S (f)) (S10); 0 (N)) is converted to the sample air conduction sound (s 0 (N)) deriving and storing a filter function (H (f)), which is a function for converting into a long-term spectrum (S (f)), (S6, S12, S14, S15); (S20) collecting the voice of the speaker (8) as the input bone conduction sound (d (n)) by using (10), and filtering the frequency characteristic of the input bone conduction sound (d (n)) with the filter function ( H (f)) to generate an estimated air-conducted sound (r (n)) (S22).
[0025]
According to such an air conduction sound estimation method, a bone conduction sound is converted into a sound close to the air conduction sound. According to such an air conduction sound estimation method, the adjustment for converting the bone conduction sound into a sound close to the air conduction sound is performed without relying on human hearing. According to such an air conduction sound estimating apparatus, substantially the same air conduction sound estimation is performed regardless of who performs the operation regardless of the subjectivity of the operator.
[0026]
In the air conduction sound estimation method according to the present invention, the filter function (H (f)) is equal to the sample air conduction sound (s). 0 (N)), the absolute value (| S (f) |) of the long-term spectrum of sample bone conduction sound (d 0 (N)) by dividing by the absolute value (| D (f) |) of the long-term spectrum of (n)).
[0027]
The air conduction sound estimating method according to the present invention uses the air conduction sound microphone (20) to convert the voice of the speaker (8) into the sample air conduction sound (s) for authentication. 1 (N)), collecting and storing the estimated air conduction sound (r ′ (n)) as an authentication sample air conduction sound (s). 1 (N)) and performing authentication of the speaker (8) who uttered the input bone conduction sound (d (n)).
[0028]
According to such an air conduction sound estimation method, the influence of noise exerted on personal identification by voice in an environment with a large amount of noise is reduced. According to such an air conduction sound estimation method, the accuracy of personal identification in an environment with a large amount of noise is improved.
[0029]
The air-conducted sound estimation method according to the present invention uses the air-conducted sound microphone (20) to convert voice into a sample air-conducted sound (s) for speech recognition. 2 (N)) as a step of collecting and storing as (S72); 2 (S74) of creating speech recognition information for identifying a language sound based on (n)), and performing speech recognition of the estimated air conduction sound (r ′ (n)) using the speech recognition information. Step (S82).
[0030]
According to such an air conduction sound estimation method, the influence of noise exerted on speech recognition in an environment with large noise is reduced. According to such an air conduction sound estimation method, speech recognition is performed with high accuracy in an environment where noise is high.
[0031]
BEST MODE FOR CARRYING OUT THE INVENTION
[First Embodiment]
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. Referring to FIG. 1, air conduction sound estimation filter creating device 1 includes bone conduction sound microphone 10, air conduction sound microphone 20, collection units 11 and 21, long-time spectrum derivation units 12 and 22, and absolute value It includes deriving units 14 and 24, a divider 26, an input unit 28, and an air conduction sound estimation filter database 30. Referring to FIG. 2, air conduction sound estimation filter database 30 stores speaker ID 31 and air conduction sound estimation filter function H (f) in association with each other.
[0032]
The bone-conduction sound microphone 10 is arranged in contact with a site where bone vibration is easily transmitted, such as the top of the speaker 8, the temple, and the throat. The bone-conducted sound microphone 10 collects the voice of the speaker 8 that is transmitted using the skeleton of the speaker 8 as a medium, and outputs a sample bone-conducted electric signal s. 0 (N) is converted into an electric signal and output. The air conduction sound microphone 20 collects the voice of the speaker 8 propagating in the air, and outputs the sample air conduction sound electric signal d. 0 (N) is converted into an electric signal and output. The collecting unit 11 outputs the sample bone conduction electric signal d. 0 (N) is collected, and the collection unit 21 collects the sample air conduction sound electric signal s. 0 Collect (n).
[0033]
Long-term spectra are widely used for evaluating the characteristics of speech. The long-term spectrum deriving units 12 and 22 for deriving and outputting a long-term spectrum from an input voice electric signal are realized by using a known technique.
[0034]
The long-term spectrum deriver 12 and the long-term spectrum deriver 22 may be the same. In that case, the long-term spectrum derivers 12 and 22 output the sample air conduction sound signal s. 0 (N) to derive the air-conducted sound long-time spectrum S (f) and the sample bone-conducted sound electric signal d 0 One of the operations of deriving the bone conduction sound long-time spectrum D (f) from (n) is performed first, and the other is performed later.
[0035]
The absolute value deriver 14 and the absolute value deriver 24 may be the same. In this case, the absolute value deriving units 14 and 24 determine the absolute value | D (f) | by removing the phase from the bone conduction sound long-time spectrum D (f), and the air conduction sound long-time spectrum S (f). Of the absolute value | S (f) | excluding the phase from the first and the other are sequentially performed.
[0036]
The input unit 28 receives an input of a speaker ID 31 which is information for specifying the speaker 8.
[0037]
All or a part of the filter function creation unit 7, the input unit 28, and the air conduction sound estimation filter database 30 can be realized by a computer system exemplified by a personal computer or a workstation.
[0038]
FIG. 3 shows the operation of the air conduction sound estimating filter creating device 1. The speaker ID 31 is input from the input unit 28 (step S1). The bone conduction sound microphone 10 collects a sample bone conduction sound, which is a bone conduction sound of the voice emitted by the speaker 8, and outputs the sample bone conduction electric signal d. 0 (N) and output (step S2). It is desirable that the sample bone conduction sound is a voice including all of the vowels a, i, u, e, and o. The collecting unit 11 includes a sample bone conduction sound electric signal d. 0 Collect (n).
[0039]
The long-term spectrum derivation unit 12 calculates the sample bone conduction electric signal d. 0 The long-term spectrum D (f) of (n) is derived and output (step S4). The absolute value deriving unit 14 derives and outputs the absolute value | D (f) | of the long-time spectrum D (f) (step S6).
[0040]
The air conduction sound microphone 20 collects a sample air conduction sound which is an air conduction sound of the voice emitted by the speaker 8, and outputs the sample air conduction sound electric signal s. 0 (N) and output (step S8). It is desirable that the sample air conduction sound is a sound including all vowels a, i, u, e, and o. The collecting unit 21 outputs the sample air conduction sound electric signal s 0 Collect (n).
[0041]
The collecting unit 11 and the collecting unit 21 provide the sample bone conduction sound electric signal d in real time when the speaker 8 makes a voice. 0 (N) and sample air conduction electric signal s 0 (N) may be collected, or the sound once recorded by the speaker 8 may be collected.
[0042]
The long-term spectrum derivation unit 22 outputs the sample air conduction sound electric signal s. 0 The long time spectrum S (f) of (n) is derived and output (step S10). The absolute value deriving unit 24 derives and outputs the absolute value | S (f) | of the long-time spectrum S (f) (step S12).
[0043]
The divider 26 divides | S (f) | by | D (f) | and outputs it as an air conduction sound estimation filter function H (f) (step S14). The air conduction sound estimation filter function H (f) is stored in the air conduction sound estimation filter database 30 in association with the speaker 8 (step S15).
[0044]
The air conduction sound estimation filter function H (f) converts the bone conduction sound into a sound close to the air conduction sound (estimated air conduction sound) by correcting the frequency characteristics of the bone conduction sound to the frequency characteristics of the air conduction sound. To be able to
[0045]
According to such an air conduction sound estimating filter creating apparatus, a function H (f) used to convert a bone conduction sound into a sound similar to an air conduction sound from a bone conduction sound and an air conduction sound input as a sample is automatically generated. Is created.
[0046]
According to such an air-conducted sound estimating filter creating apparatus, the procedure of adjusting the filter while a human being aurally confirms that the bone-conducted sound is converted into a sound close to the air-conducted sound is omitted. According to such an air-conducted sound estimation filter creation device, anyone can create substantially the same air-conducted sound estimation filter, regardless of the subjective feeling of the operator.
[0047]
The long-time spectra S (f) and D (f) are averages of spectra obtained from sounds including various types of speech sounds. Therefore, in the air-conducted sound estimation filter function H (f) obtained using the long-time spectra S (f) and D (f), the characteristic peculiar to the type of language sound is omitted. The air-conducted sound estimation filter function H (f) converts bone-conducted sounds including various types of language sounds into sounds close to air-conducted sounds with stable accuracy.
[0048]
Since the air-conducted sound estimation filter function H (f) is created using the long-time spectra S (f) and D (f), a new air-conducted sound estimation filter function H (f) is used. It is possible to convert the bone-conducted sound input to the sound to a sound close to the air-conducted sound. That is, it is not necessary to change the filter according to the property of the bone conduction sound in a short time (about several tens of msec).
[0049]
The air conduction sound estimation filter function H (f) created using sounds collected from a certain speaker can be diverted to another speaker. Since it is known that the long-term spectrum of speech differs depending on the language, the speaker, or the gender, it is preferable to create an air-conducted sound estimation filter function corresponding to each speaker.
[0050]
Speech sounds emitted by humans have the property that they do not depend on the phase. Therefore, instead of the long-time spectra S (f) and D (f), the air conduction sound estimation filter function H (f) derived using | S (f) | and | D (f) | ) Converts the bone conduction sound into a sound close to the air conduction sound with high accuracy. In the conversion of speech using the air conduction sound estimation filter function H (f), the amount of calculation is reduced by the omission of the phase calculation.
[0051]
[Second embodiment]
FIG. 4 shows an air conduction sound estimation device 2 according to the present invention. The speaker 8 is wearing the bone conduction microphone 10. The bone conduction sound microphone 10 is connected to an air conduction sound estimation filter 32. The air conduction sound estimation filter 32 is connected to a noise removal filter 34. The noise removal filter 34 is connected to the air conduction speaker 40. The “air-conducting sound speaker” is a name used to distinguish and indicate a normal speaker that converts an input electric signal into vibration of air and outputs the converted signal, unlike a bone-conducting sound speaker.
[0052]
The air conduction sound estimation filter 32 is further connected to the air conduction sound estimation filter database 30. The air conduction sound estimation filter database 30 is connected to the input unit 33.
[0053]
The air-conducted sound estimation device 2 preferably includes a noise removal filter 34 for reducing noise. Examples of the noise removal filter include a filter that reduces noise using a spectral subtraction method. An air-conducted sound estimation device having a configuration from which the noise removal filter 34 is removed is preferable in terms of simplicity of the configuration.
[0054]
All or a part of the air conduction sound estimation filter database 30, the air conduction sound estimation filter 32, and the noise removal filter 34 can be realized by software executed by a computer system exemplified by a personal computer or a workstation.
[0055]
The operation of the air-conducted sound estimation device 2 having the above configuration is shown in FIG. When the speaker ID 31 corresponding to the speaker 8 is input from the input unit 33 (step S16), the air conduction sound estimation filter function H (f) is searched in the air conduction sound estimation filter database 30 (step S18). ). The bone conduction sound microphone 10 collects the bone conduction sound of the voice of the speaker 8 and converts it into a bone conduction electric signal d (n) (step S20).
[0056]
The air conduction sound estimation filter 32 estimates the bone conduction electric signal d (n) by multiplying the frequency characteristic of the bone conduction electric signal d (n) by the air conduction sound estimation filter function H (f). It is converted into a sound electric signal r (n) and output (step S22).
[0057]
The bone-conducted sound electric signal d (n) output from the air-conducted sound estimation filter 32 has its noise reduced by the noise elimination filter 34, and is output as a corrected estimated air-conducted sound electric signal r '(n) (step S24). ). The air conduction sound speaker 40 converts the corrected estimated air conduction sound electric signal r '(n) into vibration of air and outputs it (step S26). By repeating the operations in steps S20 to S26, the estimated air conduction sound obtained from the bone conduction sound of the speaker 8 is continuously output from the air conduction sound speaker 40.
[0058]
According to such an air-conducted sound estimation device, the voice of a speaker in an environment with a large amount of noise is less affected by the noise and is output from the air-conducted sound speaker 40. The voice output from the air conduction speaker 40 is close to the air conduction sound and is easy to hear. Since the sound output from the air-conducting sound speaker 40 is close to the air-conducting sound, it is easy to identify the speaker from the sound.
[0059]
[Third Embodiment]
FIG. 6 shows a configuration of the estimated air-conducted sound conversation device 3 according to the present invention. The estimated air-conducting sound conversation device 3 is used to support a conversation between a speaker in a loud noise environment, such as a factory or a ship, and a speaker in an office or soundproof section with low noise. The speaker 8 a in the factory 44 wears the bone conduction sound microphone 10 and the bone conduction sound speaker 42. The bone conduction sound microphone 10 is connected to an air conduction sound estimation filter 32. The air conduction sound estimation filter 32 is connected to the storage unit 35 that stores the air conduction sound estimation filter function H (f).
[0060]
The air conduction sound estimation filter 32 is further connected to a noise removal filter 34. The air conduction sound estimation filter 32 stores an air conduction sound estimation filter function H (f). The air conduction sound estimation filter function H (f) is a function created by the air conduction sound estimation filter creation device 1. The noise removal filter 34 is connected to a transmission device 38a that transmits an electric signal by wire or wirelessly. The electric signal transmitted by the transmission device 38a is converted into a sound propagating in the air by an air conduction sound speaker 40 installed in the office 46.
[0061]
The bone conduction sound microphone 10 is preferably fixed to the body of the speaker 8a so that the speaker 8a can use it freehand. When the speaker 8a is working in a factory or a ship, the bone-conducting sound microphone 10 that can be used freehand enables easy work and smooth conversation in an environment where noise is large.
[0062]
Even when the position of the transmission device 38a is between the bone conduction sound microphone 10 and the air conduction sound estimation filter 32, the same effect as that of the estimated air conduction sound conversation device 3 in FIG. In this case, the bone conduction sound electric signal d (n) is transmitted to the air conduction sound estimation filter 32 after being transmitted by the transmission device 38a.
[0063]
The office 46 is provided with an air-conducting sound microphone 20 that collects the voice uttered by the speaker 8b in the office 46. The air conduction sound microphone 20 is connected to a transmission device 38b that transmits electric signals by wire or wirelessly. The bone conduction speaker 42 to which the electric signal transmitted by the transmission device 38b is input transmits sound to the speaker 8a by vibrating the skeleton of the speaker 8a.
[0064]
FIG. 7A and FIG. 7B show the operation of the estimated air-conducting sound conversation device 3 having the above configuration. Referring to FIG. 7A, the bone conduction sound of the voice uttered by speaker 8a is collected by bone conduction sound microphone 10, and is converted into bone conduction electric signal d (n) (step S28).
[0065]
The air-conducted sound estimation filter 32 reads the air-conducted sound estimation filter function H (f) from the storage unit 35, and converts the frequency characteristics of the bone-conducted sound electric signal d (n) by the air-conducted sound estimation filter function H (f). The output is output as an estimated air conduction sound electric signal (step S30).
[0066]
The electric signal output from the air conduction sound estimation filter 32 is reduced in noise by the noise removal filter 34, and is output as a modified estimated air conduction sound electric signal r '(n) (step S31). The modified estimated air conduction sound electric signal r '(n) is transmitted to the office 46 by the transmission device 38a (step S32). The air conduction sound speaker 40 converts the corrected estimated air conduction sound electric signal r '(n) into an air vibration sound and outputs it (step S33).
[0067]
Referring to FIG. 7B, speaker 8 b hears the sound output from air conduction speaker 40. The air conduction sound microphone 20 collects the sound uttered by the speaker 8b and converts it into an electric signal (step S34). The electric signal is transmitted to the factory 44 by the transmission device 38b (step S35). The bone conduction speaker 42 to which the transmitted electric signal is input transmits a voice to the speaker 8a by vibrating the skeleton of the speaker 8a (step S36).
[0068]
The bone conduction speaker 42 enables sound to be clearly transmitted to the speaker 8a even in a noisy environment. The sound output from the bone conduction sound speaker 42 can be heard only by the person wearing the bone conduction sound speaker 42. According to the estimated air-conducted sound conversation device using such a bone-conducted sound speaker, when confidentiality of conversation is required, for example, while a plurality of groups are gathering in a factory, a ship or an airfield, a member of a specific group It is preferably used when it is desired to transmit information only to
[0069]
According to such an estimated air-conducted sound conversation device, conversation can be easily performed between a person in an environment with a large noise and a person in an environment with a small noise. Since the voice of a person in a noisy environment is converted to a voice similar to an air-conducted sound, it is easy to hear and natural conversation can be performed. The estimated air-conducted sound conversation device 3 using the air-conducted sound estimation filter H (f) created by the air-conducted sound estimation filter creation device 1 has high accuracy in converting bone-conducted sound into sound close to air-conducted sound, In addition, it enables easy conversation and natural conversation.
[0070]
[Fourth embodiment]
The estimated air-conducted sound conversation device 4 according to the fourth embodiment is used when a plurality of speakers in a noisy environment have a conversation. Referring to FIG. 8, speaker 8a is wearing bone conduction sound microphone 10a and bone conduction sound speaker 42a. The sound collected by the bone conduction sound microphone 10a is a bone conduction sound electric signal d. a (N) and transmitted to the air conduction sound estimation filter 32 by the transmission device 38a. The speaker 8b is wearing the bone conduction sound microphone 10b and the bone conduction sound speaker 42b. The sound collected by the bone conduction sound microphone 10b is a bone conduction sound electric signal d. b (N) and transmitted to the air conduction sound estimation filter 32 by the transmission device 38b.
[0071]
The air conduction sound estimation filter 32 is connected to the storage unit 35 that stores the air conduction sound estimation filter function H (f). The air conduction sound estimation filter 32 outputs the bone conduction electric signal d. a (F) is the estimated air conduction sound electric signal r a (N) and output the bone conduction sound electrical signal d b (F) is the estimated air conduction sound electric signal r b (N) and output. The noise removal filter 34 receives the estimated air-conducted sound electric signal r a (N), r b (N) is subjected to noise reduction processing, and each of the corrected estimated air conduction sound electric signals r a '(N), r b '(N).
[0072]
Preferably, the transmission devices 38a, 38b are wireless transmission devices mounted on the speakers 8a, 8b, respectively. Further, the transmission device 38 is also preferably a wireless transmission device. According to the estimated air-conducted sound conversation device 4 including such a transmission device, the movement of the speakers 8a and 8b is not hindered by the codes.
[0073]
The transmission device 38 receives the modified estimated air conduction sound electric signal r a '(N) is transmitted to the bone conduction sound speaker 42b. The transmission device 38 receives the modified estimated air conduction sound electric signal r b '(N) is transmitted to the bone conduction sound speaker 42a.
[0074]
Although FIG. 8 illustrates two speakers, it is easy to extend the configuration of the estimated air-conducted sound conversation device 4 so that it can be used by three or more speakers.
[0075]
The operation of the estimated air-conducting sound conversation device 4 having the above configuration is shown in FIGS. 9A and 9B. Referring to FIG. 9A, the bone conduction sound microphone 10a collects the bone conduction sound of the voice uttered by the speaker 8a to generate the bone conduction electric signal d. a (N) (step S38a). Bone conduction electric signal d a (N) is transmitted to the air conduction sound estimation filter 32 by the transmission device 38a (step S40a).
[0076]
The air-conducted sound estimation filter 32 reads the air-conducted sound estimation filter function H (f) from the storage unit 35, and outputs the bone-conducted sound electric signal d. a The frequency characteristic of (n) is converted by the air conduction sound estimation filter function H (f), and the bone conduction electric signal d a Output as (n) (step S42a).
[0077]
The electric signal output from the air-conducted sound estimation filter 32 has its noise reduced by the noise removal filter 34 and has a corrected estimated air-conducted sound electric signal r. a '(N) is output (step S44a). Modified estimated air conduction sound electrical signal r a '(N) is transmitted to the bone conduction sound speaker 42b by the transmission device 38 (step S46a). The bone conduction sound speaker 42b outputs the modified estimated air conduction sound electric signal to r. a '(N) is converted into the vibration sound of air (step S48a). The speaker 8b hears the estimated air conduction sound obtained from the bone conduction sound of the speaker 8a from the bone conduction microphone 10b.
[0078]
Referring to FIG. 9B, the bone conduction sound microphone 10b collects the bone conduction sound of the voice uttered by the speaker 8b to generate the bone conduction electric signal d. b (N) (step S38b). Bone conduction electric signal d b (N) is transmitted to the air conduction sound estimation filter 32 by the transmission device 38b (step S40b).
[0079]
The air-conducted sound estimation filter 32 reads the air-conducted sound estimation filter H (f) from the storage unit 35 and outputs the bone-conducted sound electric signal d. b The frequency characteristic of (n) is converted by the air conduction sound estimation filter function H (f), and the bone conduction electric signal d b Output as (n) (step S42a).
[0080]
The electric signal output from the air-conducted sound estimation filter 32 has its noise reduced by the noise removal filter 34 and has a corrected estimated air-conducted sound electric signal r. b '(N) is output (step S44b). Modified estimated air conduction sound electrical signal r b '(N) is transmitted to the bone conduction sound speaker 42a by the transmission device 38 (step S46b). The bone conduction sound speaker 42a outputs the modified estimated air conduction sound electric signal r. b '(N) is converted into an air vibration sound (step S48b). The speaker 8a hears the estimated air conduction sound obtained from the bone conduction sound of the speaker 8b from the bone conduction microphone 10a.
[0081]
According to such an estimated air-conducted sound conversation device, conversation can be easily performed between a plurality of people in an environment where noise is high. Since the bone-conducted sound is converted to a sound similar to the air-conducted sound, the voice is easy to hear, and it is easy to identify from the voice who the main voice is.
[0082]
FIG. 10 shows a modification of the present embodiment. The estimated air-conducted sound conversation device 4a has the same number of air-conducted sound estimation filters 32a and 32b as the number of the speakers 8a and 8b, and the storage units 35a and 35b, as compared with the estimated air-conducted sound conversation device 4 in FIG. It includes noise removal filters 34a and 34b and transmission devices 38a and 38b. The transmission device 38a may be placed between the bone conduction sound microphone 10a and the air conduction sound estimation filter 32a. The transmission device 38b may be placed between the bone conduction sound microphone 10b and the air conduction sound estimation filter 32b.
[0083]
The operation of the estimated air-conducting sound conversation device 4a having such a configuration is shown by a flowchart in FIG. 9 from which steps S40a and S40b are removed. In the estimated air-conducted sound conversation device 4a, step S42a is performed by the air-conducted sound estimation filter 32a, step S44a is performed by the noise removal filter 34a, and step S46a is performed by the transmission device 38a. In the estimated air-conducted sound conversation device 4a, step S42b is performed by the air-conducted sound estimation filter 32b, step S44b is performed by the noise removal filter 34b, and step S46b is performed by the transmission device 38b. Other operations are the same as those of the estimated air-conducted sound conversation device 4. The estimated air-conducted sound conversation device 4a has the same effect as the estimated air-conducted sound conversation device 4.
[0084]
[Fifth Embodiment]
FIG. 11 shows an embodiment of the estimated air conduction sound authentication device 5 according to the present invention. The speaker 8 is wearing the bone conduction sound microphone 10. The bone conduction sound microphone 10 is connected to an air conduction sound estimation filter 32. The air conduction sound estimation filter 32 is connected to the storage unit 35 that stores the air conduction sound estimation filter function H (f). The air conduction sound estimation filter 32 is connected to a noise removal filter 34. The noise removal filter 34 is connected to the air-conducted sound identification device 50. The air conduction sound identification device 50 is connected to an electronic key opening / closing device 60. The electronic key opening / closing device 60 is connected to the electronic control door 62. The electronic control door 62 is an automatic lock type door. The electronic key opening / closing device 60 performs control to release the key of the electronic control door 62 according to a specific signal.
[0085]
Referring to FIG. 12, air conduction sound authentication apparatus 50 includes an input unit 51, an air conduction sound characteristic amount extraction unit 52, an air conduction sound characteristic amount database 53, a collation unit 54, and an output unit 55. I have it. Referring to FIG. 13, air conduction sound feature database 53 stores speaker ID 31 and air conduction sound feature amount 56 in association with each other.
[0086]
The operation of the estimated air-conducted sound authentication device 5 having the above configuration is shown in FIG. The speaker ID 31 corresponding to the speaker 8 is input from the input unit 51, and is stored in the air conduction sound feature database 53 (step S50). The speaker 8 utters a sample voice as a base for personal authentication. The bone conduction sound microphone 10 collects the bone conduction sound of the sample voice and outputs the sample bone conduction electric signal d. 1 (N) and outputs the result (step S51).
[0087]
The air-conducted sound estimation filter 32 reads the air-conducted sound estimation filter function H (f) from the storage unit 35, and outputs the sample bone-conducted sound electric signal d. 1 The frequency of (n) is converted by the air conduction sound estimation filter function H (f), and the sample estimation air conduction sound electric signal r 1 Output as (n) (step S52). The noise removal filter 34 outputs the estimated air-conducted sound electric signal r. 1 (N) the sample modified estimated air conduction sound signal r 1 '(N) is output (step S53).
[0088]
The air-conducted sound feature amount extraction unit 52 outputs the sample-corrected estimated air-conducted sound electric signal 1 An air-conducting sound feature quantity 56, which is a quantity indicating a characteristic unique to the speaker, is extracted from '(n) (step S54). The extracted air-conducting sound feature 56 is stored in the air-conducting sound feature database 53 in association with the speaker ID 31 (step S56).
[0089]
When the speaker 8 tries to open the electronic control door 62, a sound is generated. The bone conduction sound microphone 10 collects the sound transmitted using the skeleton of the speaker 8 as a medium, converts the sound into a bone conduction sound electric signal d (n), and outputs the signal (step S58). The air conduction sound estimation filter 32 reads the air conduction sound estimation filter function H (f) from the storage unit 35, and converts the frequency characteristics of the bone conduction sound electric signal d (n) by the air conduction sound estimation filter function H (f). Is output as the estimated air-conducted sound electric signal r (n) (step S60). The noise removal filter 34 reduces the estimated air-conducted electric signal r (n) and outputs a corrected estimated air-conducted electric signal r ′ (n) (step S62).
[0090]
The electric signal output from the noise removal filter 34 is input to the input unit 51 of the air-conducted sound identification device 50. The air-conducted sound feature amount extraction unit 52 extracts a feature amount from the corrected estimated air-conducted sound electric signal r ′ (n) (step S64).
[0091]
The collation unit 54 collates the air-conducted sound feature 56 stored in the air-conducted sound feature database 53 with the feature extracted from the modified estimated air-conducted sound electrical signal r ′ (n) (step S66). ). When the collation results match, the output unit 55 outputs a signal for releasing the electronic key to the electronic key opening / closing device 60 (Step S68). The electronic key opening / closing device 60 sends a signal for releasing the key to the electronic control door, and the key of the electronic control door is released (step S70).
[0092]
According to such an estimated air-conducted sound authentication method, individual identification by voice is performed with high accuracy in a noisy environment.
[0093]
Such an air-conducted-sound identification device can be developed by applying a known technique using an individual-identification device that identifies an individual using ordinary voice (air-conducted sound), so that development costs can be kept low.
[0094]
The air-conducted sound estimation filter 32 created using the long-term spectrum of the voice converts the bone-conducted sound into a voice close to the air-conducted sound with high accuracy, and is therefore suitably used for authenticating the person.
[0095]
If the data of the air-conducted sound feature is stored in the personal identification device that identifies an individual using the feature of the normal voice (air-conducted sound feature), the authentication device using the estimated air-conducted sound is Data is available and is preferred.
[0096]
As a modified example of the present embodiment, in the configuration of the estimated air-conducted sound authentication device 5, a configuration in which an air-conducted microphone is connected to the input unit 51 of the air-conducted sound authentication device 50 can be considered. The air conduction microphone collects sound from the speaker 8 and converts it into a sample air conduction electric signal. The sample air-conduction sound electric signal r is output in step S53 in the operation after step S54. 1 '(N). According to such an estimated air-conducted sound authentication device, when data of the air-conducted sound feature amount 56 is stored in a known personal authentication device for identifying an individual using normal voice (air-conducted sound), It is possible to perform personal authentication in a noisy environment by using the information.
[0097]
As a second modification of the present embodiment, in the configuration of the estimated air-conducted sound authentication device 5, a terminal for connecting the air-conducted sound identification device 50 to an electronic device exemplified by a personal computer or a portable information communication terminal. And an estimated air conduction sound authentication device having a configuration in which the electronic key opening / closing device 60 and the electronic control door 62 are removed. The electronic device has a password function of prohibiting or permitting the use of some or all of the functions of the electronic device in response to a signal input from the air-conduction sound authentication device 50.
[0098]
In the estimated air-conducted sound authentication device having such a configuration, the matching unit 54 of the air-conducted sound identification device 50 includes the air-conducted sound feature 56 stored in the air-conducted sound feature database 53 and the corrected estimated air-conducted sound. The feature amount extracted from the electric signal r ′ (n) is collated. When the collation results match, the air conduction sound identification device 50 sends a signal to the electronic device to authorize the use of some or all of the functions. If the collation results in a mismatch, the air conduction sound identification device 50 sends a signal to the electronic device to prohibit the use of some or all of its functions.
[0099]
According to such an estimated air-conducted sound authentication device, use of an electronic device is permitted only to a predetermined person in an environment where noise is high.
[0100]
[Sixth embodiment]
FIG. 15 shows an embodiment of the estimated air-conducted sound recognition device 6 according to the present invention. The estimated air-conducted sound recognition device 6 includes a bone-conducted sound microphone 10 attached to the speaker 8. The bone conduction sound microphone 10 is connected to an air conduction sound estimation filter 32. The air conduction sound estimation filter 32 is connected to the storage unit 35 that stores the air conduction sound estimation filter function H (f).
[0101]
The air conduction sound estimation filter 32 is further connected to a noise removal filter 34. The noise removal filter 34 is connected to the air-conducted sound recognition device 70. The air-conducted sound recognition device 70 is connected to a recognition result recording device 80 and a display 90. The air-conducted sound recognition device 70 is further connected to a speech synthesizing device 92, which is connected to the air-conducted sound speaker 40.
[0102]
Referring to FIG. 16, air-conducted sound recognition device 70 includes an input unit 71, a data creation unit 72 for speech recognition, a database 73 for speech recognition, a speech recognition unit 74, and an output unit 75. ing.
[0103]
FIG. 17 shows the operation of the estimated air-conducted sound recognition device 6 having the above configuration. The bone conduction sound microphone 10 collects a sample voice serving as a base for performing voice recognition to generate a sample bone conduction sound electric signal d. 2 (N) and output (step S71).
[0104]
The air-conducted sound estimation filter 32 reads the air-conducted sound estimation filter function H (f) from the storage unit 35, and outputs the sample bone-conducted sound electric signal d. 2 The frequency of (n) is converted by the air conduction sound estimation filter function H (f), and the sample estimation air conduction sound electric signal r 2 Output as (n) (step S72). The noise removal filter 34 outputs the estimated air-conducted sound electric signal r. 2 (N) the sample modified estimated air conduction sound signal r 2 '(N) is output (step S73).
[0105]
The voice recognition data generating unit 72 outputs the sample-corrected estimated air-conducted sound electric signal r. 2 The information to be used for speech recognition is extracted from '(n) and stored in the speech recognition database 73 (step S74).
[0106]
The bone conduction sound microphone 10 collects the voice of the speaker 8 transmitted using the skeleton of the speaker 8 as a medium, and converts it into the bone conduction sound electric signal 12 (step S76). The air conduction sound estimation filter 32 reads the air conduction sound estimation filter function 35 from the storage unit 35, converts the frequency characteristic of the bone conduction electric signal d (n) by the air conduction sound estimation filter function H (f), and outputs the estimated air conduction sound. The signal is output as the electric sound conduction signal r (n) (step S78). The noise elimination filter 34 reduces the noise of the estimated air-conducted electric signal r (n) and outputs it as a modified estimated air-conducted electric signal r '(n) (step S80).
[0107]
The corrected estimated air conduction sound electric signal r ′ (n) is input to the input unit 71 of the air conduction sound recognition device 70. The voice recognition unit 74 performs voice recognition of the input corrected estimated air-conducted electric signal r ′ (n) using the voice recognition database 73 (step S82). The result of the voice recognition is recorded in the recognition result recording device 80 and displayed on the display 90. Alternatively, the voice synthesizer 92 synthesizes voice based on the result of voice recognition and outputs the voice from the air conduction speaker 40 (step S84). Thereafter, the process returns to step S76 to continue the process.
[0108]
According to such an estimated air-conducted sound speech recognition device, speech recognition is performed with high accuracy in a noisy environment.
[0109]
Such an estimated air-conducted sound recognition device can be developed by applying a known technology relating to a speech recognition device that performs speech recognition on normal speech (air-conducted sound), and thus the development cost can be kept low.
[0110]
The air conduction sound estimation filter 32 created using the long-term spectrum of the voice converts the bone conduction sound into a voice close to the air conduction sound with high accuracy, and thus performs voice recognition with high accuracy.
[0111]
As a modified example of the present embodiment, in the configuration of the estimated air-conducted sound authentication device 5, a configuration in which an air-conducted microphone is connected to the input unit 51 of the air-conducted sound authentication device 50 can be considered. The air conduction microphone collects sound from the speaker 8 and converts it into a sample air conduction electric signal. The sample air-conduction sound electric signal r is output in step S73 in the operation after step S74. 2 '(N).
[0112]
Such an estimated air-conducted sound recognition device can use data used by a normal speech (air-conducted) speech recognition device for performing speech recognition.
[0113]
【The invention's effect】
According to the present invention, there is provided an air-conducted sound estimation device for restoring bone-conducted sound to a sound close to air-conducted sound.
Further, according to the present invention, there is provided an air-conducted sound estimating apparatus for automatically creating a filter for restoring a bone-conducted sound close to an air-conducted sound.
Further, according to the present invention, there is provided an air-conducted sound estimating apparatus for restoring bone-conducted sound close to air-conducted sound with stable accuracy.
Further, according to the present invention, there is provided an air-conducted sound estimating apparatus which enables conversation with less discomfort in an environment where noise is large.
Further, according to the present invention, there is provided an air-conducted sound estimating apparatus which enables identification of an individual by voice in an environment where noise is high.
Further, according to the present invention, there is provided an air-conducted sound estimating apparatus which enables speech recognition in an environment where noise is large.
Further, according to the present invention, there is provided an air-conducted sound estimating apparatus for restoring bone-conducted sound to a sound close to the air-conducted sound with a small amount of calculation.
[Brief description of the drawings]
FIG. 1 shows a configuration of an air conduction sound estimation filter creating device.
FIG. 2 shows an air conduction sound estimation filter database.
FIG. 3 is a flowchart showing an operation of the air conduction sound estimation filter creating device.
FIG. 4 shows a configuration of an air conduction sound estimation device.
FIG. 5 is a flowchart showing the operation of the air conduction sound estimation device.
FIG. 6 shows a configuration of an estimated air-conducted sound conversation device.
FIG. 7 is a flowchart illustrating the operation of the estimated air-conducted sound conversation device.
FIG. 8 shows a configuration of an estimated air-conducted sound conversation device.
FIG. 9 is a flowchart illustrating the operation of the estimated air-conducted sound conversation device.
FIG. 10 shows a configuration of an estimated air-conducted sound conversation device.
FIG. 11 shows a configuration of an estimated air conduction sound authentication device.
FIG. 12 shows a configuration of an air conduction sound authentication device.
FIG. 13 shows a configuration of an air conduction sound feature database.
FIG. 14 is a flowchart illustrating an operation of the estimated air conduction sound authentication device.
FIG. 15 shows a configuration of an estimated air-conducted sound recognition device.
FIG. 16 shows a configuration of an air-conducted sound recognition device.
FIG. 17 is a flowchart showing an operation of the estimated air-conducted sound recognition device.
[Explanation of symbols]
1. Air conduction sound estimation device
2. Air conduction sound estimation device
3. Estimated air-conducted sound conversation device
4. Estimated air-conducted sound conversation device
5. Estimated air conduction sound authentication device
6 ... Estimated air conduction sound recognition device
7. Air conduction sound estimation filter creation device
8, 8a, 8b ... speaker
10, 10a, 10b ... bone conduction sound microphone
11 ... Collection unit
12 ... Long time spectrum deriving device
14. Absolute value derivation unit
20 ... air conduction sound microphone
21: Collection unit
22 Long time spectrum deriving device
24 ... absolute value derivation unit
26: Divider
28 Input part
29: Air conduction sound estimation filter storage unit
30 ... Air conduction sound estimation filter database
31 ... Speaker ID
32, 32a, 32b ... air conduction sound estimation filter
33 ... input section
34, 34a, 34b ... noise removal filter
35 ... storage unit
38a, 38b ... transmission device
40 ... air conduction speaker
42, 42a, 42b ... bone conduction speaker
44… Factory
46… Office
50 ... air conduction sound identification device
51 ... input unit
52 ... Air-conducted sound feature quantity extraction unit
53 ... Air conduction sound feature database
54 ... Collation unit
55 output unit
56 ... air conduction sound feature
60 ... Electronic key opening / closing device
62 ... Electronic control door
70 air-conduction sound recognition device
71 ... input section
72 ... Speech recognition data creation unit
73 ... Speech recognition database
74 ... Speech recognition unit
75 Output unit
80 ... Recognition result recording device
90 ... Display
92 voice synthesizer

Claims (11)

骨導音マイクによって集音されたサンプル骨導音の長時間スペクトルを気導音マイクによって集音されたサンプル気導音の長時間スペクトルに変換する関数であるフィルタ関数を格納する記憶部と、
骨導音マイクによって集音された入力骨導音の周波数特性を前記フィルタ関数を用いて変換し推定気導音として出力する気導音推定部
とを具備する、
気導音推定装置。
A storage unit that stores a filter function that is a function of converting a long-term spectrum of the sample bone conduction sound collected by the bone conduction microphone into a long-time spectrum of the sample air conduction sound collected by the air conduction microphone,
An air conduction sound estimating unit that converts the frequency characteristic of the input bone conduction sound collected by the bone conduction sound microphone using the filter function and outputs the converted air conduction sound as an estimated air conduction sound.
Air conduction sound estimation device.
請求項1において、
更に、フィルタ関数作成部を具備し、
前記フィルタ関数作成部は、
前記サンプル骨導音と前記サンプル気導音とを収集する収集部と、
前記サンプル骨導音の長時間スペクトルと前記サンプル気導音の長時間スペクトルとを算出する長時間スペクトル算出部と、
前記サンプル骨導音の長時間スペクトルを前記サンプル気導音の長時間スペクトルに変換する関数であるフィルタ関数を算出し前記記憶部に格納するフィルタ関数算出部
とを具備する
気導音推定装置。
In claim 1,
Furthermore, a filter function creation unit is provided,
The filter function creation unit,
A collection unit that collects the sample bone conduction sound and the sample air conduction sound,
A long-term spectrum calculation unit that calculates a long-term spectrum of the sample bone conduction sound and a long-time spectrum of the sample air conduction sound,
An air conduction sound estimating apparatus, comprising: a filter function calculation unit that calculates a filter function that is a function of converting a long-term spectrum of the sample bone conduction sound into a long-term spectrum of the sample air conduction sound and stores the filter function in the storage unit.
骨導音マイクによって集音された音声であるサンプル骨導音と気導音マイクによって集音された音声であるサンプル気導音とを収集する収集部と、
前記サンプル骨導音の長時間スペクトルと前記サンプル気導音の長時間スペクトルとを算出する長時間スペクトル算出部と、
前記サンプル骨導音の長時間スペクトルを前記サンプル気導音の長時間スペクトルに変換する関数であるフィルタ関数を算出するフィルタ関数算出部と、
前記フィルタ関数を格納する記憶部
とを具備する
気導音推定装置。
A collection unit that collects a sample bone conduction sound that is a sound collected by the bone conduction sound microphone and a sample air conduction sound that is a sound collected by the air conduction sound microphone,
A long-term spectrum calculation unit that calculates a long-term spectrum of the sample bone conduction sound and a long-time spectrum of the sample air conduction sound,
A filter function calculation unit that calculates a filter function that is a function of converting the long-term spectrum of the sample bone conduction sound into the long-time spectrum of the sample air conduction sound,
An air conduction sound estimation device, comprising: a storage unit that stores the filter function.
請求項2または3において、
前記フィルタ関数算出部は、前記サンプル気導音の長時間スペクトルの絶対値を前記サンプル骨導音の長時間スペクトルの絶対値で割ったものを前記フィルタ関数として算出する
気導音推定装置。
In claim 2 or 3,
The air conduction sound estimating device, wherein the filter function calculating unit calculates, as the filter function, a value obtained by dividing an absolute value of a long-time spectrum of the sample air conduction sound by an absolute value of a long-time spectrum of the sample bone conduction sound.
請求項1から4のうちのいずれか1項において、
更に、前記推定気導音を骨伝導によって人体に伝える骨導音スピーカ
を具備する
気導音推定装置。
In any one of claims 1 to 4,
Furthermore, an air conduction sound estimation device including a bone conduction sound speaker that transmits the estimated air conduction sound to a human body by bone conduction.
請求項1から5のうちのいずれか1項において、
更に、事前に集音された気導音である認証用サンプル気導音から抽出された認証用サンプル気導音特徴量を格納するデータベースと、
前記推定気導音から抽出された特徴量と前記認証用サンプル気導音特徴量とを比較することによって前記入力骨導音を発声した発声者の本人認証を行う本人認証部
とを具備する
気導音推定装置。
In any one of claims 1 to 5,
Further, a database storing an authentication sample air conduction sound feature amount extracted from the authentication sample air conduction sound which is an air conduction sound collected in advance,
A personal authentication unit for comparing the feature amount extracted from the estimated air-conducted sound with the sample air-conducted sound feature amount for authentication to authenticate the speaker who uttered the input bone-conducted sound; Sound conduction estimation device.
請求項1から6のうちのいずれか1項において、
更に、事前に集音された音声認識用サンプル気導音から抽出された音声認識用情報を格納する音声認識用データベースと、
前記音声認識用データベースを参照して前記推定気導音の音声認識を行う音声認識部
とを具備する
気導音推定装置。
In any one of claims 1 to 6,
A voice recognition database storing voice recognition information extracted from the voice recognition sample air conduction sound collected in advance;
A speech recognition unit for performing speech recognition of the estimated air conduction sound with reference to the speech recognition database.
骨導音マイクを用いて発声者の音声をサンプル骨導音として集音するステップと、
気導音マイクを用いて前記発声者の音声をサンプル気導音として集音するステップと、
前記サンプル骨導音の長時間スペクトルを導出するステップと、
前記サンプル気導音の長時間スペクトルを導出するステップと、
前記サンプル骨導音の長時間スペクトルを前記サンプル気導音の長時間スペクトルに変換する関数であるフィルタ関数を導出し記憶するステップと、
骨導音マイクを用いて前記発声者の音声を入力骨導音として集音するステップと、
前記入力骨導音の周波数特性を前記フィルタ関数を用いて変換し推定気導音を作成するステップ
とを具備する
気導音推定方法。
Collecting the voice of the speaker as a sample bone-conducted sound using a bone-conducted microphone;
Collecting the voice of the speaker as a sample air conduction sound using an air conduction sound microphone;
Deriving a long-term spectrum of the sample bone conduction sound;
Deriving a long-term spectrum of the sample air conduction sound;
Deriving and storing a filter function that is a function for converting the long-term spectrum of the sample bone conduction sound into the long-term spectrum of the sample air conduction sound,
Collecting the voice of the speaker as an input bone conduction sound using a bone conduction sound microphone,
Converting the frequency characteristics of the input bone-conducted sound using the filter function to generate an estimated air-conducted sound.
請求項8において、
前記フィルタ関数は、前記サンプル気導音の長時間スペクトルの絶対値を前記サンプル骨導音の長時間スペクトルの絶対値で割ることによって導出される、
気導音推定方法。
In claim 8,
The filter function is derived by dividing the absolute value of the long-term spectrum of the sample air conduction sound by the absolute value of the long-term spectrum of the sample bone conduction sound,
Air conduction sound estimation method.
請求項8または9において、
更に、気導音マイクを用いて前記発声者の音声を認証用サンプル気導音として収集し記憶するステップと、
前記推定気導音を前記認証用サンプル気導音と比較することによって前記入力骨導音を発声した前記発声者の本人認証を行うステップ
とを具備する
気導音推定方法。
In claim 8 or 9,
Collecting and storing the voice of the speaker as an authentication sample air conduction sound using an air conduction sound microphone;
Comparing the estimated air-conducted sound with the authentication sample air-conducted sound to authenticate the speaker who uttered the input bone-conducted sound.
請求項8から10のうちのいずれか1項において、
更に、気導音マイクを用いて音声を音声認識用サンプル気導音として収集し記憶するステップと、
前記音声認識用サンプル気導音に基づいて言語音を識別するための音声認識用情報を作成するステップと、
前記音声認識用情報を用いて前記推定気導音の音声認識を行うステップ
とを具備する
気導音推定方法。
In any one of claims 8 to 10,
Collecting and storing voice as a sample air-conducting sound for voice recognition using an air-conducting microphone;
Creating voice recognition information for identifying language sounds based on the voice recognition sample air conduction sound,
Performing voice recognition of the estimated air-conducted sound using the voice recognition information.
JP2003071560A 2003-03-17 2003-03-17 Device and method for estimating air-conducted sound Withdrawn JP2004279768A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003071560A JP2004279768A (en) 2003-03-17 2003-03-17 Device and method for estimating air-conducted sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003071560A JP2004279768A (en) 2003-03-17 2003-03-17 Device and method for estimating air-conducted sound

Publications (1)

Publication Number Publication Date
JP2004279768A true JP2004279768A (en) 2004-10-07

Family

ID=33287973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003071560A Withdrawn JP2004279768A (en) 2003-03-17 2003-03-17 Device and method for estimating air-conducted sound

Country Status (1)

Country Link
JP (1) JP2004279768A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240654A (en) * 2006-03-06 2007-09-20 Asahi Kasei Corp In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method
JP2010196376A (en) * 2009-02-25 2010-09-09 Aisin Seiki Co Ltd Door control device
US20130246059A1 (en) * 2010-11-24 2013-09-19 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP2014239346A (en) * 2013-06-07 2014-12-18 富士通株式会社 Voice correction device, voice correction program, and voice correction method
US9538301B2 (en) 2010-11-24 2017-01-03 Koninklijke Philips N.V. Device comprising a plurality of audio sensors and a method of operating the same
JP2019074580A (en) * 2017-10-13 2019-05-16 Kddi株式会社 Speech recognition method, apparatus and program
CN110390945A (en) * 2019-07-25 2019-10-29 华南理工大学 A kind of dual sensor sound enhancement method and realization device
JP2020197629A (en) * 2019-06-03 2020-12-10 パナソニックIpマネジメント株式会社 Speech-text conversion system and speech-text conversion device
CN113314134A (en) * 2021-05-11 2021-08-27 紫光展锐(重庆)科技有限公司 Bone conduction signal compensation method and device
EP4005226A4 (en) * 2019-09-12 2022-08-17 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation
WO2023037429A1 (en) * 2021-09-08 2023-03-16 日本電気株式会社 Authentication device, authentication method, and recording medium

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240654A (en) * 2006-03-06 2007-09-20 Asahi Kasei Corp In-body conduction ordinary voice conversion learning device, in-body conduction ordinary voice conversion device, mobile phone, in-body conduction ordinary voice conversion learning method and in-body conduction ordinary voice conversion method
JP2010196376A (en) * 2009-02-25 2010-09-09 Aisin Seiki Co Ltd Door control device
US20130246059A1 (en) * 2010-11-24 2013-09-19 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
US9538301B2 (en) 2010-11-24 2017-01-03 Koninklijke Philips N.V. Device comprising a plurality of audio sensors and a method of operating the same
US9812147B2 (en) 2010-11-24 2017-11-07 Koninklijke Philips N.V. System and method for generating an audio signal representing the speech of a user
JP2014239346A (en) * 2013-06-07 2014-12-18 富士通株式会社 Voice correction device, voice correction program, and voice correction method
JP2019074580A (en) * 2017-10-13 2019-05-16 Kddi株式会社 Speech recognition method, apparatus and program
JP2020197629A (en) * 2019-06-03 2020-12-10 パナソニックIpマネジメント株式会社 Speech-text conversion system and speech-text conversion device
JP7373739B2 (en) 2019-06-03 2023-11-06 パナソニックIpマネジメント株式会社 Speech-to-text conversion system and speech-to-text conversion device
CN110390945A (en) * 2019-07-25 2019-10-29 华南理工大学 A kind of dual sensor sound enhancement method and realization device
WO2021012403A1 (en) * 2019-07-25 2021-01-28 华南理工大学 Dual sensor speech enhancement method and implementation device
CN110390945B (en) * 2019-07-25 2021-09-21 华南理工大学 Dual-sensor voice enhancement method and implementation device
EP4005226A4 (en) * 2019-09-12 2022-08-17 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation
US11902759B2 (en) 2019-09-12 2024-02-13 Shenzhen Shokz Co., Ltd. Systems and methods for audio signal generation
CN113314134A (en) * 2021-05-11 2021-08-27 紫光展锐(重庆)科技有限公司 Bone conduction signal compensation method and device
CN113314134B (en) * 2021-05-11 2022-11-11 紫光展锐(重庆)科技有限公司 Bone conduction signal compensation method and device
WO2023037429A1 (en) * 2021-09-08 2023-03-16 日本電気株式会社 Authentication device, authentication method, and recording medium

Similar Documents

Publication Publication Date Title
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
US9916842B2 (en) Systems, methods and devices for intelligent speech recognition and processing
US8504360B2 (en) Automatic sound recognition based on binary time frequency units
US20090018826A1 (en) Methods, Systems and Devices for Speech Transduction
JP2003255993A (en) System, method, and program for speech recognition, and system, method, and program for speech synthesis
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
US20170230765A1 (en) Monaural speech intelligibility predictor unit, a hearing aid and a binaural hearing system
US8200488B2 (en) Method for processing speech using absolute loudness
KR20150104345A (en) Voice synthesys apparatus and method for synthesizing voice
JP2004279768A (en) Device and method for estimating air-conducted sound
JP2009178783A (en) Communication robot and its control method
US11900730B2 (en) Biometric identification
JP2018191145A (en) Voice collection device, voice collection method, voice collection program, and dictation method
CN111653281A (en) Method for individualized signal processing of an audio signal of a hearing aid
JP2002268698A (en) Voice recognition device, device and method for standard pattern generation, and program
JP4447857B2 (en) Voice detection device
JP7347540B2 (en) Ear acoustic authentication device, ear acoustic authentication method, and program
KR102239675B1 (en) Artificial intelligence-based active smart hearing aid noise canceling method and system
KR102239676B1 (en) Artificial intelligence-based active smart hearing aid feedback canceling method and system
EP4138416A1 (en) A hearing system comprising a hearing instrument and a method for operating the hearing instrument
KR102350890B1 (en) Portable hearing test device
Kumar et al. Conversion of non-audible murmur to normal speech through Wi-Fi transceiver for speech recognition based on GMM model
WO2023037429A1 (en) Authentication device, authentication method, and recording medium
JP5052107B2 (en) Voice reproduction device and voice reproduction method
JP2975808B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606