JP5929786B2 - 信号処理装置、信号処理方法及び記憶媒体 - Google Patents

信号処理装置、信号処理方法及び記憶媒体 Download PDF

Info

Publication number
JP5929786B2
JP5929786B2 JP2013045230A JP2013045230A JP5929786B2 JP 5929786 B2 JP5929786 B2 JP 5929786B2 JP 2013045230 A JP2013045230 A JP 2013045230A JP 2013045230 A JP2013045230 A JP 2013045230A JP 5929786 B2 JP5929786 B2 JP 5929786B2
Authority
JP
Japan
Prior art keywords
signal
masking
signal processing
voice
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013045230A
Other languages
English (en)
Other versions
JP2014174255A (ja
JP2014174255A5 (ja
Inventor
宏平 浅田
宏平 浅田
佐古 曜一郎
曜一郎 佐古
和之 迫田
和之 迫田
竹原 充
充 竹原
隆俊 中村
隆俊 中村
丹下 明
明 丹下
博幸 花谷
博幸 花谷
有希 甲賀
有希 甲賀
智也 大沼
智也 大沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2013045230A priority Critical patent/JP5929786B2/ja
Priority to US14/154,357 priority patent/US9336786B2/en
Priority to CN201410073433.XA priority patent/CN104036771A/zh
Publication of JP2014174255A publication Critical patent/JP2014174255A/ja
Publication of JP2014174255A5 publication Critical patent/JP2014174255A5/ja
Application granted granted Critical
Publication of JP5929786B2 publication Critical patent/JP5929786B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/46Jamming having variable characteristics characterized in that the jamming signal is produced by retransmitting a received signal, after delay or processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/20Countermeasures against jamming
    • H04K3/28Countermeasures against jamming with jamming and anti-jamming mechanisms both included in a same device or system, e.g. wherein anti-jamming includes prevention of undesired self-jamming resulting from jamming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本開示は、信号処理装置、信号処理方法及び記憶媒体に関する。
近年、スマートフォンやタブレット端末等の携帯端末の普及に伴い、通話のためにユーザが発話する機会が増えている。また、携帯端末をユーザの発話内容に基づいて制御する、音声認識機能の普及に伴い、ユーザが発話する機会はさらに増加している。このようなユーザが発話する機会の増加、および携帯端末が騒音環境下で使用されることが多いことに鑑み、収音したユーザの音声から外部騒音を抑制するノイズリダクション技術が多く提案されている。
一方で、携帯端末は、周囲に他人がいる状況で使用されることも多く、その際ユーザが発話した声が周囲の他人に聞かれる可能が高い。ユーザは、発話内容が他人に聞かれることについて、恥ずかしく思う場合や、セキュリティの観点から回避したいと思う場合がある。よって、発話内容を周囲の他人に聞き取れないよう妨害するマスキング技術が求められている。
例えば、下記特許文献1では、携帯端末においてマスキング技術を利用するために、マスキング音声信号をサーバからダウンロードして再生することで、周囲の他人がユーザの発話内容を聞き取ることを妨害する技術が開示されている。
特開2012−119785号公報
しかし、上記特許文献1では、マスキング音声信号を生成するためには専用の装置を要するため、携帯端末のみでマスキング技術を利用することはできなかった。
そこで、本開示では、ユーザ音声に応じたマスキング音声信号を生成および再生することが可能な、新規かつ改良された信号処理装置、信号処理方法および記憶媒体を提案する。
本開示によれば、ユーザ音声を収音し、オーディオ信号を生成する収音部と、前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成する信号処理部と、前記マスキング音声信号を再生する第1のスピーカと、を備える信号処理装置が提供される。
また、本開示によれば、ユーザ音声を収音し、オーディオ信号を生成するステップと、前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成するステップと、前記マスキング音声信号を再生するステップと、を備える信号処理方法が提供される。
また、本開示によれば、コンピュータに、ユーザ音声を収音し、オーディオ信号を生成するステップと、前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成するステップと、前記マスキング音声信号を再生するステップと、を実行させるためのプログラムが記憶された記憶媒体が提供される。
以上説明したように本開示によれば、ユーザ音声に応じたマスキング音声信号を生成および再生することが可能である。
本開示の一実施形態に係る信号処理装置の概要を示す説明図である。 比較例に係るスマートフォンの構成を示すブロック図である。 第1の実施形態に係るスマートフォンの構成を示すブロック図である。 第1の実施形態に係る信号処理部が生成するマスキング音声信号の一例を示す説明図である。 第1の実施形態に係る信号処理部が生成するマスキング音声信号の一例を示す説明図である。 第1の実施形態に係る信号処理部の構成例を示す説明図である。 第1の実施形態に係る信号処理部の構成例を示す説明図である。 第1の実施形態に係るスマートフォンの動作を示すフローチャートである。 変形例1に係るスマートフォンの構成を示すブロック図である。 第2の実施形態に係るスマートフォンの構成を示すブロック図である。 第3の実施形態に係るスマートフォンの構成を示すブロック図である。 第3の実施形態に係るスマートフォンのキャンセル領域を示す説明図である。 変形例3に係るヘッドセットを示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.本開示の一実施形態に係る信号処理装置の概要
2.実施形態
2−1.第1の実施形態
(2−1−1.スマートフォンの構成)
(2−1−2.動作処理)
(2−1−3.変形例1)
2−2.第2の実施形態
2−3.第3の実施形態
(2−3−1.基本形態)
(2−3−2.変形例2)
(2−3−3.変形例3)
3.まとめ
<<1.本開示の一実施形態に係る信号処理装置の概要>>
図1を参照して、本開示の一実施形態に係る信号処理装置の概要を説明する。図1は、本開示の一実施形態に係る信号処理装置の概要を示す説明図である。図1に示すように、本実施形態に係る信号処理装置は、一例としてスマートフォン1により実現される。
スマートフォン1は、通話用スピーカ2、マイクロフォン3(以下、マイク3と称する)、およびマスキング用スピーカ4を有する。ユーザ8は、通話用スピーカ2およびマイク3により通話相手と通話したり、マイク3に対して制御情報を発話することで、音声認識によりスマートフォン1を制御したりする。
ここで、比較例に係るスマートフォンとして一般的な構成を、図2を参照して説明する。図2は、比較例に係るスマートフォン100の構成を示すブロック図である。図2に示した各ブロックは、スマートフォン100が内部に有している。図2に示したように、スマートフォン100は、通話用スピーカ2、マイク3、制御部11、マイクアンプ21、パワーアンプ23、送話部31、および受話部32を有する。ユーザ8がスマートフォン100により通話する際、受話部32が受信した通話相手の音声は、パワーアンプ23により増幅され、通話用スピーカ2により再生される。ユーザ8が発話した音声はマイク3により収音され、マイクアンプ21により増幅されて、送話部31により通話相手の端末に送信される。また、制御部11は、ユーザ8が発話した音声を音声認識することで、スマートフォン100を制御する。
ユーザ8がスマートフォン100に対して発話した音声は、周囲にいる他人に聞かれ得るが、ユーザ8は、発話内容が他人に聞かれることが恥ずかしい、またはセキュリティの観点から回避したいと思う場合がある。しかしながら、比較例に係るスマートフォン100は、ユーザ8の発話音声を他人に聞かれないための構成を何ら有さないため、これを防ぐことはできない。
そこで、上記事情を一着眼点にして本開示の一実施形態に係る信号処理装置を創作するに至った。本開示の一実施形態に係る信号処理装置は、マスキング音声信号を再生することで、周囲にいる他人にユーザ8の発話音声が聞き取られることを防止することが可能である。本実施形態に係るスマートフォン1は、図1に示したように、マスキング用スピーカ4を有し、マスキング用スピーカ4からマスキング音声信号を再生することで、周囲の他人9がユーザ8の発話内容を聞き取ることを妨害する。
ただし、マスキング用スピーカ4がマスキング音声信号として白色雑音等の単なるノイズを再生した場合、マスキング音声信号とユーザ8の発話音声とを他人9に容易に識別されて、ユーザ8の発話内容が聞き取られてしまう可能性がある。そこで、本実施形態に係るスマートフォン1は、ユーザ8が発話した音声をマイク3により収音して、収音したユーザ音声に応じたマスキング音声信号を生成および再生することで、発話内容の聞き取りを妨害する。
以上、本開示の一実施形態に係る信号処理装置の概要について説明した。続いて、本開示の一実施形態に係る信号処理装置の詳細な内容について説明する。
なお、図1に示した例では、信号処理装置の一例としてスマートフォン1を用いたが、本開示に係る情報処理装置はこれに限定されない。例えば、信号処理装置は、HMD(Head Mounted Display)、ヘッドセット、デジタルカメラ、デジタルビデオカメラ、PDA(Personal Digital Assistants)、PC(Personal Computer)、ノートPC、タブレット端末、携帯電話端末、携帯用音楽再生装置、携帯用映像処理装置または携帯用ゲーム機器等であってもよい。
<<2.実施形態>>
<2−1.第1の実施形態>
[2−1−1.スマートフォンの構成]
まず、図3を参照して、本実施形態に係るスマートフォン1−1の構成について説明する。図3は、第1の実施形態に係るスマートフォン1−1の構成を示すブロック図である。図3に示した各ブロックは、スマートフォン1−1が内部に有している。図3に示すように、スマートフォン1−1は、通話用スピーカ2、マイク3、マスキング用スピーカ4、制御部11、信号処理部12、マイクアンプ21、パワーアンプ22、パワーアンプ23、送話部31、受話部32、およびマスキング用音源41を有する。以下、スマートフォン1−1の各構成要素について詳細に説明する。
(受話部32)
受話部32は、外部からのオーディオ信号を受信する通信部としての機能を有する。具体的には、受話部32は、通話相手の端末から通話相手の音声を示すオーディオ信号を受信する。受話部32は、受信したオーディオ信号をパワーアンプ23に出力する。
(パワーアンプ23)
パワーアンプ23は、受話部32から出力されたオーディオ信号を増幅する機能を有する。パワーアンプ23は、増幅したオーディオ信号を通話用スピーカ2に出力する。
(通話用スピーカ2)
通話用スピーカ2は、パワーアンプ23から出力されたオーディオ信号を再生する出力装置である。なお、本実施形態では、ユーザ8が通話用スピーカ2に耳を当てながらスマートフォン1−1を使用することを想定している。
(マイク3)
マイク3は、ユーザ音声を収音し、オーディオ信号を生成する収音部としての機能を有する。より詳しくは、マイク3は、ユーザ8が発話した音声を収音して、オーディオ信号を生成する。このとき、マイク3は、後述するマスキング用スピーカ4により再生されたマスキング音声信号もユーザ8の音声と共に収音して、オーディオ信号を生成し得る。つまり、マイク3が生成するオーディオ信号には、ユーザ音声およびマスキング音声信号が含まれ得る。以下では、マイク3が生成するオーディオ信号を、収音信号とも称する。マイク3は、生成した収音信号をマイクアンプ21に出力する。
(マイクアンプ21)
マイクアンプ21は、マイク3から出力された収音信号を増幅する機能を有する。マイクアンプ21は、増幅した収音信号を制御部11、送話部31、および信号処理部12に出力する。
(制御部11)
制御部11は、演算処理装置および制御装置として機能し、各種プログラムに従ってスマートフォン1−1内の動作全般を制御する。制御部11は、例えばCPU(Central Processing Unit)、マイクロプロセッサによって実現される。なお、制御部11は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
制御部11は、収音信号に含まれるユーザ音声から、制御情報を認識する制御情報認識部としての機能を有する。より詳しくは、制御部11は、マイクアンプ21から出力された収音信号から、ユーザ音声に含まれる制御情報を認識する。例えば、制御部11は、ユーザの発話内容に基づいて、電話をかける、メッセージを送信する、検索する等の制御情報を認識する。また、制御部11は、認識された制御情報に基づいてスマートフォン1−1を制御する機能を有する。例えば、制御部11は、電話をかける、メッセージを送信する、検索する等の制御情報に基づいて、スマートフォン1−1を制御して実際に電話発信、メッセージ送信、または検索等を行う。また、制御部11は、マイク3により収音されるユーザ音声の言語を認識する言語認識部としての機能を有する。例えば、制御部11は、ユーザ8が話す言語が日本語、英語、または中国語等のどの言語であるかを認識する。また、制御部11は、ユーザ8の発音やイントネーション等に応じて、ユーザ8の母国語や出身地方を認識してもよい。
(送話部31)
送話部31は、収音信号を外部に送信する通信部としての機能を有する。より詳しくは、送話部31は、マイクアンプ21から出力された収音信号を、通話相手の端末に送信する。
(パワーアンプ22)
パワーアンプ22は、後述の信号処理部12から出力されたマスキング音声信号を増幅する機能を有する。パワーアンプ22は、増幅した収音信号をマスキング用スピーカ4に出力する。なお、パワーアンプ22は、マスキング用スピーカ4により再生されるマスキング音声信号が周囲の他人9に聞こえ、且つ、周囲の他人9がユーザ8の発話内容を聞き取れない程度の音量となるよう増幅する。
(マスキング用スピーカ4)
マスキング用スピーカ4は、マスキング音声信号を再生する出力装置(第1のスピーカ)である。より詳しくは、マスキング用スピーカ4は、パワーアンプ22から出力されたマスキング音声信号を再生する。
(マスキング用音源41)
マスキング用音源41は、マスキング音声信号を生成するための元となる音源を記録する記録部としての機能を有する。例えば、マスキング用音源41は、音源として、300Hz〜3kHzとされる音声帯域の帯域ノイズ、無意味列の音声信号、男女含む複数名による人声、白色雑音、有色雑音などの多様なノイズを記録する。他にも、マスキング用音源41は、音源として、マイク3により収音されたユーザ音声を記録してもよい。後述する信号処理部12は、マスキング用音源41に記録された音源に基づいて、マスキング音声信号を生成する。
(信号処理部12)
信号処理部12は、収音信号に応じて、ユーザ音声をマスキングするためのマスキング音声信号を生成する。より詳しくは、信号処理部12は、マイクアンプ21から出力された収音信号に基づいて、マスキング用音源41に記録された音源を用いたマスキング音声信号を生成する。ここで、ユーザ音声をマスキングするとは、ユーザ8の発話をマスキング用スピーカ4により再生されるマスキング音声信号に埋没させて、他人9に聞き取られないよう秘匿することを指す。このような、ユーザ音声をマスキングするためのマスキング音声信号には、多様な種類が考えられる。
例えば、信号処理部12は、一般的に300Hz〜3kHzとされる音声帯域の帯域ノイズ、または無意味列の音声信号、男女含む複数名による人声によりマスキング音声信号を生成する。この場合、マスキング音声信号は、ユーザ8の音声と同等の帯域のノイズや人声となるため、他人9に対してユーザ8の発話とマスキング音声信号との混同を生じさせて、ユーザ8の発話をマスキングすることができる。また、信号処理部12は、マスキング用音源41により記録されたユーザ8自身の音声によりマスキング音声信号を生成してもよい。ユーザ8自身の過去の音声によるマスキング音声信号は、ユーザ8が現在発話した音声とより強く混同するため、ユーザ8の発話をより強くマスキングすることができる。
さらに、信号処理部12は、他人9にとって意味を持つ内容のマスキング音声信号を生成してもよい。マスキング音声信号が他人9にとって意味を持つ内容である場合、マスキング音声信号は、他人9の注意をユーザ8の発話内容から逸らすことで、ユーザ8の発話をマスキングすることができる。
例えば、信号処理部12は、制御部11により認識されたユーザ8の言語に応じてマスキング音声信号を生成してもよい。具体的には、信号処理部12は、ユーザ8の使用言語と同じ言語、または異なる言語により、マスキング音声信号を生成してもよい。このとき、マスキング音声信号が他人9の使用言語と同じ言語である場合、他人9はマスキング音声信号が示す内容が理解可能であるためマスキング音声信号に注意を引かれる。一方で、マスキング音声信号が他人9の使用言語と異なる言語である場合、他人9は珍しい外国語や方言が聞こえることに関心を持ち、同様にマスキング音声信号に注意を引かれる。このようなマスキング音声信号は、他人9の注意をユーザ8の発話内容から逸らすことで、ユーザ8の発話が聞き取られることを妨害することができる。なお、信号処理部12は、制御部11により認識されたユーザ8の母国語や出身地方等に基づいて、ユーザ8が母国または出身地方にいるものとして周囲の他人9の使用言語を推定し、周囲の他人9の言語に応じたマスキング音声信号を生成してもよい。なお、マスキング音声信号は、ユーザ8の使用言語と同じ場合、ユーザ8の発話と同じ周波数帯域となるため、他人9に対してユーザ8の発話との混同を生じさせることもできる。他に、他人9にとって意味を持つ、注意を引き得るマスキング音声信号としては、有名人・著名人の話し声によるものが考えられる。
また、スマートフォン1−1は、マスキング音声信号の再生音量をユーザ8の発話よりも大きくすることで、ユーザ8の発話をマスキングしてもよい。
さらに、信号処理部12は、収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を生成してもよい。この場合、マスキング音声信号が一様に再生されないため、他人9がマスキング音声信号に耳慣れすることを防止することができる。また、ユーザ8の発話と同時にマスキング音声信号が再生されるため、ユーザ8の発話とマスキング音声信号とを他人9が識別し辛くすることができる。以下、図4A、図4Bを参照して、連続してマスキング音声信号を生成する例と、収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を生成する例とを、対比させながら説明する。
図4A、図4Bは、第1の実施形態に係る信号処理部12が生成するマスキング音声信号の一例を示す説明図である。図4A、図4Bでは、スマートフォン1−1が通話や音声認識を行う動作モードに切り替えられた時から、その動作モード終了までの間における、収音信号およびマスキング音声信号を示す音声信号例120−1、120−2を示している。
音声信号例120−1は、信号処理部12が、収音信号に何ら依拠することなく、連続するマスキング音声信号を生成した場合の波形である。音声信号例120−1に示したように、マスキング音声信号は一定の音量および帯域で再生されるため、他人9はマスキング音声信号に耳慣れし得る。
音声信号例120−2は、信号処理部12が、ユーザ8が発話中、即ち収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を生成した場合の波形である。音声信号例120−2に示したように、マスキング音声信号はユーザ8が発話していない時間区間に再生が停止されるため、他人9の耳慣れを防ぐことができる。そこで、図5および図6を参照して、収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を生成するための、具体的な信号処理部12の構成例を説明する。
図5は、第1の実施形態に係る信号処理部12の構成例を示す説明図である。図5に示したように、信号処理部12−1は、解析用BPF(Band Pass Filter)群121、可変ゲインブロック群122、合成用BPF群123、および加算器124を有する。信号処理部12−1は、BPFバンクにより発話音声を解析して、ユーザ音声を組成する周波数成分ごとのデータ量に応じてマスキング音声信号を生成する機能を有する。以下、信号処理部12−1の各構成要素について詳細に説明する。
・解析用BPF群121
解析用BPF群121は、複数のBPFのアレイから成るフィルタバンクである。解析用BPF群121は、ユーザ音声を組成する周波数帯域成分ごとに、振幅等のデータ量に基づいて対応係数を算出する。例えば、解析用BPF群121を構成する解析用BPFは、それぞれ所定の周波数帯域を通過させて、所定時間幅でのデータ二乗和により対応係数を算出する。ここで、対応係数は、ユーザ音声を組成する各周波数帯域成分の構成比率を示し、信号処理部12−1が生成するマスキング音声信号の、各周波数帯域成分の配分比となる。解析用BPF群121を構成する解析用BPFは、それぞれ対応する可変ゲインブロック群122を構成する可変ゲインブロックに、算出した対応係数を出力する。
・可変ゲインブロック群122
可変ゲインブロック群122は、マスキング用音源41から取得した音声信号を増幅する機能を有する。可変ゲインブロック群122を構成する可変ゲインブロックは、対応する解析用BPFから出力された対応係数によりマスキング用音源41から取得した音声信号を増幅して、それぞれ対応する合成用BPF群123を構成する合成用BPFに出力する。
・合成用BPF群123
合成用BPF群123は、複数のBPFのアレイから成るフィルタバンクである。合成用BPF群123を構成する合成用BPFは、対応する可変ゲインブロックから出力された音声信号から、対応する解析用BPFと同じ周波数帯域成分を通過させて、合成用音声信号を生成する。合成用BPF群123は、生成した音声信号を加算器124に出力する。
・加算器124
加算器124は、合成用BPF群123から出力された音声信号を合成することで、マスキング音声信号を生成する。
このように、解析用BPF群121を構成する各BPFの応答量と、可変ゲインブロック群122を構成する各可変ゲインブロックの可変ゲイン量との対応関係が、対応係数により規定される。よって、信号処理部12−1は、収音信号の周波数帯域成分ごとのデータ量に応じたマスキング音声信号を生成することができる。つまり、信号処理部12−1は、収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を生成することができる。さらに、信号処理部12−1は、ユーザ音声と同様の周波数帯域成分の配分比を有する、即ちユーザ8の発話音声と似たマスキング音声信号を生成することができる。このため、信号処理部12−1により生成されたマスキング音声信号は、他人9に対してユーザ8の発話との混同を生じさせて、ユーザ8の発話をより強くマスキングすることができる。
以上、BPFバンク解析を用いてマスキング音声信号を生成する信号処理部12の構成例を説明した。続いて、図6を参照して、信号処理部12の他の構成例を説明する。
図6は、第1の実施形態に係る信号処理部12の構成例を示す説明図である。図6に示したように、信号処理部12−2は、VAD(Voice Activity Detection)125、およびスイッチ126を有する。以下、信号処理部12−2の各構成要素について詳細に説明する。
・VAD125
VAD125は、入力された収音信号から、音声が発話された音声区間とそれ以外のノイズ区間とを検出する機能を有する。VAD125は、音声区間かノイズ区間かに応じて、スイッチ126を制御する。
・スイッチ126
スイッチ126は、VAD125による制御に基づいて、マスキング用音源41から取得した音声信号を通過または非通過させて、マスキング音声信号として出力する。より詳しくは、スイッチ126は、収音信号の音声区間に相当する時間区間ではマスキング用音源41から取得した音声信号を通過させ、ノイズ区間に相当する時間区間では非通過とする。
このように、信号処理部12−2は、音声区間かノイズ区間かに応じてマスキング用音源41から取得した音声信号の通過/非通過を制御することで、収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を生成することができる。
以上、VADの手法を用いてマスキング音声信号を生成する信号処理部12の構成例を説明した。
(補足)
なお、スマートフォン1−1は、ADC(Analog−to−Digital Converter)およびDAC(Digital−to−Analog Converter)を有していてもよい。ADCとは、アナログ信号をデジタル信号に変換する電子回路であり、DACとは、デジタル信号をアナログ信号に変換する電子回路である。例えば、マイクアンプ21の後段にADCが設けられていてもよい。また、パワーアンプ22、およびパワーアンプ23の前段にDACが設けられていてもよい。
以上、スマートフォン1−1の構成について説明した。
[2−1−2.動作処理]
続いて、図7を参照して、スマートフォン1−1の動作処理について説明する。図7は、第1の実施形態に係るスマートフォン1−1の動作を示すフローチャートである。なお、他の実施形態における動作は、スマートフォン1−1の動作と同様である。図7に示すように、まず、ステップS11で、マイク3は、ユーザ音声を収音し、収音信号を生成する。
次いで、ステップS12で、信号処理部12は、マイク3により生成された収音信号に応じてマスキング音声信号を生成する。より詳しくは、信号処理部12は、図5および図6を参照して上記説明したように、BPFバンク解析やVADの手法により、ユーザ音声をマスキングするマスキング音声信号を生成する。
そして、ステップS13で、マスキング用スピーカ4は、信号処理部12により生成されたマスキング音声信号を再生する。なお、スマートフォン1−1は、マスキング音声信号を再生しながら、送話部31および受話部32による通話や、制御部11により音声認識された制御情報に基づく動作を行う。
以上、第1の実施形態について説明した。続いて、第1の実施形態に係る変形例について説明する。
[2−1−3.変形例1]
本変形例は、通話用スピーカ2が、通話相手の音声と共にマスキング音声信号を再生する形態である。以下、図8を参照して、本変形例に係るスマートフォン1−2について説明する。
図8は、変形例1に係るスマートフォン1−2の構成を示すブロック図である。図8に示した各ブロックは、スマートフォン1−2が内部に有している。図8に示すように、本変形例に係るスマートフォン1−2は、図3を参照して上記説明した第1の実施形態に係るスマートフォン1−1から、マスキング用スピーカ4およびパワーアンプ22を省き、加算器13を加えた構成を有する。
信号処理部12により生成されたマスキング音声信号は、加算器13に出力される。加算器13は、入力された信号を合成する機能を有し、信号処理部12から出力されたマスキング音声信号と、受話部32から出力された通話相手のオーディオ信号を合成する。加算器13により合成されたマスキング音声信号および通話相手のオーディオ信号は、パワーアンプ23により増幅され、通話用スピーカ2により出力される。つまり、通話用スピーカ2は、通話相手の音声とマスキング音声信号とを再生する。
本変形例に係るスマートフォン1−2は、通話用スピーカ2のマスキング用スピーカ4としても用いることで、複数のスピーカを要することなく、マスキング音声信号を再生してユーザ音声をマスキングすることができる。なお、本変形例は、ユーザ8が通話用スピーカ2に耳を当てずにスマートフォン1−2を使用する、ハンズフリー通話や音声認識入力において用いられることを想定している。ユーザ8は、通話用スピーカ2に耳を当てながら、即ち口元をマイク3に近づけて使用する第1の実施形態と比較して大きな声で話し得る。そこで、パワーアンプ23は、第1の実施形態と比較して強くマスキング音声信号を増幅する。
以上、変形例1について説明した。
<2−2.第2の実施形態>
本実施形態は、マスキング用スピーカ4から再生されたマスキング音声信号がマイク3により収音された場合に、電気的に収音信号からマスキング音声信号成分を除去する形態である。マスキング用スピーカ4から再生されたマスキング音声信号は、マイク3とマスキング用スピーカ4との位置関係や向き、再生音量、収音感度等によってはマイク3に収音されてしまい、通話や音声認識の妨げになり得る。この点、本実施形態によれば、収音信号からマスキング音声信号成分を除去することで、雑音を低減した高品質な通話や音声認識を実現することができる。以下、図9を参照して、本実施形態に係るスマートフォン1−3について説明する。
図9は、第2の実施形態に係るスマートフォン1−3の構成を示すブロック図である。図9に示した各ブロックは、スマートフォン1−3が内部に有している。図9に示すように、本実施形態に係るスマートフォン1−3は、図3を参照して上記説明した第1の実施形態に係るスマートフォン1−1に、エコーキャンセラ14および加算器15を加えた構成を有する。以下、エコーキャンセラ14および加算器15が有する機能について説明する。
(エコーキャンセラ14)
エコーキャンセラ14は、マスキング用スピーカ4から再生されたマスキング音声信号がマイク3により収音された場合に、収音信号からマスキング音声信号を除去する、除去部としての機能を有する。なお、エコーキャンセラ14および後述の加算器15により、除去部として機能すると捉えてもよい。
エコーキャンセラ14は、特定の伝達関数および信号処理部12が生成したマスキング音声信号に基づいて、収音信号に含まれるマスキング音声信号を生成する。エコーキャンセラ14は、信号処理部12が生成したマスキング音声信号、マイク3およびマスキング用スピーカ4の特性に基づいて、マイク3とマスキング用スピーカ4との間の空間の伝達関数を推定する。エコーキャンセラ14は、スマートフォン1−3とユーザ8との位置関係に応じて、随時伝達関数を更新してもよい。また、エコーキャンセラ14は、デジタルフィルタとして実現されてもよい。なお、伝達関数は、信号処理部12が生成したマスキング音声信号と、マイク3により収音されたマスキング音声信号との対応関係とも捉えることができる。
エコーキャンセラ14は、生成した収音信号に含まれるマスキング音声信号を、加算器15に出力する。
(加算器15)
加算器15は、収音信号から、エコーキャンセラ14により生成されたマスキング音声信号を減算する機能を有する。このため、収音信号から、マスキング用スピーカ4から再生されマイク3により収音されたマスキング音声信号が除去される。加算器15は、マスキング音声信号を除去した収音信号を、制御部11、送話部31、および信号処理部12に出力する。
このように、本実施形態は、エコーキャンセラ14および加算器15により収音信号からマスキング音声信号成分を除去することができ、雑音を低減した高品質な通話や音声認識を実現することができる。また、信号処理部12に入力される収信信号も雑音が低減されているため、信号処理部12は、よりユーザ8の音声に即したマスキング音声信号を生成することができる。
以上、第2の実施形態について説明した。
<2−3.第3の実施形態>
[2−3−1.基本形態]
本実施形態は、マスキング音声信号を再生するスピーカを複数設け、互いに打ち消し合わせることで、空間音響的に収音信号からマスキング音声信号成分を除去する形態である。以下、図10を参照して、本実施形態に係るスマートフォン1−4について説明する。なお、以下ではマスキング音声信号を再生するスピーカを2つ設ける例を説明するが、3つ以上であってもよい。
図10は、第3の実施形態に係るスマートフォン1−4の構成を示すブロック図である。図10に示した各ブロックは、スマートフォン1−4が内部に有している。図10に示すように、本実施形態に係るスマートフォン1−4は、図9を参照して上記説明した第2の実施形態に係るスマートフォン1−3に、逆相信号生成部16、パワーアンプ24、マスキング用スピーカ4−2を加えた構成を有する。なお、第2の実施形態におけるマスキング用スピーカ4を、本実施形態ではマスキング用スピーカ4−1と称する。以下、逆相信号生成部16、パワーアンプ24、マスキング用スピーカ4−2が有する機能について説明する。
(逆相信号生成部16)
逆相信号生成部16は、信号処理部12から出力されたマスキング音声信号の逆相信号を生成する機能を有する。逆相信号生成部16は、生成した逆相信号をパワーアンプ24に出力する。
(パワーアンプ24)
パワーアンプ24は、逆相信号生成部16から出力された逆相信号を増幅する機能を有する。パワーアンプ24は、パワーアンプ22と同程度に増幅してもよい。パワーアンプ24は、増幅した逆相信号をマスキング用スピーカ4−2に出力する。
(マスキング用スピーカ4−2)
マスキング用スピーカ4−2は、マスキング音声信号の逆相信号を再生する出力装置(第2のスピーカ)である。具体的には、マスキング用スピーカ4−2は、パワーアンプ24から出力された逆相信号を、マスキング用スピーカ4−1によるマスキング音声信号の再生と同時に再生する。マスキング用スピーカ4−2は、マスキング用スピーカ4−1より再生されたマスキング音声信号と、マスキング用スピーカ4−2より再生された逆相信号とが、マイク3が収音する空間において打ち消し合うよう設置される。マスキング用スピーカ4−2は、マスキング用スピーカ4−1と同一のスピーカ特性を有する。また、図10に示したように、マスキング用スピーカ4−2は、マイク3の位置を中心として、マスキング用スピーカ4−1と幾何学的に対称な位置に設置される。
マスキング用スピーカ4−1から再生されたマスキング音声信号とマスキング用スピーカ4−2が再生する逆相信号とは、ぶつかり合う領域で互いに打ち消し合う。このような領域を、以下ではキャンセル領域とも称する。スマートフォン1−4におけるキャンセル領域について、図11を参照して説明する。
図11は、第3の実施形態に係るキャンセル領域を示す説明図である。図11(A)に示した各ブロックは、スマートフォン1−4が内部に有している。図11(A)に示すように、スマートフォン1−4のキャンセル領域5−1は、マスキング音声信号および逆相信号が同時に再生されるため、マスキング用スピーカ4−1およびマスキング用スピーカ4−2のほぼ中間地点に形成される。キャンセル領域5−1がマイク3を覆うため、マイク3が収音する空間でマスキング音声信号が打ち消される。このようにして、スマートフォン1−4は、空間音響的に収音信号からマスキング音声信号成分を除去することができる。さらに、キャンセル領域5−1は、マイク3が収音する空間、即ちユーザ8の口元に位置するため、ユーザ8は、マスキング音声信号による邪魔を受けずに、発話することができる。
また、一般的に、逆相信号による打消しの効果は、低域周波数であるほど高い。このため、マスキング音声信号が低域であるほど、逆相信号と強く打ち消し合うようになり、マイク3はユーザ8の音声をより明瞭に収音することができる。このような低域のマスキング音声信号としては、例えば母音を主な成分とする音声信号がある。また、低域のマスキング音声信号がマスキング用スピーカ4−2により空間音響的に除去されるため、エコーキャンセラ14は、特に中高域において電気的にマスキング音声信号を除去してもよい。スマートフォン1−4は、マスキング用スピーカ4−2とエコーキャンセラ14との併用により、全音域でマスキング音声信号を除去することができる。
以上、第3の実施形態について説明した。続いて、第3の実施形態に係る変形例について説明する。
[2−3−2.変形例2]
本変形例は、マスキング用スピーカ4−2は、遅延させた逆相信号を再生することで、マスキング用スピーカ4−1およびマスキング用スピーカ4−2の中間地点以外の領域にキャンセル領域を形成する形態である。以下、図11(B)を参照し、本変形例に係るスマートフォン1−5について説明する。
図11(B)に示すように、本変形例に係るスマートフォン1−5において、マスキング用スピーカ4−1およびマスキング用スピーカ4−2は、マイク3の位置を中心とした幾何学的に対称な位置に設置されていない。また、スマートフォン1−5は、図10を参照して上記説明したスマートフォン1−4と同様の内部構成を有する。ただし、スマートフォン1−5は、図11(B)に示したように、ディレイ17をさらに有する。以下、ディレイ17が有する機能について説明する。
(ディレイ17)
ディレイ17は、入力された音声信号を遅延させて出力する機能を有する。本変形例では、ディレイ17は、逆相信号生成部16により生成された逆相信号を遅延させる遅延部として機能する。より詳しくは、ディレイ17は、マスキング用スピーカ4−1より再生されたマスキング音声信号とマスキング用スピーカ4−2より再生された逆相信号とが、マイク3が収音する空間において打ち消し合うよう、逆相信号を遅延させる。ディレイ17は、遅延させた逆相信号を、パワーアンプ24に出力する。なお、ディレイ17は、特定のフィルタ形式であってもよい。
ディレイ17により遅延された逆相信号は、パワーアンプ24により増幅され、マスキング用スピーカ4−2により再生される。そして、マスキング用スピーカ4−2から再生された逆相信号は、ディレイ17により遅延した分だけマスキング用スピーカ4−2に近い位置で、マスキング用スピーカ4−1から出力されたマスキング音声信号と打消し合う。つまり、図11(B)に示したように、キャンセル領域5−2は、マスキング用スピーカ4−2に近い位置に形成され、マスキング用スピーカ4−1と比較してマスキング用スピーカ4−2に近い位置に設置されたマイク3を覆う。
このため、スマートフォン1−5は、マスキング用スピーカ4−1およびマスキング用スピーカ4−2を、マイク3の位置を中心とした幾何学的に対称な位置に設置することなく、収音信号からマスキング音声信号成分を除去することができる。さらに、マスキング用スピーカ4−2は、マスキング用スピーカ4−1と異なるスピーカ特性を有していてもよい。このように、スマートフォン1−5は、マスキング用スピーカ4−2を設置する位置およびスピーカ特性に係る制約を、ディレイ17による遅延の効果により緩和することができる。このため、スマートフォン1−5は、マスキング用スピーカ4−2、マスキング用スピーカ4−1の大きさ、位置関係、全体のデザイン等について自由に設計され得る。
以上、変形例2について説明した。続いて、第3の実施形態に係る他の変形例について説明する。
[2−3−3.変形例3]
本変形例は、ヘッドセット6により、本開示の一実施形態に係る信号処理装置を実現する形態である。以下、図12を参照し、本変形例に係るヘッドセット6について説明する。
図12は、変形例3に係るヘッドセット6を示す説明図である。図12に示すように、ヘッドセット6は、マスキング用スピーカ4−1、マスキング用スピーカ4−2、およびマイク3を有し、ユーザ8の頭部に装着される。ヘッドセット6は、図11(B)を参照して上記説明したスマートフォン1−5と同様の構成を有する。図12に示すように、マイク3は、マスキング用スピーカ4−2に近い位置に設置されているので、ヘッドセット6は、ディレイ17により遅延された逆相信号をマスキング用スピーカ4−2から再生することで、マイク3をキャンセル領域で覆うことができる。このように、ヘッドセット6においても、空間音響的に収音信号からマスキング音声信号成分を除去することができる。
以上、変形例3について説明した。
<<3.まとめ>>
以上説明したように、本開示の一実施形態に係るスマートフォン1は、ユーザ音声に応じたマスキング音声信号を生成および再生することで、ユーザ8の発話内容が聞き取られることを防ぐことができる。より詳しくは、スマートフォン1は、他人9に対して混同を生じさせる、または注意を逸らせるマスキング音声信号を生成および再生することで、ユーザ8の発話をマスキング音声信号に埋没させ、発話内容の聞き取りを妨害することができる。また、スマートフォン1は、収音信号のうちユーザ音声が含まれる時間区間にのみマスキング音声信号を再生することで、他人9がマスキング音声信号に耳慣れすることを防止することができる。
さらに、スマートフォン1は、収音信号からマスキング音声信号成分を電気的に除去することで、雑音を低減した高品質な通話や音声認識を実現することができる。また、スマートフォン1は、マスキング音声信号を再生するスピーカを複数設け、互いに打ち消し合わせることで、空間音響的に収音信号からマスキング音声信号成分を除去することもできる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、ユーザ8が通話や音声認識入力を行う際にマスキング音声信号を生成および再生するものとして説明したが、本技術はかかる例に限定されない。例えば、ユーザ8の寝言や独り言、愚痴を他人には聞かれないための消音装置として、本技術が用いられてもよい。
また、情報処理装置に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述したスマートフォン1の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶した記憶媒体も提供される。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザ音声を収音し、オーディオ信号を生成する収音部と、
前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成する信号処理部と、
前記マスキング音声信号を再生する第1のスピーカと、
を備える信号処理装置。
(2)
前記信号処理部は、前記オーディオ信号のうち前記ユーザ音声が含まれる時間区間にのみ前記マスキング音声信号を生成する、前記(1)に記載の信号処理装置。
(3)
前記信号処理装置は、除去部をさらに備え、
前記除去部は、前記収音部が前記第1のスピーカから再生された前記マスキング音声信号を前記ユーザ音声と共に収音して前記オーディオ信号を生成した場合、特定の伝達関数および前記信号処理部が生成した前記マスキング音声信号に基づいて、前記収音部により生成された前記オーディオ信号から前記マスキング音声信号を除去する、前記(1)または(2)に記載の信号処理装置。
(4)
前記信号処理装置は、前記マスキング音声信号の逆相信号を再生する第2のスピーカをさらに備え、
前記第2のスピーカは、前記第1のスピーカより再生された前記マスキング音声信号と前記第2のスピーカより再生された前記逆相信号とが前記収音部が収音する空間において打ち消し合うよう設置される、前記(1)〜(3)のいずれか一項に記載の信号処理装置。
(5)
前記信号処理装置は、前記逆相信号を遅延させる遅延部をさらに備え、
前記第2のスピーカは、前記遅延部により遅延された前記逆相信号を再生する、前記(4)に記載の信号処理装置。
(6)
前記信号処理部は、前記ユーザ音声を組成する周波数成分ごとのデータ量に応じて前記マスキング音声信号を生成する、前記(1)〜(5)のいずれか一項に記載の信号処理装置。
(7)
前記マスキング音声信号は、音声帯域の帯域ノイズである、前記(1)〜(6)のいずれか一項に記載の信号処理装置。
(8)
前記マスキング音声信号は、母音を主な成分とする音声信号である、前記(1)〜(6)のいずれか一項に記載の信号処理装置。
(9)
前記信号処理装置は、前記収音部により収音された前記ユーザ音声を記録する記録部をさらに備え、
信号処理部は、前記記録部により記録された前記ユーザ音声により前記マスキング音声信号を生成する、前記(1)〜(8)のいずれか一項に記載の信号処理装置。
(10)
前記信号処理装置は、前記収音部により収音される前記ユーザ音声の言語を認識する言語認識部をさらに備え、
前記信号処理部は、前記言語認識部により認識された前記言語に応じて前記マスキング音声信号を生成する、前記(1)〜(9)のいずれか一項に記載の信号処理装置。
(11)
前記信号処理部は、前記言語認識部により認識された前記言語と同じ言語により前記マスキング音声信号を生成する、前記(10)に記載の信号処理装置。
(12)
前記信号処理部は、前記言語認識部により認識された前記言語と異なる言語により前記マスキング音声信号を生成する、前記(10)に記載の信号処理装置。
(13)
前記信号処理装置は、前記オーディオ信号を外部に送信し、外部からのオーディオ信号を受信する通信部をさらに備える、前記(1)〜(12)のいずれか一項に記載の信号処理装置。
(14)
前記信号処理装置は、
前記オーディオ信号から制御情報を認識する制御情報認識部と、
前記制御情報認識部により認識された前記制御情報に基づいて前記信号処理装置を制御する制御部と、
をさらに備える、前記(1)〜(13)のいずれか一項に記載の信号処理装置。
(15)
ユーザ音声を収音し、オーディオ信号を生成するステップと、
前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成するステップと、
前記マスキング音声信号を再生するステップと、
を備える信号処理方法。
(16)
コンピュータに、
ユーザ音声を収音し、オーディオ信号を生成するステップと、
前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成するステップと、
前記マスキング音声信号を再生するステップと、
を実行させるためのプログラムが記憶された記憶媒体。
1、1−1、1−2、1−3、1−4、1−5 スマートフォン
2 通話用スピーカ
3 マイク
4、4−1、4−2 マスキング用スピーカ
5−1、5−2 キャンセル領域
6 ヘッドセット
8 ユーザ
9 他人
11 制御部
12、12−1、12−2 信号処理部
13 加算器
14 エコーキャンセラ
15 加算器
16 逆相信号生成部
17 ディレイ
21 マイクアンプ
22、23、24 パワーアンプ
31 送話部
32 受話部
41 マスキング用音源
100 スマートフォン
120−1、120−2 音声信号例
121 解析用BPF群
122 可変ゲインブロック群
123 合成用BPF群
124 加算器
125 VAD
126 スイッチ

Claims (15)

  1. ユーザ音声を収音し、オーディオ信号を生成する収音部と、
    前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成する信号処理部と、
    前記マスキング音声信号を再生する第1のスピーカと、
    前記マスキング音声信号の逆相信号を再生する第2のスピーカと、
    を備え
    前記逆相信号は、前記第1のスピーカより再生された前記マスキング音声信号と前記第2のスピーカより再生された前記逆相信号とが前記収音部が収音する空間において打ち消し合うよう再生される、信号処理装置。
  2. 前記信号処理部は、前記オーディオ信号のうち前記ユーザ音声が含まれる時間区間にのみ前記マスキング音声信号を生成する、請求項1に記載の信号処理装置。
  3. 前記信号処理装置は、除去部をさらに備え、
    前記除去部は、前記収音部が前記第1のスピーカから再生された前記マスキング音声信号を前記ユーザ音声と共に収音して前記オーディオ信号を生成した場合、特定の伝達関数および前記信号処理部が生成した前記マスキング音声信号に基づいて、前記収音部により生成された前記オーディオ信号から前記マスキング音声信号を除去する、請求項1に記載の信号処理装置。
  4. 前記信号処理装置は、前記逆相信号を遅延させる遅延部をさらに備え、
    前記第2のスピーカは、前記遅延部により遅延された前記逆相信号を再生する、請求項に記載の信号処理装置。
  5. 前記信号処理部は、前記ユーザ音声を組成する周波数成分ごとのデータ量に応じて前記マスキング音声信号を生成する、請求項1に記載の信号処理装置。
  6. 前記マスキング音声信号は、音声帯域の帯域ノイズである、請求項1に記載の信号処理装置。
  7. 前記マスキング音声信号は、母音を主な成分とする音声信号である、請求項1に記載の信号処理装置。
  8. 前記信号処理装置は、前記収音部により収音された前記ユーザ音声を記録する記録部をさらに備え、
    信号処理部は、前記記録部により記録された前記ユーザ音声により前記マスキング音声信号を生成する、請求項1に記載の信号処理装置。
  9. 前記信号処理装置は、前記収音部により収音される前記ユーザ音声の言語を認識する言語認識部をさらに備え、
    前記信号処理部は、前記言語認識部により認識された前記言語に応じて前記マスキング音声信号を生成する、請求項1に記載の信号処理装置。
  10. 前記信号処理部は、前記言語認識部により認識された前記言語と同じ言語により前記マスキング音声信号を生成する、請求項に記載の信号処理装置。
  11. 前記信号処理部は、前記言語認識部により認識された前記言語と異なる言語により前記マスキング音声信号を生成する、請求項に記載の信号処理装置。
  12. 前記信号処理装置は、前記オーディオ信号を外部に送信し、外部からのオーディオ信号を受信する通信部をさらに備える、請求項1に記載の信号処理装置。
  13. 前記信号処理装置は、
    前記オーディオ信号から制御情報を認識する制御情報認識部と、
    前記制御情報認識部により認識された前記制御情報に基づいて前記信号処理装置を制御する制御部と、
    をさらに備える、請求項1に記載の信号処理装置。
  14. ユーザ音声を収音し、オーディオ信号を生成するステップと、
    前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成するステップと、
    前記マスキング音声信号を再生するステップと、
    前記マスキング音声信号の逆相信号を再生するステップと、
    を備え
    前記逆相信号は、再生された前記マスキング音声信号と再生された前記逆相信号とが前記ユーザ音声が収音される空間において打ち消し合うよう再生される、信号処理方法。
  15. コンピュータに、
    ユーザ音声を収音し、オーディオ信号を生成するステップと、
    前記オーディオ信号に応じて、前記ユーザ音声をマスキングするためのマスキング音声信号を生成するステップと、
    前記マスキング音声信号を再生するステップと、
    前記マスキング音声信号の逆相信号を再生するステップと、
    を実行させるためのプログラムが記憶された記憶媒体であり、
    前記逆相信号は、再生された前記マスキング音声信号と再生された前記逆相信号とが前記ユーザ音声が収音される空間において打ち消し合うよう再生される、記憶媒体。
JP2013045230A 2013-03-07 2013-03-07 信号処理装置、信号処理方法及び記憶媒体 Expired - Fee Related JP5929786B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013045230A JP5929786B2 (ja) 2013-03-07 2013-03-07 信号処理装置、信号処理方法及び記憶媒体
US14/154,357 US9336786B2 (en) 2013-03-07 2014-01-14 Signal processing device, signal processing method, and storage medium
CN201410073433.XA CN104036771A (zh) 2013-03-07 2014-02-28 信号处理装置、信号处理方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013045230A JP5929786B2 (ja) 2013-03-07 2013-03-07 信号処理装置、信号処理方法及び記憶媒体

Publications (3)

Publication Number Publication Date
JP2014174255A JP2014174255A (ja) 2014-09-22
JP2014174255A5 JP2014174255A5 (ja) 2015-03-26
JP5929786B2 true JP5929786B2 (ja) 2016-06-08

Family

ID=51467518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013045230A Expired - Fee Related JP5929786B2 (ja) 2013-03-07 2013-03-07 信号処理装置、信号処理方法及び記憶媒体

Country Status (3)

Country Link
US (1) US9336786B2 (ja)
JP (1) JP5929786B2 (ja)
CN (1) CN104036771A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3048608A1 (en) * 2015-01-20 2016-07-27 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Speech reproduction device configured for masking reproduced speech in a masked speech zone
CN106558303A (zh) * 2015-09-29 2017-04-05 苏州天声学科技有限公司 阵列式声音掩蔽器及声音掩蔽方法
WO2019012661A1 (ja) * 2017-07-13 2019-01-17 住友電気工業株式会社 音声制御装置
CN107483142B (zh) * 2017-08-03 2019-11-08 厦门大学 一种基于海洋环境的定向干扰装置
JP6972858B2 (ja) * 2017-09-29 2021-11-24 沖電気工業株式会社 音響処理装置、プログラム及び方法
JPWO2019171963A1 (ja) * 2018-03-07 2021-02-18 ソニー株式会社 信号処理システム、信号処理装置および方法、並びにプログラム
JP6457682B1 (ja) 2018-04-16 2019-01-23 パスロジ株式会社 認証システム、認証方法、ならびに、プログラム
JP7073910B2 (ja) * 2018-05-24 2022-05-24 日本電気株式会社 音声型認証装置、音声型認証方法、及びプログラム
US10622003B2 (en) * 2018-07-12 2020-04-14 Intel IP Corporation Joint beamforming and echo cancellation for reduction of noise and non-linear echo
US11363147B2 (en) 2018-09-25 2022-06-14 Sorenson Ip Holdings, Llc Receive-path signal gain operations
US10777177B1 (en) 2019-09-30 2020-09-15 Spotify Ab Systems and methods for embedding data in media content
JP2021135361A (ja) * 2020-02-26 2021-09-13 沖電気工業株式会社 音響処理装置、音響処理プログラム及び音響処理方法
JPWO2023047911A1 (ja) * 2021-09-21 2023-03-30
JPWO2023127292A1 (ja) * 2021-12-27 2023-07-06

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08296335A (ja) * 1995-04-25 1996-11-12 Matsushita Electric Ind Co Ltd アクティブ防音フード装置
US7016844B2 (en) * 2002-09-26 2006-03-21 Core Mobility, Inc. System and method for online transcription services
JP4336552B2 (ja) * 2003-09-11 2009-09-30 グローリー株式会社 マスキング装置
US20060109983A1 (en) * 2004-11-19 2006-05-25 Young Randall K Signal masking and method thereof
US7599719B2 (en) * 2005-02-14 2009-10-06 John D. Patton Telephone and telephone accessory signal generator and methods and devices using the same
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
JP4640801B2 (ja) * 2005-06-27 2011-03-02 富士通株式会社 電話機
EP1770685A1 (en) * 2005-10-03 2007-04-04 Maysound ApS A system for providing a reduction of audiable noise perception for a human user
JP5103974B2 (ja) * 2007-03-22 2012-12-19 ヤマハ株式会社 マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
JP5511342B2 (ja) * 2009-12-09 2014-06-04 日本板硝子環境アメニティ株式会社 音声変更装置、音声変更方法および音声情報秘話システム
JP2012119785A (ja) 2010-11-29 2012-06-21 Yamaha Corp 通信システム

Also Published As

Publication number Publication date
JP2014174255A (ja) 2014-09-22
US9336786B2 (en) 2016-05-10
US20140257802A1 (en) 2014-09-11
CN104036771A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
JP5929786B2 (ja) 信号処理装置、信号処理方法及び記憶媒体
JP2014174255A5 (ja)
US20220140798A1 (en) Compensation for ambient sound signals to facilitate adjustment of an audio volume
CN103650533B (zh) 在电子装置上产生掩蔽信号
CN102056036B (zh) 再现设备、头戴式耳机和再现方法
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
CN101277331B (zh) 声音再现设备和声音再现方法
JP5644359B2 (ja) 音声処理装置
US8532987B2 (en) Speech masking and cancelling and voice obscuration
US20120101819A1 (en) System and a method for providing sound signals
KR101647974B1 (ko) 스마트 믹싱 모듈을 갖춘 스마트 이어폰, 스마트 믹싱 모듈을 갖춘 기기, 외부음과 기기음을 혼합하는 방법 및 시스템
CN110708625A (zh) 基于智能终端的环境声抑制与增强可调节耳机系统与方法
KR20130124573A (ko) 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
JP2009530950A (ja) ウェアラブル装置のためのデータ処理
WO2022135340A1 (zh) 一种主动降噪的方法、设备及系统
US20120057717A1 (en) Noise Suppression for Sending Voice with Binaural Microphones
US20190214036A1 (en) Voice isolation system
CN111683319A (zh) 一种通话拾音降噪方法及耳机、存储介质
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
CN112767908B (zh) 基于关键声音识别的主动降噪方法、电子设备及存储介质
WO2019228329A1 (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
US11589173B2 (en) Hearing aid comprising a record and replay function
CN113038318B (zh) 一种语音信号处理方法及装置
CN107370898B (zh) 铃音播放方法、终端及其存储介质
JP2007187748A (ja) 音選択加工装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160418

R151 Written notification of patent or utility model registration

Ref document number: 5929786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees