JP7140542B2 - 信号処理装置、信号処理方法、およびプログラム - Google Patents

信号処理装置、信号処理方法、およびプログラム Download PDF

Info

Publication number
JP7140542B2
JP7140542B2 JP2018090689A JP2018090689A JP7140542B2 JP 7140542 B2 JP7140542 B2 JP 7140542B2 JP 2018090689 A JP2018090689 A JP 2018090689A JP 2018090689 A JP2018090689 A JP 2018090689A JP 7140542 B2 JP7140542 B2 JP 7140542B2
Authority
JP
Japan
Prior art keywords
sound
channel
channels
processing
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018090689A
Other languages
English (en)
Other versions
JP2019197136A (ja
Inventor
正伸 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018090689A priority Critical patent/JP7140542B2/ja
Priority to US16/385,451 priority patent/US11024330B2/en
Publication of JP2019197136A publication Critical patent/JP2019197136A/ja
Application granted granted Critical
Publication of JP7140542B2 publication Critical patent/JP7140542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/001Monitoring arrangements; Testing arrangements for loudspeakers
    • H04R29/002Loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数の収音位置での収音に基づく音響信号を処理する技術に関する。
公共の場所において、放送・蓄積などを目的とした収音を行う場合、個人的な会話などのプライバシー音声が公開されないように保護する必要がある。この対策として、プライベートな音声を検知して、マスク処理を行う技術がある。
特許文献1には、プライバシーエリアで発生した発話音声が紛れ込んでいるターゲットエリアに向かう音声に対して、マスキングなどの制御が行われる技術が記載されている。
特開2017-126888号公報
例えばスポーツ競技場などの会場における試合などのイベントの音を収音して再生する場合においては、臨場感を演出するために、観客席の近くでサポーターの声援、野次、歌などの歓声音が収音される。このような会場においては、プライベートな会話も観客席の至る所で発生している。つまり、再生されるべき歓声音と再生されるべきでないプライベートな会話が発生する場所は同じである。従って、特許文献1の技術のように音の発生場所によってその音がプライベート音声かを判別することはできない。なお、同様の課題は収音対象の場所がライブ会場などである場合にも同様に存在する。
本発明は、同一の領域から発せられ収音された音に含まれる、抑制すべき音と抑制すべきでない音とを区別して処理できるようにすることを目的とする。
本発明の一態様に係る信号処理装置は、複数の収音位置での収音に基づく複数チャンネルの音響信号を取得する取得手段と、前記複数チャンネルのうち、所定範囲内の収音位置に対応する少なくとも2つのチャンネルの前記音響信号の類似度を決定する決定手段と、前記決定手段により決定された前記類似度が第一の閾値未満である場合には、前記少なくとも2つのチャンネルの音響信号の何れかに含まれる音を抑制すべき音と判定する判定手段と、前記音響信号の音圧レベルを計測する計測手段と、を備え、前記判定手段は、前記計測手段によって前記音圧レベルが第二の閾値を超えていることが計測された場合、前記音響信号には前記抑制すべき音が含まれていないと判定することを特徴とする。
本発明によれば、同一の領域から発せられ収音された音に含まれる、抑制すべき音と抑制すべきでない音とを区別して処理することができる。
信号処理装置の一例を示すブロック図。 信号処理システムのブロック図。 競技場における収音用マイクロホンの設置状態を示す模式図。 信号処理を示すフローチャート。 収音チャンネル情報のデータ構成を示す模式図。 チャンネル間相関決定処理を示すフローチャート。 チャンネル間相関値情報のデータ構成を示す模式図。 プライベート音声判定処理を示すフローチャート。 信号処理システムのブロック図。 信号処理を示すフローチャート。 同テキスト列検知処理を示すフローチャート。 同テキスト列検知結果情報のデータ構成を示す模式図。 プライベート音声判定処理を示すフローチャート。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
<<実施形態1>>
<信号処理装置の構成>
図1は、本実施形態における信号処理装置100の構成の一例を示す図である。図1に示す信号処理装置100は、CPU101、メインメモリ102、記憶部103、入力部104、および出力部105を備え、各部がバス108を介して接続されている。CPU101は、信号処理装置100を統括的に制御する演算処理装置であり、記憶部103等に格納された各種プログラムを実行して様々な処理を行う。メインメモリ102は、各種処理で用いられるデータおよびパラメータなどを一時的に格納するほか、CPU101に作業領域を提供する。記憶部103は、各種プログラムおよび各種データを記憶する大容量記憶装置である。記憶部103としては、例えばハードディスクまたはシリコンディスク等の不揮発性メモリが用いられる。入力部104は、マイクロホンなどによって収音された収音信号を入力する。出力部105は、信号処理が行われた音響信号を出力する。
<システム構成図>
図2は、本実施形態における信号処理を行う信号処理システム200のブロック図である。図1に示す信号処理装置100は、図2に示す信号処理システム200の少なくとも一部の処理を行う装置である。
信号処理システム200は、収音部201、音声検出部202、チャンネル間相関決定部203、プライベート音声判定部204、音声マスク部205、音響信号生成部206、チャンネル位置データ保持部207を有する。さらに、音響再生部208、スピーカーアレイ209、通信部210、端子出力部212を有する。なお、本実施形態においては、「音声」は人の声に対応する音を意味し、「音響」には音声以外の音も含まれるものとする。
本実施形態においては、図1のCPU101が所定のプログラムを実行することにより、音声検出部202、チャンネル間相関決定部203、プライベート音声判定部204、音声マスク部205、音響信号生成部206として機能する。図1の入力部104は、音声検出部202として機能し、収音部201において収音された収音信号を含むデータを入力する。図1の記憶部103は、チャンネル位置データ保持部207として機能する。図1の出力部105は、音響再生部208、端子出力部212、および通信部210として機能する。なお、信号処理装置100と信号処理システム200との対応は、この限りではなく、様々な対応付けが可能である。また、図2に示す信号処理システムは、一例に過ぎない。他の構成がさらに備えられても良い。また、音響再生部208、通信部210、および端子出力部212は、いずれも備わっていなくても良く、出力部105は、不図示の外部記憶装置に信号処理された信号を出力する形態でも良い。以下、各構成を説明する。
収音部201は、収音対象となる会場の観客席近傍に設置された複数のマイクロホンによる収音信号を、適宜増幅し、チャンネル別にデジタル信号に変換して音声検出部202に送出する。本実施形態では、マイクロホン毎に異なるチャンネルが割り当てられているものとする。ここでは単一の収音部201が各マイクロホンによる収音信号を増幅して音声検出部202に送出する形態を示しているが、各マイクロホンに対応した数の収音部201が備えられていても良い。
図3は、サッカー競技場における歓声収音用マイクロホンの設置状態を示す模式図である。図3を用いて競技場における歓声収音用マイクロホンの設置例を説明する。図3には、観客席エリア301、競技グラウンド302、および複数のマイクロホン303が示されている。図3に示すように、本実施形態においては、観客席エリア301の全体を万遍無く収音できるように、複数のマイクロホン303が所定の距離を開けて設置されている。ただし、複数のマイクロホン303は観客席エリア301の全周ではなく一部の領域に設置されていてもよい。また、隣接するマイクロホン303の間隔は均一でなくてもよい。また、設置される複数のマイクロホン303には、それぞれ特性の異なる複数種類のマイクロホンが含まれていてもよい。また、マイクロホン303の設置場所は競技場に限らず、例えばライブ会場などであってもよい。
図2に戻る。以下、構成の概略を説明する。詳細な説明については後述する。音声検出部202は、収音部201から受信した各チャンネルの収音信号から音声信号を検出する処理を行う。チャンネル間相関決定部203は、マイクロホン設置位置が近接しているチャンネル間における類似度(相関値)を決定する。プライベート音声判定部204は、各収音信号チャンネルにプライベート音声が含まれているかを判定する。本実施形態におけるプライベート音声は、観客の会話音であり、再生時に抑制されるべき音の例である。音声マスク部205は、プライベート音声が含まれるとプライベート音声判定部204によって判定されたチャンネルの収音信号に音声マスキング処理を行う。音響信号生成部206は、音声マスク部205によってプライベート音声のマスキングが行われたチャンネルの収音信号を少なくとも用いて、2chステレオや5.1chサラウンドなどの既定の音響出力フォーマットに合わせた音響信号を生成する。
チャンネル位置データ保持部207は、収音信号の各チャンネルの収音位置の座標、即ち、各チャンネルの収音信号を収音するマイクロホンの設置位置の座標を保持している。チャンネル位置データは、収音部201およびチャンネル間相関決定部203に出力される。
音響再生部208は、音響信号生成部206によって生成された音響信号を適宜増幅し、アナログ信号に変換して、予め定められた音響出力フォーマットに準じるスピーカーアレイ209に出力する。スピーカーアレイ209は、音響再生部208から出力されるアナログ音響信号を、アレイを構成する個々のスピーカーにおいて音に変換して出力する。通信部210は、音響信号生成部206から出力される音響信号を、通信網211を介して外部に出力する。通信網211は、インターネットや一般電話回線などである。本実施形態では、通信網211を介してシステム外の機器に対して音響信号を出力することができる。端子出力部212は、出力端子に接続した不図示の外部機器に、音響信号生成部206によって生成された音響信号を出力する。
なお、これらの構成要素は、CPU101によって実現される例を説明したが、これに限られない。ASICや電子回路等のハードウェアで実現しても良く、各部がCPU101に制御バスを介して接続されており、CPU101からの命令指示に従ってその動作が統合制御されても良い。
<フローチャート>
次に、図2に示す構成において、プライベート音声が含まれているかを判定し、プライベート音声に対して音声マスキングを行う処理をフローチャートに従って説明する。
図4は、本実施形態の信号処理のフローチャートの一例を示す図である。なお、各処理の説明における記号「S」は、当該フローチャートにおけるステップであることを意味する。
S401で、観客席近傍に設置された各マイクロホン303において、予め定めた一定時間分の収音が行われる。収音部201は、各マイクロホン303で収音されたアナログ音響信号を適宜増幅し、デジタル信号に変換する。収音部201は、チャンネル毎に収音チャンネル情報を生成し、各チャンネルの収音チャンネル情報を音声検出部202へ送信する。ここで、収音チャンネル情報とは、収音データと、それに関連するメタデータをまとめたデータ構造の事である。
図5は、本実施形態における収音チャンネル情報500のデータ構成を示す模式図である。図5に示すように、収音チャンネル情報500は、チャンネルID501、マイクロホン座標502、音声検出フラグ503、プライベート音声フラグ504、および収音データ505を含むものである。チャンネルID501は、収音信号のチャンネルを識別する番号であり、収音する各マイクロホン303と一対一で対応する番号である。マイクロホン座標502は、チャンネルID501で識別されるチャンネル信号を収音したマイクロホン303が設置される座標を格納する。マイクロホン座標502には、チャンネル位置データ保持部207で保持されているチャンネル位置データに基づく座標が格納される。音声検出フラグ503は、チャンネルID501で識別されるチャンネルに音声が含まれているかどうかを示すフラグである。音声検出フラグ503には、音声検出部202による音声検出の結果が入力されることになる。音声検出部202の処理の前の時点では、初期値が入力されている。プライベート音声フラグ504は、チャンネルID501で識別されるチャンネルに含まれる音声がプライベート音声であるかを示すフラグである。プライベート音声フラグ504には、プライベート音声判定部204による判定の結果が入力されることとなる。プライベート音声判定部204の処理の前の時点では、初期値が入力されている。収音データ505には、チャンネルID501で識別されるチャンネルの収音信号そのものが格納される。
S401で収音部201は、各チャンネルに関して、収音チャンネル情報500のデータ構成のうち、チャンネルID501、マイクロホン座標502、および収音データ505を格納する。音声検出フラグ503およびプライベート音声フラグ504には、初期値として「0」が設定される。収音部201は、各チャンネルの収音チャンネル情報500を音声検出部202に出力する。なお、本実施形態では、収音部201が、収音チャンネル情報500のデータ形式で音声検出部202にデータを出力する例を説明するが、これに限られない。収音部201は、収音データのみを音声検出部202に出力しても良い。そして、音声検出部202が、収音チャンネル情報500のデータ形式でその後の処理を行っても良い。この場合、音声検出部202は、各収音部201のチャンネルID501およびマイクロホン座標502の情報を取得できるように構成されていれば良い。また、図5に示す収音チャンネル情報500のデータ形式は、一例に過ぎず、これに限られない。
S402で音声検出部202は、各チャンネルの収音チャンネル情報500に含まれている収音データ505を解析することにより、音声データ(人が発する声に対応する音のデータ)が含まれているかを検出することができる。この検出は、例えば、収音データ505に対して短時間フーリエ変換(STFT)を行ってスペクトログラムを生成し、音声に特徴的なフォルマント構造が現れているかを解析することで行われる。このような処理は、音声信号処理において一般的に行われている処理を適用すれば良く、詳細な説明については省略する。音声検出部202が音声を検出した場合は、当該収音チャンネル情報500の音声検出フラグ503に「1」を設定する。本実施形態において、音声検出フラグ503に「0」が設定されている場合には、音声が検出されていないことを示し、「1」が設定されている場合には、音声が検出されていることを示す。音声検出部202が、全てのチャンネルに対して処理を終えると、S403へ進む。音声検出部202は、各チャンネルの収音チャンネル情報500をチャンネル間相関決定部203に出力する。
S403でチャンネル間相関決定部203は、S402で音声が検知されたチャンネルに対し、隣り合うチャンネルとの類似度(チャンネル間相関値)を決定する。この処理の詳細については、図6を用いて後述することとする。
S404でプライベート音声判定部204は、S403で決定されたチャンネル間相関値に基づき、各チャンネルにプライベート音声が含まれているかを判定する。この処理の詳細については、図8を用いて後述することとする。なお、プライベート音声が含まれていると判定された場合、当該チャンネルの収音チャンネル情報500のプライベート音声フラグ504に「1」が設定されることになる。本実施形態において、プライベート音声フラグ504に「1」が設定されている場合には、プライベート音声が含まれていることを示し、「0」が設定されている場合には、プライベート音声が含まれていないことを示す。プライベート音声判定部204は、各チャンネルの収音チャンネル情報500を音声マスク部205に出力する。
S405で音声マスク部205は、S404でプライベート音声が検知されたチャンネルの収音データ505(収音信号)に対して、音声マスク処理を行う。例えば、プライベート音声が検知された収音チャンネル情報500の収音データ505に基づいて所定のマスク音を生成し、収音データ505をマスク音に置き換えたり、収音データ505にマスク音を合成したりする。また、収音データ505を予め定められたマスク音に置換等する処理でもよいし、ノイズ音を付加する処理でも良いし、当該チャンネルの収音データ505の音量を低減又は無音化する処理でも良い。その他、一般的に行われている音声マスク処理を用いることができる。
S406で音響信号生成部206は、S405までの処理によって、プライベート音声に音声マスク処理が行われた複数チャンネルの収音信号を適宜ミキシングすることにより、所望するフォーマットに準じた音響信号を生成する。このような処理は音響再生装置において一般的に行われている処理であり、詳細な説明については省略する。
S407で音響信号生成部206は、S406で生成した音響信号の出力先を判定する。出力先が、音響再生機器の場合は、S408へ進む。通信網である場合は、S409へ進む。外部機器の場合は、S410へ進む。出力先は、予めユーザによって設定されていて良い。
S408で音響再生部208は、S406において生成された音響信号を適宜増幅し、アナログ変換し、スピーカーアレイ209などの音響再生機器へ出力することにより、音響再生する。処理を終えると、S411へ進む。
S409で通信部210は、S406において生成された音響信号を通信網211へ送出する。これにより、通信網211に接続された外部機器において、音響再生を行うことが可能になる。処理を終えると、S411へ進む。
S410で端子出力部212は、出力端子に接続された外部機器に、S406において生成された音響信号を出力する。処理を終えると、S411へ進む。
S411でCPU101は、信号処理を終了するかどうかを判定する。信号処理を終了する場合は、本フローチャートの処理を終了する。信号処理を終了しない場合は、S401へ処理が戻り、次の単位時間における収音から音響信号出力までの処理を繰り返す。
上記の説明のように、S402で音声が検出されたチャンネルをプライベート音声の判定及び音声マスクの対象とすることで、局所的に発せられた音のうち人の声だけをマスクすることができる。これにより、例えば観客が鳴らした楽器の音は残して臨場感を高めつつ、観客のプライベートな会話の音を抑制した再生音響信号を生成することができる。ただし、S402の処理を省略して、収音が行われた全チャンネルをプライベート音声の判定及び音声マスクの対象としてもよい。この方法によっても、局所的に発せられた音を抑制した再生音響信号を生成することができ、且つ、信号処理装置100の処理負荷を低減することができる。
<チャンネル間相関値の決定>
図6は、本実施形態におけるS403のチャンネル間相関決定処理の詳細を説明するフローチャートである。なお、図6の処理は、全てチャンネル間相関決定部203において行われる。
S601でチャンネル間相関決定部203は、チャンネル間相関値リストを初期化する。チャンネル間相関値リストとは、チャンネル間相関値情報をリスト化してまとめたデータである。チャンネル間相関値情報には、音声が検出されたチャンネル間の収音データの相関値が格納される。本実施形態では、音声が検出されたチャンネルであって、互いに近傍に位置するチャンネル間の収音データの相関値が格納される。例えば、音声が検出された第1のチャンネルの収音データと、第1のチャンネルのマイクロホンと隣り合う位置の第2のマイクロホンで収音された第2のチャンネルの収音データとの相関値が格納される。隣り合う位置とは、図3に示すように複数存在するマイクロホンを考えた場合に、例えば第1のマイクロホンと第2のマイクロホンとが隣り合っていることを意味している。即ち、本実施形態では、第1のマイクロホンと第2のマイクロホンとの距離が、離れていても隣り合っているものとして扱う。ただしこれに限らず、所定の距離以上離れている複数のマイクロホンは隣り合っていないものとして扱ってもよい。また、近傍に位置する複数のマイクロホンであっても、その間に壁などの遮蔽物が存在する場合には、それらのマイクロホンは隣り合っていないものとして扱ってもよい。
図7は、チャンネル間相関値リスト700の一例を示す図である。図7に示すように、チャンネル間相関値情報710は、第1チャンネルID711、第2チャンネルID712、およびチャンネル間相関値713を含む。このうち、第1チャンネルID711と第2チャンネルID712とには、チャンネル間相関値を求める対象となる二つのチャンネルのIDが格納される。チャンネル間相関値713には、第1チャンネルID711の収音データと第2チャンネルID712の収音データとに基づいて決定された相関値のピーク値が格納される。本実施形態では、これらのチャンネル間相関値情報710をリスト化してまとめたデータ構成を、チャンネル間相関値リスト700とする。
S602からS613までの処理は、全ての収音チャンネルに関するループ処理である。即ち、チャンネル間相関決定部203は、未処理の収音チャンネル情報の中から処理対象の収音チャンネル情報を決定し、S602からS613までの処理を行う。チャンネル間相関決定部203は、全ての収音チャンネルの処理が終了するまで処理を繰り返す。
S603でチャンネル間相関決定部203は、処理対象の収音チャンネル情報500の音声検出フラグ503の値に基づいて、処理対象の収音チャンネル(以下、処理対象チャンネルという)において音声が検出されているかを判定する。本実施形態では、音声検出フラグ503の値が「1」の場合は、処理対象チャンネルにおいて音声が検出されている。従って、音声検出フラグ503の値が「1」の場合、S604へ進む。音声検出フラグ503の値が「0」の場合は、処理対象チャンネルにおいて音声が検出されていないので、S613へ進み、処理対象チャンネルを対象とした処理を終了する。そして、未処理の収音チャンネルがある場合、S602に戻り、未処理の収音チャンネルの中から処理対象チャンネルを決定し、処理が繰り替えされる。
S604でチャンネル間相関決定部203は、チャンネル位置データ保持部207に保持されているチャンネル位置データを検索して処理対象チャンネルの収音位置の近傍の収音位置のチャンネルを特定する。本実施形態では、処理対象チャンネルの収音位置の近傍の収音位置のチャンネルとして、処理対象のチャンネルの収音位置に隣接する収音位置のチャンネル(以下、隣接チャンネルという)を特定する。S605からS612までの処理は、S604で特定した隣接チャンネルに対するループ処理が行われる。例えば、隣接チャンネルとして第1のチャンネルと第2のチャンネルとが特定されている場合、第1のチャンネルを隣接チャンネルとする処理と、第2のチャンネルを隣接チャンネルとする処理とがそれぞれ行われることになる。
S606でチャンネル間相関決定部203は、現在の処理対象の隣接チャンネルの収音チャンネル情報500を参照し、隣接チャンネルにおいて音声が検出されているかを判定する。音声が検出されている場合、即ち、隣接チャンネルの音声検出フラグ503の値が「1」の場合はS607へ進む。音声が検出されていない場合、即ち、音声検出フラグの値が「0」の場合は、S612へ進み、現在の処理対象の隣接チャンネルに対する処理を終了する。その後、S604で特定された隣接チャンネルの中で未処理の隣接チャンネルがあれば、当該未処理の隣接チャンネルを処理対象の隣接チャンネルとして用いてS606に進む。S604で特定された隣接チャンネルの全てに対して処理が行われた場合、S613に進む。
S607でチャンネル間相関決定部203は、チャンネル間相関値リスト700に、処理対象チャンネルと隣接チャンネルとの組み合わせのチャンネル間相関値情報710があるかを判定する。このチャンネルの組み合わせが既にある場合は、以降の処理は重複した処理になるので、S612へ進み、現在の処理対象の隣接チャンネルに対する処理を終了する。組み合わせがない場合はS608へ進む。
S608でチャンネル間相関決定部203は、処理対象チャンネルおよび隣接チャンネルのそれぞれの収音チャンネル情報500から、これらのチャンネルを収音したマイクロホン間の距離を取得する。例えば、収音チャンネル情報500のマイクロホン座標502から、マイクロホン間の距離を算出して取得する。
S609でチャンネル間相関決定部203は、S608で取得したマイクロホン間の距離に基づき、相関値計算を行う時間幅を決定する。例えば、処理単位時間の時間長をl[sec]、マイクロホン間の距離をr[m]、チャンネル間相関を計算する時間幅をt[sec]とする。マイクロホン間では、最大で距離遅延の分だけ双方の時間がずれる可能性があるため式(1)のように時間幅tを計算する。
t=l+r/C (1)
ここで、Cは音速であり、常温でおよそ340m/secである。
S610でチャンネル間相関決定部203は、S609で決定した時間幅に基づき、チャンネル間相関決定部203の内部RAM(不図示)に格納された、前回の処理時の収音信号を用いて、二つのチャンネルの収音信号の時間幅を拡張する。前回の処理時の収音信号とは、図4のS401で説明したように、予め定めた一定時間分の収音信号のことである。即ち、前回のS401の処理時の収音信号のことである。本実施形態では、後述するように、2つのチャンネル間での相関値を求め、その相関値に基づいて、複数のマイクロホンに跨って収音された音声か否かが決定されることになる。このとき、マイクロホン間の距離に応じて、各マイクロホンにおいて音声が収音されるタイミングがずれる場合がある。よって、S608では、チャンネル間相関を計算する時間幅を、マイクロホン間の距離に応じて決定する処理が行われることになる。このように、本実施形態では、2つのチャンネルを収音したマイクロホン間の距離による遅延を考慮したチャンネル間相関値の決定処理を行う。
S611でチャンネル間相関決定部203は、処理対象チャンネルと、隣接チャンネルとの間のチャンネル間相関値を決定する。具体的には、S210で拡張された時間幅に対応するそれぞれの収音信号の相関値を決定する。チャンネル間相関値は、処理対象チャンネルの収音信号と隣接チャンネルの収音信号との相関を示す値であり、公知の手法を用いて求めることができる。例えば、二つの収音信号の共分散をそれぞれの収音信号の標準偏差で割ることによって相関値を求めることができる。相関値の最大値は1であり、相関が高いほど、相関値は1に近づく値となる。チャンネル間相関決定部203は、相関値のピーク値をチャンネル間相関値リスト700に格納する。具体的には、チャンネル間相関決定部203は、処理対象チャンネルを第1チャンネルID711、隣接チャンネルを第2チャンネルID712、決定した相関値のピーク値をチャンネル間相関値713に格納したチャンネル間相関値情報710を生成する。そして、このチャンネル間相関値情報710をチャンネル間相関値リスト700に追加する。なお、第1チャンネルID711に隣接チャンネルのIDが格納されても良く、第2チャンネルID712に、処理対象チャンネルのIDが格納されても良い。このように、チャンネル間相関値リスト700には、相関値が決定されたチャンネルの組み合わせのチャンネル間相関値情報710がリスト化して格納されることになる。その後、S612に進み、前述したように、全ての隣接チャンネルに対する処理が終了した場合、S605からS612のループ処理を終了する。
S613では、前述したように、全ての収音チャンネルを処理対象のチャンネルとする処理が終了した場合、S602からS613のループ処理を終了する。
S614でチャンネル間相関決定部203は、次の処理単位時間の処理のために、全チャンネルの収音信号を、チャンネル間相関決定部203の内部RAMに格納する。S615でチャンネル間相関決定部203は、ここまでの処理で生成したチャンネル間相関値リスト700を各チャンネルの収音チャンネル情報500とともにプライベート音声判定部204に出力し、チャンネル間相関決定処理を終了する。
なお、上記の説明では複数のチャンネルの収音信号を比較することで相関値を決定するものとしたが、相関値の決定方法はこれに限らず、複数の収音位置での収音に基づく音響信号を用いて相関値を決定すればよい。例えば、複数のチャンネルの収音信号それぞれから人の声に対応する音声信号を抽出し、抽出された複数の音声信号を比較することでチャンネルの相関値を決定してもよい。この方法によれば、複数のチャンネルの収音信号に同じ音声が含まれるかをより高精度に判定することができる。
<プライベート音声判定処理>
図8は、本実施形態におけるS404のプライベート音声判定処理を詳細化したフローである。なお、本フローにおける処理は全てプライベート音声判定部204において行われる。
S801からS804までの処理は、全ての収音チャンネルに対して行われるループ処理である。即ち、全ての収音チャンネルの中から処理対象のチャンネル(処理対象チャンネル)を決定し、S801からS804の処理を行う。その後、未処理の収音チャンネルの中から処理対象チャンネルを決定し、処理を繰り返す。
S802でプライベート音声判定部204は、処理対象チャンネルにおいて音声が検出されており、かつ、その近傍に位置するマイクロホンで収音されたチャンネルには音声が検出されていないかを判定する。即ち、プライベート音声判定部204は、処理対象チャンネルの収音チャンネル情報500の音声検出フラグ503の値が「1」であり、かつ、チャンネルID501がチャンネル間相関値リスト700に含まれていないかを判定する。この判定に該当する場合はS803に進む。該当しない場合はS804へ進んで、この処理対象のチャンネルの処理を終える。そして、未処理のチャンネルを処理対象のチャンネルとしてS801からの処理を繰り返す。
S803でプライベート音声判定部204は、処理対象チャンネルの収音チャンネル情報500のプライベート音声フラグ504の値を「1」に設定する。即ち、S803でプライベート音声判定部204は、処理対象チャンネルには、プライベート音声が含まれると判定する。つまり、一方の処理対象チャンネルに音声が検出されているものの、その近傍の(例えば隣り合う)位置の他方のマイクロホンのチャンネルでは音声が検出されていない場合には、その音声はプライベート音声であると判定される。歓声音は、複数の位置のマイクロホンで収音される可能性が高い。一方、プライベート音声は、歓声音に比べて声量が小さいので、複数の位置のマイクロホンで収音される可能性が低い。従って、チャンネル間相関値リスト700に処理対象チャンネルのチャンネルID501が含まれていない場合、プライベート音声判定部204は、処理対象チャンネルの音声が、プライベート音声であると判定する。本実施形態では、プライベート音声フラグ504の値が「1」の場合、プライベート音声が含まれているとして扱われる。S804でプライベート音声判定部204は、全てのチャンネルに対する処理が終了したかどうかを確認し、終了した場合はループ処理を終了する。
次に、S805からS810までの処理は、チャンネル間相関決定部203から送信されたチャンネル間相関値リスト700に記載されている全てのチャンネルに対して行われるループ処理である。つまり、チャンネル間相関値リスト700に記載されていないチャンネルについては、S805からS810までの処理は行われない。チャンネル間相関値リスト700に記載されているチャンネルとは、自身のチャンネルと隣接チャンネルとの間で、音声が検出されているチャンネルであり、隣接チャンネルとの間のチャンネル間相関値713に値が格納されているものである。S805からS810までの処理は、チャンネル間相関値リスト700に記載されているチャンネルの中で未処理のチャンネルを処理対象チャンネルとして繰り返し行われる処理である。
S806でプライベート音声判定部204は、チャンネル間相関値リスト全体を検索して、処理対象チャンネルが記載されているチャンネル間相関値情報710を取得する。次に、S807でプライベート音声判定部204は、S806で集めたチャンネル間相関値情報710に記載されてるチャンネル間相関値713(相関値のピーク値)の全てが、予め定めた閾値未満かどうかを判定する。チャンネル間相関値713の一つでも閾値以上である場合は、同様な音声信号が他のマイクロホンでも収音されていることになる。従って、処理対象のチャンネルには、プライベート音声は含まれないと判定する。よって、S809へ進み、この対象チャンネルの処理を終える。
一方、全ての相関値が閾値未満の場合は、同様な音声信号が他のマイクロホンでは収音されていないことになる。このため、S808へ進み、プライベート音声判定部204は、処理対象チャンネルがプライベート音声を含むと判定する。そして、プライベート音声判定部204は、当該処理対象チャンネルの収音チャンネル情報500のプライベート音声フラグ504に「1」を設定する。なお、上記の相関値に関する閾値は、信号処理装置100に対するユーザ操作に基づいて設定されてもよいし、過去に収音された音などに基づいて自動で設定されてもよい。
S809でプライベート音声判定部204は、チャンネル間相関値リスト700に記載がある全てのチャンネルに対する処理を終えたかどうかを確認し、終えた場合はループを終了する。S810でプライベート音声判定部204は、これまでの処理でプライベート音声の検出結果が格納されている各チャンネルの収音チャンネル情報500を、音声マスク部205に出力する。
以上説明したように、本実施形態では、近傍に位置するマイクロホンの両方のチャンネルで音声を検出した場合、その音声が、臨場感再現に用いることができる歓声音か、プライベート音声かを切り分ける処理が行われる。即ち、近傍に位置するマイクロホンの両方のチャンネルのチャンネル間相関値が所定の閾値未満の場合、片方のマイクロホンのみに収音されている音声であるので、プライベート音声が含まれていると判定される。一方、チャンネル間相関値が所定の閾値以上の場合、両方のマイクロホンで収音されている音声であるので、歓声音と判定することができる。また、近傍に位置するマイクロホンの一方のチャンネルでしか音声を検出しない場合も、片方のマイクロホンのみに収音されている音声であるので、プライベート音声が含まれていると判定される。このように、本実施形態の処理によれば、競技場などの会場において、臨場感再現に用いることができる歓声音を残しつつ、観客のプライベート音声を抑制することができる。
なお、本実施形態では、収音した信号をリアルタイムで処理する場合について説明したが、外部記憶メディアなどに一旦記録して、時間をおいて後で処理を行ってもよい。また、本実施形態では、隣接するチャンネル間の相関値を算出し、これに基づいてプライベート音声判定を行っているが、隣接していなくとも一定の距離内(所定範囲内)にあるチャンネル間で相関値を算出してもよい。
<<実施形態2>>
実施形態1では、収音チャンネル間の類似度として相関値を用いてプライベート音声判定を行う形態を説明した。本実施形態では、収音チャンネル間の類似度としてチャンネル毎の音声認識結果を用いる形態を説明する。なお、実施形態1と重複する部分については説明を省略する。
図9は、本実施形態における信号処理を行う信号処理システム900のブロック図である。図9の信号処理システム900は、図2の信号処理システム200のチャンネル間相関決定部203の代わりに同テキスト列検知部903が備えられている。また、プライベート音声判定部904の処理が実施形態1と異なる。その他の構成については、実施形態1で説明した図2の信号処理システム200と同様であるため、説明を省略する。
同テキスト列検知部903は、音声が検出された各入力チャンネルの音声信号に対して音声認識を行う。また、マイクロホン設置位置が近接しているチャンネル間において、同じテキスト列が含まれているかどうかの判定を行い、判定結果をプライベート音声判定部904へ出力する。プライベート音声判定部904は、この判定結果に基づいて、各チャンネルにプライベート音声が含まれているかどうかを判定する。
図10は、本実施形態におけるメイン処理を示すフローチャートである。図10のS1001およびS1002は、実施形態1における図4のS401およびS402と同様であるため説明を省略する。
S1003において同テキスト列検知部903は、音声が検知されたチャンネルに対する音声認識を行い、マイクロホン設置位置が近接しているチャンネル間において、同じテキスト列が含まれているかどうかの判定を行う。この処理の詳細は、図11を用いて後述する。処理を終えると、S1004へ進む。
S1004においてプライベート音声判定部904は、S1003で行われた同テキスト列判定を用いて、各収音チャンネルにプライベート音声が含まれているかどうかを判定する。この処理の詳細は図13を用いて後述する。
残りのS1005からS1011までの処理は、実施形態1における図4のS405からS411と同様であるため、説明を省略する。
図11は、本実施形態におけるS1003の同テキスト列検知処理のフローチャートである。なお、本フローの処理は全て同テキスト列検知部903によって実行される。また、本フローの処理は実施形態1における図6のチャンネル間相関決定処理フローと同様の処理が含まれており、図6のフローと同様な処理については詳細な説明を省略する。
S1101で同テキスト列検知部903は、同テキスト列検知結果リストを初期化する。同テキスト列検知結果リストとは、同テキスト列検知結果情報をリスト化してまとめたデータである。同テキスト列検知結果情報とは、音声が検出されたチャンネル信号に対して、近傍に位置する2つのチャンネル間に同じテキスト列が現れているかを示す情報である。
図12は、同テキスト列検知結果リスト1200の一例を示す図である。図12に示すように、同テキスト列検知結果情報1210は、第1チャンネルID1211、第2チャンネルID1212、および同テキスト列検知結果1213を含む。このうち、第1チャンネルID1211と第2チャンネルID1212とには、位置的に隣接し、音声認識を行う二つのチャンネルのIDが格納される。また、同テキスト列検知結果1213には、第1チャンネルID1211と第2チャンネルID1212との音声認識の結果、この二つのチャンネルに同じテキスト列が現れるかを示す情報が格納される。
S1102からS1116までの処理は、全ての収音チャンネルに対するループ処理である。即ち、同テキスト列検知部903は、未処理の収音チャンネル情報の中から処理対象の収音チャンネル情報を決定し、S1102からS1116までの処理を行う。同テキスト列検知部903は、全ての収音チャンネルの処理が終了するまで処理を繰り返す。
S1103からS1110までの処理は、図6のチャンネル間相関値リストを同テキスト列検知結果リストと読み替えれば、実施形態1における図6のS603からS610までの処理とほぼ同様であるため説明を省略する。
S1111において同テキスト列検知部903は、S1110で時間幅を拡張した処理対象チャンネルと、隣接チャンネルとに対して音声認識処理を行う。音声認識処理の結果として得られた二つのテキスト列を、同テキスト列検知部903の内部RAM(不図示)に一時保存する。なお、本実施形態では、言語に関わらず表音文字で音声認識結果をテキスト化するが、音声認識の処理結果の形式はこれに限定されない。
S1112において同テキスト列検知部903は、S1111で得られた二つのテキスト列が所定量以上で一致するかを判定する。即ち、同テキスト列検知部903は、二つのテキスト列の一致度が所定の閾値以上かを判定する。この閾値は、ユーザ操作に基づいて設定されてもよいし、過去の音声認識の結果等に基づいて自動で認識されてもよい。本実施形態では、音声認識における誤認識や周辺の騒音が多いことも想定し、二つのテキスト列の80%以上が同じであれば一致すると判定する。一致しないと判定した場合は、S1113へ進む。一致すると判定した場合は、S1114へ進む。
S1113で同テキスト列検知部903は、処理対象となっている二つのチャンネルIDと、同テキスト列検知結果(=0)とを格納した同テキスト列検知結果情報1210を作成し、同テキスト列検知結果リスト1200に追加する。一方、S1114では、同テキスト列検知部903は、処理対象となっている二つのチャンネルIDと、同テキスト列検知結果(=1)とを格納した同テキスト列検知結果情報1210を作成し、同テキスト列検知結果リスト1200に追加する。本実施形態では、同テキスト列検知結果の値が「1」を示す場合、二つのテキスト列が一致している結果を示すものとする。S1113およびS1114の処理が終了すると、S1115へ進む。
S1115からS1118までの処理は、図6におけるチャンネル間相関値リストを同テキスト列検知結果リストと読み替えれば、実施形態1における図6のS612からS615とほぼ同様であるため説明を省略する。
図11の同テキスト列検知処理によって、全ての近接する収音チャンネルのペアにおいて、音声認識の結果得られるテキスト列に同じものが現れるかを格納した同テキスト列検知結果リストが得られる。
図13は、本実施形態におけるS1004のプライベート音声判定処理を詳細化したフローチャートである。なお、本フローの処理は全てプライベート音声判定部904において実行される。また、本フローの処理は実施形態1の図8に示すプライベート音声判定処理と同様の処理を含んでおり、図8と同様な処理については説明を省略する。
S1301からS1306までの処理は、図8のチャンネル間相関値リストを同テキスト列検知結果リストに読み替えれば、図8のS801からS806までの処理とほぼ同様であるため、説明を省略する。
S1307でプライベート音声判定部904は、S1306で集めた同テキスト列検知結果情報の全ての値が、「0」であるかどうかを判定する。同テキスト列検知結果情報の全ての値が「0」である場合は、S1308へ進み、処理対象チャンネルにプライベート音声が含まれると判定し、処理対象のチャンネルの収音チャンネル情報500のプライベート音声フラグ504の値を「1」に設定する。全ての検知フラグの値が「0」でない場合は、S1309へ進む。S1309とS1310は、図8のS809とS810と同様であるため説明を省略する。
以上説明したように、本実施形態では、音声が検出されたチャンネルに対して音声認識処理を行い、音声をテキスト化する。そして、距離が近いチャンネル間で同じテキスト列が現れるかどうかを判定する。そして、距離が近いチャンネル間で同じテキスト列が全く現れないチャンネルを、プライベート音声が含まれないチャンネルと判定する。従って、競技場などの会場において、臨場感再現に用いることができる歓声音を残しつつ、観客のプライベート音声を抑制することができる。
<<その他の実施形態>>
実施形態1および2では、全ての収音チャンネル信号に対して一律にプライベート判定を行う形態を例に挙げて説明したが、これに限られない。プライベート判定処理の負荷を軽減するために、マイクロホンの設置状況に応じてプライベート判定方法を変更してもよい。例えば、競技場の特徴や、スポーツ競技自体の特徴に基づき、観客席エリアによって、マイクロホンの設置間隔が変化する場合を考える。マイクロホンの設置間隔が所定の閾値よりも広いエリアでは、たとえ歓声であってもマイク毎に同様な音が収録できないことがある。例えば、サッカーの競技場において、メインスタンド中央の前に設置したマイクロホンと、設置間隔が所定の閾値を超えて設置される、ゴール裏に設置したマイクロホンとでは、同じ音は収音されない。このような場合は、設置間隔が所定の閾値を超えているエリアではチャンネル間の処理は行わず、チャンネル単独の処理のみでプライベート音声判定を行ってもよい。例えば、単独のチャンネルに対して音声認識処理を行い、特定のキーワードが検出された場合にプライベート音声と判定するようにしてもよい。また、音声の音圧レベルの推移や抑揚から、遠くに対する大声か近くの人への話し声かを判定することにより、プライベート音声を判定してもよい。そして、マイクロホンの設置間隔が所定の閾値よりも小さい、狭いエリアに限り、実施形態1および2で説明した複数チャンネル間の処理結果に基づいたプライベート音声判定を行うようにしてもよい。
即ち、収音位置の間の距離が第1の距離である第1のチャンネル群と、収音位置の間の距離が第1の距離よりも長い第2の距離である第2のチャンネル群との収音信号を取得可能な場面を想定する。この場合、第1のチャンネル群に含まれるチャンネルに関しては、信号処理装置100は、近傍のチャンネル間の類似度を用いたプライベート音声判定処理を行うことができる。また、第2のチャンネル群に含まれるチャンネルに関しては、信号処理装置100は、近傍のチャンネル間の類似度を用いたプライベート音声判定処理は行わずに、単独のチャンネルでのプライベート音声判定処理を行うことができる。
また、実施形態1および2では、隣接して設定されているマイクロホンのチャンネルを用いてプライベート音声判定を行う形態を例に挙げて説明したが、所定の範囲内の近傍に位置するマイクロホンであれば良く、隣接しているものに限られない。例えば、所定の範囲内に3つのマイクロホンが、第1のマイクロホン、第2のマイクロホン、第3のマイクロホンの順に設置されている場合を想定する。この場合、歓声が第1のマイクロホンで収音され、かつ第2のマイクロホンで収音される場合もあれば、第1のマイクロホンで収音され、かつ第3のマイクロホンで収音される場合もあり得る。従って、必ずしも隣接して設置されているマイクロホン同士のチャンネルに基づいてプライベート音声判定を行わなくても良い。
また、実施形態1および2では、隣接する2つのチャンネル間での類似度を判定する形態を説明したが、近傍の3つのチャンネル間での類似度を判定しても良い。例えば、所定の範囲内に3つのマイクロホンが、第1のマイクロホン、第2のマイクロホン、第3のマイクロホンの順に設置されている場合を想定する。この場合、歓声が第1のマイクロホン、第2のマイクロホン、第3のマイクロホンのいずれでも収音される場合もあり得る。よって、3つのマイクロホンの間の類似度を判定して、実施形態1または2で説明した処理を行っても良い。このように、少なくとも2つのチャンネル間での類似度に基づく処理を行うことができる。
また、全体の歓声が盛り上がるような場合は、プライベート音声が発生したとしても全体の歓声にかき消されて聴こえないことがある。そこで、収音チャンネル全てをまとめた時の音圧を計測しておき、この音圧が一定の閾値以上であれば、音声自体の検出処理をキャンセルするようにしてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
201 収音部
202 音声検出部
203 チャンネル間相関決定部
204 プライベート音声判定部
205 音声マスク部

Claims (15)

  1. 複数の収音位置での収音に基づく複数チャンネルの音響信号を取得する取得手段と、
    前記複数チャンネルのうち、所定範囲内の収音位置に対応する少なくとも2つのチャンネルの前記音響信号の類似度を決定する決定手段と、
    前記決定手段により決定された前記類似度が第一の閾値未満である場合には、前記少なくとも2つのチャンネルの音響信号の何れかに含まれる音を抑制すべき音と判定する判定手段と、
    前記音響信号の音圧レベルを計測する計測手段と、を備え、
    前記判定手段は、前記計測手段によって前記音圧レベルが第二の閾値を超えていることが計測された場合、前記音響信号には前記抑制すべき音が含まれていないと判定する
    ことを特徴とする信号処理装置。
  2. 前記取得手段により取得される音響信号に含まれる音声を検出する検出手段を有し、
    前記決定手段は、前記少なくとも2つのチャンネルのいずれのチャンネルにおいても音声が検出された場合に、前記類似度を決定することを特徴とする請求項1に記載の信号処理装置。
  3. 前記決定手段は、
    前記少なくとも2つのチャンネルの前記収音位置の距離に応じて前記音響信号の時間幅を拡張し、
    前記時間幅を拡張した音響信号を用いて前記類似度を決定することを特徴とする請求項1または2に記載の信号処理装置。
  4. 前記取得手段は、一定時間分の前記音響信号を取得し、
    前記拡張された時間幅は、前記一定時間よりも長いことを特徴とする請求項3に記載の信号処理装置。
  5. 前記類似度は、前記少なくとも2つのチャンネル間の前記音響信号の相関値であることを特徴とする請求項1から4のいずれか一項に記載の信号処理装置。
  6. 前記決定手段は、
    前記少なくとも2つのチャンネル間の前記音響信号から音声認識処理によって各チャンネルの音声を認識し、
    前記認識された音声の結果に基づいて前記類似度を決定することを特徴とする請求項1から4のいずれか一項に記載の信号処理装置。
  7. 前記類似度は、前記認識された音声のテキスト列の一致度であることを特徴とする請求項6に記載の信号処理装置。
  8. 前記判定手段は、
    前記類似度が前記第一の閾値以上の場合、前記少なくとも2つのチャンネルには抑制すべき音声が含まれていないと判定することを特徴とする請求項1から7のいずれか一項に記載の信号処理装置。
  9. 前記決定手段は、前記所定範囲内の収音位置のチャンネルのうち、一方のチャンネルにおいて音声が検出され、他方のチャンネルにおいて音声が検出されていない場合、前記類似度を決定する処理を行なわず、
    前記判定手段は、前記一方のチャンネルにおいて検出された音声を前記抑制すべき音と判定することを特徴とする請求項2に記載の信号処理装置。
  10. 前記決定手段は、前記収音位置が隣り合う2つのチャンネルの前記類似度を決定することを特徴とする請求項1から9のいずれか一項に記載の信号処理装置。
  11. 前記取得手段は、前記収音位置の間の距離が第1の距離である第1のチャンネル群と、前記収音位置の間の距離が前記第1の距離よりも長い第2の距離である第2のチャンネル群との音響信号を取得可能であり、
    前記決定手段は、前記第1のチャンネル群に含まれるチャンネルに関して前記類似度を決定する処理を行い、
    前記決定手段は、前記第2のチャンネル群に含まれるチャンネルに関して前記類似度を決定する処理を行わないことを特徴とする請求項1から10のいずれか一項に記載の信号処理装置。
  12. 前記判定手段は、前記第2のチャンネル群に含まれる各チャンネルの音声が抑制すべき音かを、各チャンネルの音響信号に基づいて判定することを特徴とする請求項11に記載の信号処理装置。
  13. 前記判定手段によって抑制すべき音であると判定された音を抑制するための処理を行う処理手段をさらに備えることを特徴とする請求項1から12のいずれか一項に記載の信号処理装置。
  14. 複数の収音位置での収音に基づく複数チャンネルの音響信号を取得する取得ステップと、
    前記複数チャンネルのうち、所定範囲内の収音位置に対応する少なくとも2つのチャンネルの前記音響信号の類似度を決定する決定ステップと、
    前記決定ステップにより決定された前記類似度が閾値未満である場合には、前記少なくとも2つのチャンネルの音響信号の何れかに含まれる音を抑制すべき音と判定する判定ステップと、
    前記音響信号の音圧レベルを計測する計測ステップと、を備え、
    前記判定ステップでは、前記計測ステップにおいて前記音圧レベルが第二の閾値を超えていることが計測された場合、前記音響信号には前記抑制すべき音が含まれていないと判定する
    ことを特徴とする信号処理方法。
  15. コンピュータを、請求項1から13のいずれか一項に記載の信号処理装置の各手段として機能させるためのプログラム。
JP2018090689A 2018-05-09 2018-05-09 信号処理装置、信号処理方法、およびプログラム Active JP7140542B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018090689A JP7140542B2 (ja) 2018-05-09 2018-05-09 信号処理装置、信号処理方法、およびプログラム
US16/385,451 US11024330B2 (en) 2018-05-09 2019-04-16 Signal processing apparatus, signal processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018090689A JP7140542B2 (ja) 2018-05-09 2018-05-09 信号処理装置、信号処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019197136A JP2019197136A (ja) 2019-11-14
JP7140542B2 true JP7140542B2 (ja) 2022-09-21

Family

ID=68463323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018090689A Active JP7140542B2 (ja) 2018-05-09 2018-05-09 信号処理装置、信号処理方法、およびプログラム

Country Status (2)

Country Link
US (1) US11024330B2 (ja)
JP (1) JP7140542B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11340863B2 (en) * 2019-03-29 2022-05-24 Tata Consultancy Services Limited Systems and methods for muting audio information in multimedia files and retrieval thereof
US11031010B2 (en) * 2019-07-03 2021-06-08 Motorola Mobility Llc Speech recognition system providing seclusion for private speech transcription and private data retrieval
EP4002384A1 (en) * 2020-11-16 2022-05-25 Emocog Co., Ltd. Device and method for voice-based trauma screening using deep-learning
US11887587B2 (en) 2021-04-14 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio input recording to obtain a processed audio recording to address privacy issues

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092913A1 (ja) 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP2017126888A (ja) 2016-01-14 2017-07-20 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4517606B2 (ja) * 2003-08-27 2010-08-04 ソニー株式会社 監視システム、信号処理装置および方法、並びにプログラム
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
US9288331B2 (en) * 2011-08-16 2016-03-15 Cisco Technology, Inc. System and method for muting audio associated with a source
JP6203003B2 (ja) * 2012-12-20 2017-09-27 株式会社東芝 信号処理装置、信号処理方法およびプログラム
JP6156012B2 (ja) * 2013-09-20 2017-07-05 富士通株式会社 音声処理装置及び音声処理用コンピュータプログラム
JP6274872B2 (ja) 2014-01-21 2018-02-07 キヤノン株式会社 音処理装置、音処理方法
JP6289121B2 (ja) 2014-01-23 2018-03-07 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法
US10388297B2 (en) * 2014-09-10 2019-08-20 Harman International Industries, Incorporated Techniques for generating multiple listening environments via auditory devices
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
WO2018148095A1 (en) * 2017-02-13 2018-08-16 Knowles Electronics, Llc Soft-talk audio capture for mobile devices
US10558421B2 (en) * 2017-05-22 2020-02-11 International Business Machines Corporation Context based identification of non-relevant verbal communications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092913A1 (ja) 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP2017126888A (ja) 2016-01-14 2017-07-20 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法

Also Published As

Publication number Publication date
US11024330B2 (en) 2021-06-01
US20190348066A1 (en) 2019-11-14
JP2019197136A (ja) 2019-11-14

Similar Documents

Publication Publication Date Title
JP7140542B2 (ja) 信号処理装置、信号処理方法、およびプログラム
EP2192794B1 (en) Improvements in hearing aid algorithms
JP6121481B2 (ja) マルチマイクロフォンを用いた3次元サウンド獲得及び再生
KR101047194B1 (ko) 사운드 검출 및 위치측정 시스템
KR101227876B1 (ko) 서라운드 경험에 최소한의 영향을 미치는 멀티-채널 오디오에서 음성 가청도를 유지하는 방법과 장치
US9818423B2 (en) Method of improving sound quality and headset thereof
MX2012011203A (es) Procesador de audio espacial y metodo para proveer parametros espaciales en base a una señal de ntrada acustica.
JPWO2012001928A1 (ja) 会話検出装置、補聴器及び会話検出方法
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
Markovic et al. Implicit neural spatial filtering for multichannel source separation in the waveform domain
WO2017154378A1 (ja) 測定装置、フィルタ生成装置、測定方法、及びフィルタ生成方法
JP3435357B2 (ja) 収音方法、その装置及びプログラム記録媒体
JPH07334181A (ja) 残響音生成装置
JP2004325127A (ja) 音源検出方法、音源分離方法、およびこれらを実施する装置
CN112151038A (zh) 语音重放攻击检测方法、装置、可读存储介质及电子设备
JP2015065541A (ja) 音響制御装置及び方法
KR20200116617A (ko) 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
CN108605197B (zh) 滤波器生成装置、滤波器生成方法以及声像定位处理方法
JP6567479B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP7347520B2 (ja) 音信号処理装置、音信号処理方法および音信号処理プログラム
KR101661106B1 (ko) 헤드셋 기반 2채널 음향 입출력 장치를 이용한 위험상황 알림장치
KR20210056183A (ko) 음성의 선택적 증폭 방법, 컴퓨터 프로그램 및 시스템
JP7175096B2 (ja) 収音装置、プログラム及び方法
JPWO2021014990A5 (ja) 音声処理装置、音声処理方法、およびプログラム
JP7338270B2 (ja) 集音ノイズ除去装置、集音ノイズ除去システム及び集音ノイズ除去方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220908

R151 Written notification of patent or utility model registration

Ref document number: 7140542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151