JP6887102B2 - 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法 - Google Patents

音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法 Download PDF

Info

Publication number
JP6887102B2
JP6887102B2 JP2018502976A JP2018502976A JP6887102B2 JP 6887102 B2 JP6887102 B2 JP 6887102B2 JP 2018502976 A JP2018502976 A JP 2018502976A JP 2018502976 A JP2018502976 A JP 2018502976A JP 6887102 B2 JP6887102 B2 JP 6887102B2
Authority
JP
Japan
Prior art keywords
voice
sound
unit
utterance
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018502976A
Other languages
English (en)
Other versions
JPWO2017150103A1 (ja
Inventor
寿嗣 辻
寿嗣 辻
亮太 藤井
亮太 藤井
久裕 田中
久裕 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2017150103A1 publication Critical patent/JPWO2017150103A1/ja
Application granted granted Critical
Publication of JP6887102B2 publication Critical patent/JP6887102B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Description

本開示は、音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法に関する。
近年、カメラやマイクを用いて収録されたデータを扱う機会が増えている。防犯・証左の用途で店舗の窓口等に設置されるネットワークカメラシステムの台数は増加傾向にある。例えば、窓口でお客様と従業員の会話を録音する場合、お客様のプライバシー保護を考慮して、録音並びに再生を行う必要がある。また、録画を行う場合も同様である。
このようなシステムでは、マイクアレイ装置から指定された音声位置に向かう指向方向に、収音された音声に対する指向性を形成する。そして、このシステムは、音声位置がプライバシー保護領域である場合、収音された音声の出力を制御(ミュート処理、マスキング処理、又はボイスチェンジ処理)し、又は音声の収音を休止する(特許文献1参照)。
本開示は、プライバシー保護を図りつつ、発話者の感情を察知することを目的とする。
特開2015−29241号公報
本開示の音声処理装置は、収音部により収音された音声を取得する取得部と、前記音声の音声位置を検出する検出部と、前記音声位置がプライバシー保護エリア内である場合に、前記音声が発話の音声であるか否かを判定する判定部と、前記発話の音声を分析して感情値を取得する分析部と、前記発話の音声を前記感情値に対応する前記発話の意味を認識できない代替音に変換する変換部と、前記音声を出力する音声出力部に、前記代替音を出力させる出力制御部と、備える。
本開示によれば、プライバシー保護を図りつつ、発話者の感情を察知できる。
図1は、第1の実施形態におけるマイクアレイシステムの構成を示すブロック図である。 図2Aは、ピッチの変化に対応する感情値が登録された感情値テーブルの登録内容を示す図である。 図2Bは、話速に対応する感情値が登録された感情値テーブルの登録内容を示す図である。 図2Cは、音量に対応する感情値が登録された感情値テーブルの登録内容を示す図である。 図2Dは、滑舌に対応する感情値が登録された感情値テーブルの登録内容を示す図である。 図3は、感情値に対応する対応する代替音が登録された代替音テーブルの登録内容を示す図である。 図4は、マイクアレイ装置により収音された音声に対して所定の方向に指向性を形成する原理の一例の説明図である。 図5は、店舗の窓口に設置されたマイクアレイ装置によって受付係とお客様との会話が収音される状況を表す映像を示す図である。 図6は、マイクアレイ装置で収音された音声の出力手順を示すフローチャートである。 図7は、第2の実施形態におけるマイクアレイシステムの構成を示すブロック図である。 図8は、代替画像テーブルの登録内容を示す図である。 図9は、店舗の窓口に設置されたマイクアレイ装置によって受付係とお客様との会話が収音される状況を表す映像を示す図である。 図10は、マイクアレイ装置で収音された音声に基づく顔アイコンを含む映像の出力手順を示すフローチャートである。 図11は、第3の実施形態におけるマイクアレイシステムの構成を示すブロック図である。 図12は、店舗の窓口に設置されたマイクアレイ装置によって受付係とお客様との会話が収音される状況を表す映像を示す図である。
以下、適宜図面を参照しながら、実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になることを避け、当業者の理解を容易にするためである。尚、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるものであり、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(本開示の一形態を得るに至った経緯)
録音された従業員とお客様の会話録を、トラブル事案としてクレーム発生時の振り返りや社内研修資料に使用するとする。この会話録に対してプライバシー保護の必要がある場合、会話録の音声出力の制御等がされる。そのため、お客様の発話内容を把握することが困難であり、どのような経緯が存在するかを理解し難い。また、従業員と対面しているお客様の感情の変化を察することが困難である。
以下、プライバシー保護を図りつつ、発話者の感情を察知できる音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法について説明する。
(第1の実施形態)
[構成等]
図1は、第1の実施形態におけるマイクアレイシステム10の構成を示すブロック図である。マイクアレイシステム10は、カメラ装置CAと、マイクアレイ装置MAと、レコーダRCと、指向性制御装置30とを含む構成を有する。
カメラ装置CA、マイクアレイ装置MA、レコーダRC及び指向性制御装置30は、ネットワークNWを介して相互にデータ通信可能に接続されている。ネットワークNWは、有線ネットワーク(例えばイントラネット、インターネット)でもよいし、無線ネットワーク(例えば無線LAN(Local Area Network))でもよい。
カメラ装置CAは、例えば、室内の天井や壁等に設置された、画角が固定された固定カメラである。カメラ装置CAは、自装置が設置された撮像空間である撮像エリアSA(図5参照)を撮像可能な監視カメラとして機能する。
なお、カメラ装置CAは、固定カメラに限られず、全方位カメラ、パン・チルト・ズーム動作自在なPTZカメラであってもよい。カメラ装置CAは、映像を撮像した時刻(撮像時刻)を映像データと対応付けて記憶し、ネットワークNWを介して指向性制御装置30に送信する。
マイクアレイ装置MAは、例えば室内の天井に設置された全方位マイクアレイ装置である。マイクアレイ装置MAは、自装置が設置された収音空間(収音エリア)における全方位の音声を収音する。
マイクアレイ装置MAは、中央に開口部が形成された筐体、及びこの開口部の周囲に円周方向に沿って同心円状に配置された複数のマイクロホンユニットを有する。マイクロホンユニット(以下、単にマイクロホンと称する)には、例えば高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が用いられる。
尚、カメラ装置CAが、例えばマイクアレイ装置MAの筐体に形成された開口部に収容される全方位カメラである場合、撮像エリアと収音エリアは略同一となる。
マイクアレイ装置MAは、収音した音声データを、収音した時刻(収音時刻)と対応付けて記憶するとともに、記憶した音声データ及び収音時刻のデータを、ネットワークNWを介して、指向性制御装置30に送信する。
指向性制御装置30は、例えばマイクアレイ装置MA及びカメラ装置CAが設置された室内の外に設置される。指向性制御装置30は、例えば、据置型のPC(Personal Computer)である。
指向性制御装置30は、マイクアレイ装置MAで収音された全方位の音声に対し指向性を形成し、その指向方向の音声を強調する。指向性制御装置30は、撮像エリア内の音源の位置(音声位置ともいう)を推定し、推定された音源の位置がプライバシー保護エリアの範囲内である場合、所定のマスク処理を行う。マスク処理の詳細については、後述する。
尚、指向性制御装置30は、PCの代わりに、携帯電話機、タブレット端末、スマートフォン等の通信端末でもよい。
指向性制御装置30は、通信部31と、操作部32と、信号処理部33と、ディスプレイ装置36と、スピーカ装置37と、メモリ38と、設定管理部39と、音声分析部45と、を少なくとも含む構成である。信号処理部33は、指向性制御部41、プライバシー判断部42、発話判定部34及び出力制御部35を含む。
設定管理部39は、初期設定として、ディスプレイ装置36に表示された、カメラ装置CAで撮像された映像に対し、ユーザによって指定されたプライバシー保護エリアの座標を、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す角度に変換する。
この変換処理では、設定管理部39は、プライバシー保護エリアの指定に応じて、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向角(θMAh,θMAv)を算出する。この算出処理の詳細については、例えば特許文献1に記載されている。
θMAhは、マイクアレイ装置MAから音声位置に向かう指向方向の水平角を表す。θMAvは、マイクアレイ装置MAから音声位置に向かう指向方向の垂直角を表す。音声位置は、操作部32がディスプレイ装置36に表示された映像データにおいてユーザの指又はスタイラスペンによって指定された指定位置に対応する実際の位置である。なお、この変換処理は、信号処理部33が行ってもよい。
また、設定管理部39は、メモリ39zを有する。設定管理部39は、カメラ装置CAで撮像された映像に対し、ユーザによって指定されたプライバシー保護エリアの座標、及び、変換されたプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標、をメモリ39zに記憶する。
通信部31は、カメラ装置が送信した撮像時刻を含む映像データ、及びマイクアレイ装置MAが送信した収音時刻を含む音声データ、を受信して、信号処理部33に出力する。
操作部32は、ユーザの入力操作の内容を信号処理部33に通知するためのユーザインターフェース(UI:User Interface)であり、例えばマウス、キーボード等のポインティングデバイスを含んで構成される。また、操作部32は、例えばディスプレイ装置36の画面に対応して配置され、ユーザの指やスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。
操作部32は、ディスプレイ装置36に表示されたカメラ装置CAの映像データ(図5参照)において、ユーザがプライバシー保護を希望するエリアであるプライバシー保護エリアPRAを指定する。そして、操作部32は、指定されたプライバシー保護エリアの位置を表す座標データを取得して、信号処理部33に出力する。
メモリ38は、例えばRAM(Random Access Memory)を用いて構成され、指向性制御装置30が動作する際、プログラムメモリ、データメモリ、ワークメモリとして機能する。メモリ38は、マイクアレイ装置MAで収音される音声の音声データを収音時刻とともに記憶する。
信号処理部33は、機能的構成として、発話判定部34、指向性制御部41、プライバシー判断部42及び出力制御部35を有する。信号処理部33は、ハードウェアとして、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成される。信号処理部33は、指向性制御装置30の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。
発話判定部34は、収音された音声を分析し、音声が発話であるか否かを認識する。ここでの音声は、可聴周波数帯(例えば20Hz−23kHz)の周波数を有する音であり、人が話す音声以外を含んでもよい。また、発話は、人が話す音声であり、可聴周波数帯に比べて狭い帯域(例えば300Hz−4kHz)の周波数を有する音である。例えば、入力音から音声が発話された区間を検出する技術であるVAD(Voice Activity Detectors)によって、発話が認識される。
プライバシー判断部42は、メモリ38に記憶された音声データを用いて、マイクアレイ装置MAで収音された音声がプライバシー保護エリア内で検出されたものであるか否かを判定する。
プライバシー判断部42は、マイクアレイ装置MAで音声が収音された場合、音源の方向がプライバシー保護エリアの範囲内であるか否かを判定する。この場合、プライバシー判断部42は、例えば、撮像エリアを複数のブロックに分割し、ブロック毎に音声の指向性を形成し、その指向方向に閾値を超える音声があるか否かを判定し、撮像エリア内の音声位置を推定する。
音声位置の推定方法として、公知の方法を用いてよく、例えば、『論文「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」 西浦 敬信 等、電子情報通信学会論文誌 D−11 Vol.J83−D−11 No.8 pp.1713−1721 2000年 8月 』の文献に記載されている方法を用いてもよい。
また、プライバシー判断部42は、マイクアレイ装置MAが収音した音声データに対し、プライバシー保護エリア内の位置に指向性を形成し、その指向方向に音声が検出されているか否かを判定してもよい。この場合、音声位置がプライバシー保護エリアの範囲内にあるか否かを判定できるが、プライバシー保護エリアの外側に音声位置があっても、その位置は特定されない。
出力制御部35は、カメラ装置CA、マイクアレイ装置MA、ディスプレイ装置36及びスピーカ装置37の動作を制御する。出力制御部35は、カメラ装置CAから送信された映像データをディスプレイ装置36に出力させ、マイクアレイ装置MAから送信された音声データをスピーカ装置37に音声出力させる。
指向性制御部41は、マイクアレイ装置MAが収音して指向性制御装置30に送信した音声データを用いて指向性の形成処理を行う。ここでは、指向性制御部41は、設定管理部39により算出された指向角(θMAh,θMAv)の方向に、音声データの指向性を形成する。
プライバシー判断部42は、算出された指向方向を示す座標データを基に、音声位置が予め指定されたプライバシー保護エリアPRA(図5参照)内に含まれるか否かを判定してもよい。
出力制御部35は、プライバシー保護エリアPRA内に音声位置が含まれると判定された場合、マイクアレイ装置MAにより収音された音声を制御し、例えば、この音声に代えて代替音を再生して出力する。代替音は、例えば、プライバシー音の一例としての通称「ピー音」を含む。
なお、出力制御部35は、マイクアレイ装置MAにより収音されたプライバシー保護エリアPRA内の音声の音圧を算出し、この算出された音声が音圧閾値を超える場合に、代替音を出力してもよい。
出力制御部35は、代替音を出力する際、マイクアレイ装置MAにより収音されたプライバシー保護エリアPRA内の音声を音声分析部45に送る。出力制御部35は、音声分析部45によって音声分析が行われた結果に基づく代替音の音声データを、音声分析部45から取得する。
音声分析部45は、マイクアレイ装置MAにより収音されたプライバシー保護エリアPRA内の音声を受けると、この音声を分析し、音声を発した人物の感情を感情値として取得する。この音声分析では、音声分析部45は、プライバシー保護エリアPRA内の音声のうち、例えば、話者が発する発話の音声のピッチ(周波数)の変化を分析し、声が上ずった、下がった、上がった等の感情値を得る。感情値として、例えば「高」、「中」、「低」の3段階に分けられる。なお、感情値を任意の段数に分けてもよい。
音声分析部45のプライバシー音データベース(DB)48には、4つの感情値テーブル47A,47B,47C,47Dが保持されている(図2A〜図2D参照)。特にこれらのテーブルを区別する必要が無い場合、感情値テーブル47と総称する。感情値テーブル47は、プライバシー音DB48に記憶される。
図2Aは、ピッチの変化に対応する感情値が登録された感情値テーブル47Aの登録内容を示す模式図である。
感情値テーブル47Aでは、例えば、ピッチの変化が「大」の場合、声が上ずっている等として、感情値に「高」が設定される。例えば、ピッチの変化が「中」の場合、声が僅かに上がっている等として、感情値に「中」が設定される。例えば、ピッチの変化が「小」の場合、声が下がって落ち着いている等として、感情値に「小」が設定される。
図2Bは、話速に対応する感情値が登録された感情値テーブル47Bの登録内容を示す模式図である。話速は、例えば、所定時間内に話者が発した単語数により表される。
感情値テーブル47Bでは、例えば、話速が早い場合、早口になっている等として、感情値に「高」が設定される。例えば、話速が普通(中程度)の場合、話が少し早い等として、感情値に「中」が設定される。例えば、話速が遅い場合、気分が落ち着いている等として、感情値に「小」が設定される。
図2Cは、音量に対応する感情値が登録された感情値テーブル47Cの登録内容を示す模式図である。
感情値テーブル47Cでは、例えば、話者が発する音声の音量が大きい場合、気分が高揚している等として、感情値に「高」が設定される。例えば、音量が普通(中程度)の場合、通常の気分である等として、感情値に「中」が設定される。例えば、音量が小さい場合、気分が落ち着いている等として、感情値に「小」が設定される。
図2Dは滑舌に対応する感情値が登録された感情値テーブル47Dの登録内容を示す模式図である。
滑舌の善し悪しは、例えば、音声認識による認識率の高低で判断される。感情値テーブル47Cでは、例えば、音声の認識率が低く、滑舌が悪い場合、怒っている等として、感情値に「大」が設定される。例えば、音声の認識率が中で滑舌が普通(中程度)の場合、平静である等として、感情値に「中」が設定される。例えば、音声の認識率が高く、滑舌が良い場合、冷静である等として、感情値に「小」が設定される。
音声分析部45は、いずれの感情値テーブル47を用いてもよく、また、複数の感情値テーブル47を用いて感情値を導出してもよい。ここでは、一例として、音声分析部45が感情値テーブル47Aにおけるピッチの変化から感情値を取得する場合を示す。
音声分析部45は、プライバシー音変換部46、及び、プライバシー音DB48を有する。
プライバシー音変換部46は、プライバシー保護エリアPRA内の発話の音声を、感情値に対応する代替音に変換する。
プライバシー音DB48には、例えば、プライバシー音としてピー音を表す正弦波(サイン波)の音声データが1つ登録されている。プライバシー音変換部46は、プライバシー音DB48に登録されている正弦波の音声データを読み出し、発話の音声が出力されている期間、読み出した音声データを基に、感情値に対応する周波数の正弦波の音声データを出力する。
例えば、プライバシー音変換部46は、感情値が「高」である場合、1kHzのピー音を出力し、感情値が「中」である場合、500Hzのピー音を出力し、感情値が「低」である場合、200Hzのピー音を出力してもよい。尚、この周波数は、一例であり、他の高さでもよい。
尚、プライバシー音変換部46は、1つの正弦波の音声データを基に、複数の周波数の音声データを生成する代わりに、予め感情値に対応する音声データを、例えばプライバシー音DB48に登録しておき、この音声データを読み出してもよい。
図3は、感情値に対応する対応する代替音が登録された代替音テーブル49の登録内容を示す模式図である。代替音テーブル49は、プライバシー音DB48に記憶される。
代替音テーブル49には、感情値に対応する代替音として、前述した3つの異なる周波数のプライバシー音が登録されている。尚、これに限らず、プライバシー音DB48には、感情値が「高」である場合に怒りを表す大砲の音データ、感情値が「中」である場合に怒っていないことを表す豆鉄砲の音データ、感情値が「低」である場合に喜びを表すメロディ音の音データ、等が登録されてもよい。
ディスプレイ装置36は、カメラ装置CAが撮像した映像データを画面に表示する。
スピーカ装置37は、マイクアレイ装置MAが収音した音声データ、又は指向角(θMAh,θMAv)に指向性が形成されたマイクアレイ装置MAが収音した音声データ、を音声出力する。尚、ディスプレイ装置36及びスピーカ装置37は、指向性制御装置30とは別体の装置として構成されてもよい。
図4は、マイクアレイ装置MAにより収音された音声に対して所定の方向に指向性を形成する原理の一例の説明図である。
指向性制御装置30は、マイクアレイ装置MAから送信された音声データを用いて、音声データの指向性制御処理によって、各々のマイクロホンMA1〜MAnにより収音された各音声データを加算する。そして、指向性制御装置30は、マイクアレイ装置MAの各マイクロホンMA1〜MAnの位置から特定方向への音声(音量レベル)を強調(増幅)するために、特定方向への指向性を形成した音声データを生成する。特定方向とは、マイクアレイ装置MAから操作部32で指定された音声位置に向かう方向である。
尚、マイクアレイ装置MAによって収音される音声の指向性を形成するための音声データの指向性制御処理に関する技術は、例えば特開2014−143678号公報や特開2015−029241号公報(特許文献1)等に示されるように、公知の技術である。
図4では、説明を分かり易くするため、マイクロホンMA1〜MAnは直線上に一次元配列されている。この場合、指向性は面内の二次元空間になる。更に、三次元空間で指向性を形成するためには、マイクロホンMA1〜MAnを二次元配列し、同様な処理を実施されればよい。
音源80から発した音波は、マイクアレイ装置MAに内蔵される各マイクロホンMA1,MA2,MA3,〜,MA(n−1),MAnに対し、ある一定の角度(入射角=(90−θ)[度])で入射する。入射角θは、マイクアレイ装置MAから音声位置に向かう指向方向の水平角θMAhでも垂直角θMAvでもよい。
音源80は、例えば、マイクアレイ装置MAが収音する収音方向に存在するカメラ装置CAの被写体である人物の会話である。音源80は、マイクアレイ装置MAの筐体21の面上に対し、所定角度θの方向に存在する。また、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAn間の間隔dは、一定とする。
音源80から発した音波は、例えば、最初にマイクロホンMA1に到達して収音され、次にマイクロホンMA2に到達して収音され、同様に次々に収音され、最後にマイクロホンMAnに到達して収音される。
マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnが収音したアナログの音声データを、A/D変換器241,242,243,〜,24(n−1),24nにおいてデジタルの音声データにAD変換する。
更に、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nにおいて、各々のマイクロホンMA1,MA2,MA3,…,MA(n−1),MAnにおける到達時間差に対応する遅延時間を与えて、全ての音波の位相を揃えた後、加算器26において遅延処理後の音声データを加算する。
これにより、マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnに、所定角度θの方向に音声データの指向性を形成する。
このように、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nに設定される遅延時間D1,D2,D3,〜,Dn−1,Dnを変更することで、収音した音声データの指向性を簡易に形成できる。
[動作等]
次にマイクアレイシステム10の動作について説明する。ここでは、店舗に来店したお客様と受付係との会話を収音して音声出力する場合を一例として示す。
図5は、店舗の窓口に設置されたマイクアレイ装置MAによって、受付係hm2とお客様hm1との会話が収音される状況を表す映像を示す模式図である。
図5の映像では、店舗内の天井に設置された固定カメラであるカメラ装置CAによって撮像された撮像エリアSAが、ディスプレイ装置36に映し出されている。例えば、受付係hm2(従業員の一例)がお客様hm1と対面するカウンタ101の真上に、マイクアレイ装置MAが設置される。マイクアレイ装置MAは、受付係hm2とお客様hm1との会話を含む、店舗内の音声を収音する。
お客様hm1が位置するカウンタ101は、プライバシー保護エリアPRAに設定されている。プライバシー保護エリアPRAは、例えば、ユーザが予めディスプレイ装置36に表示された映像に対して、タッチ操作等で範囲を指定することで設定される。
図5の映像では、撮像エリアSAにおいて、お客様hm1が来店し、カウンタ101の前に設置されたプライバシー保護エリアPRAに入っている状況が示されている。例えば、受付係hm2が「いらっしゃいませ」と挨拶すると、その音声はスピーカ装置37から出力される。また、例えば、お客様hm1は険しい表情で話しかけているが、その音声はスピーカ装置37から「ピー、ピー、ピー」とプライバシー音が出力される。
これにより、発話内容の秘匿性が担保される。また、マイクアレイシステム10のユーザは、スピーカ装置37から出力されるプライバシー音のピッチの変化等から、お客様hm1の感情を察知できる。
尚、受付係hm2とお客様hm1が発した発話の音声を表す吹き出しは、説明を分かり易くするために付加されたものである。
図6は、マイクアレイ装置MAで収音された音声の出力手順を示すフローチャートである。この音声出力動作は、例えば、マイクアレイ装置MAで収音された音声の音声データをレコーダRCに一旦記憶させた後に行われる。
通信部31は、ネットワークNWを介してレコーダRCに記録された、所定時間の音声データ及び映像データを取得する(S1)。
指向性制御部41は、マイクアレイ装置MAで収音された音声データに対し、指向性を形成し、店舗内等の所定の方向を指向方向とする音声データを取得する(S2)。
プライバシー判断部42は、指向性制御部41によって指向性が形成される音声位置がプライバシー保護エリアPRA内であるか否かを判別する(S3)。
音声位置がプライバシー保護エリアPRA内でない場合、出力制御部35は、指向性形成済みの音声データをそのままスピーカ装置37に出力する(S4)。また、この場合、出力制御部35は、映像データをディスプレイ装置36に出力する。この後、信号処理部33は本動作を終了する。
S3で、指向性制御部41によって指向性が形成される音声位置がプライバシー保護エリアPRA内である場合、発話判定部34は、指向性形成済みの音声が発話の音声であるか否かを判別する(S5)。
S5では、例えば、発話判定部34は、指向性形成済みの音声が受付係hm2とお客様hm1との会話のような人が話す音声であり、可聴周波数帯に比べて狭い帯域(例えば300Hz−4kHz)の周波数を有する音であるか否かを判別する。
尚、ここでは、発話の音声を音声分析の対象としたが、プライバシー保護エリアPRAで発せられる全ての音声を音声分析の対象としてもよい。
S5において、指向性形成済みの音声が発話の音声でない場合、信号処理部33は、前述したS4の処理に進む。
S5において、指向性形成済みの音声が発話の音声である場合、音声分析部45は、指向性形成済みの音声データに対し、音声分析する(S6)。
音声分析の結果、音声分析部45は、プライバシー音DB48に登録されている感情値テーブル47を用いて、発話の音声の感情値が「高」か、「中」か、「低」か、を判別する(S7)。
S7で、発話の音声の感情値が「高」である場合、プライバシー音変換部46は、代替音テーブル49を用いて、正弦波の音声データを読み出し、高域の周波数(例えば1kHz)の音声データに変換する(S8)。
出力制御部35は、高い周波数の音声データをプライバシー音としてスピーカ装置37に出力する(S11)。スピーカ装置37は、プライバシー音である「ピー音」を出力する。この後、信号処理部33は本動作を終了する。
S7で、発話の音声の感情値が「中」である場合、プライバシー音変換部46は、代替音テーブル49を用いて、正弦波の音声データを読み出し、中域の周波数(例えば500Hz)の音声データに変換する(S9)。
出力制御部35は、S11で、中域の周波数の音声データをプライバシー音としてスピーカ装置37に出力する。スピーカ装置37は、プライバシー音である「ピー音」を出力する。この後、信号処理部33は本動作を終了する。
S7で、発話の音声の感情値が「低」である場合、プライバシー音変換部46は、代替音テーブル49を用いて、正弦波の音声データを読み出し、低域の周波数(例えば200Hz)の音声データに変換する(S10)。
出力制御部35は、S11で、低域の周波数の音声データをプライバシー音としてスピーカ装置37に出力する。スピーカ装置37は、プライバシー音である「ピー音」を出力する。この後、信号処理部33は本動作を終了する。
マイクアレイシステム10では、ユーザは、例えばスピーカ装置37から出力されるお客様hm1の発話の内容が分からなくても、プライバシー音として発せられる「ピー音」の音の高さから、お客様hm1が怒っている等の感情を察することができる。
従って、例えば、受付係hm2とお客様hm1の会話録をトラブル事案として、振り返りや社内研修に使用したとしても、ユーザは、お客様hm1の発話の内容が秘匿された状態で、お客様hm1の感情の変化を理解できる。
[効果等]
このように、音声処理装置は、収音部により収音された音声を取得する取得部と、音声の音声位置を検出する検出部と、音声位置がプライバシー保護エリアPRA内である場合に、音声が発話の音声であるか否かを判定する判定部と、発話の音声を分析して感情値を取得する分析部と、発話の音声を感情値に対応する代替音に変換する変換部と、音声を出力する音声出力部に、代替音を出力させる出力制御部35と、備える。
音声処理装置は、例えば指向性制御装置30である。収音部は、例えばマイクアレイ装置MAである。取得部は、例えば通信部31である。検出部は、例えば指向性制御部41である。判定部は、例えば発話判定部34である。分析部は、例えば音声分析部45である。音声出力部は、例えばスピーカ装置37である。変換部は、例えばプライバシー音変換部46である。代替音は、例えばプライバシー音である。
これにより、音声処理装置は、プライバシー保護を図りつつ、発話者の感情を把握できる。例えば、発話の音声を代替音によって秘匿化でき、お客様hm1のプライバシー保護が担保される。また、音声処理装置は、発話された音声を一律にマスキングするのではなく、発話された音声に応じて代替音を使い分けるので、発話者の感情に応じた代替音を出力できる。よって、また、受付係hm2とお客様hm1の会話録を、トラブル事案としてクレーム発生時の振り返りや社内研修資料に使用しても、ユーザは、お客様hm1の感情の変化を推察できる。つまり、ユーザは、例えば、トラブル時にお客様hm1に対して従業員hm2がどのような対応をすると、お客様hm1が落ち着くのかを把握できる。
また、分析部は、発話の音声に対し、ピッチの変化、話速、音量及び滑舌の少なくとも1つ(複数の組み合わせを含む)を分析して、感情値を取得してもよい。
これにより、音声処理装置は、発話の音声に対し、様々な方法で音声分析できる。従って、ユーザは、お客様hm1の感情を適切に把握できる。
また、変換部は、感情値に応じて代替音の周波数を変更してもよい。
これにより、音声処理装置は、感情値に応じて異なる周波数のプライバシー音を出力できる。よって、ユーザは、お客様hm1の感情を適切に把握できる。
(第2の実施形態)
第1の実施形態では、音声分析部45で音声分析を行った結果得られる感情値に対応する代替音を、プライバシー音として出力することを示した。第2の実施形態では、感情値に対応する顔アイコンを、カメラ装置CAによって撮像される音声位置の映像の代わりに出力することを示す。
[構成等]
図7は、第2の実施形態におけるマイクアレイシステム10Aの構成を示すブロック図である。第2の実施形態のマイクアレイシステムは、第1の実施形態とほぼ同一の構成を有する。第1の実施形態と同一の構成要素については、同一の符号を用いることで、その説明を省略又は簡略化する。
マイクアレイシステム10Aは、第1の実施形態のマイクアレイシステム10と同様の構成の他、音声分析部45A及び映像変換部65を有する。
音声分析部45Aは、プライバシー音変換部46を省き、プライバシー音DB48Aを有する。音声分析部45Aは、マイクアレイ装置MAにより収音されたプライバシー保護エリアPRA内の音声を受けると、この音声を分析し、音声を発した人物の感情を感情値として取得する。この音声の分析では、プライバシー音DB48Aに登録された感情値テーブル47が用いられる。
映像変換部65は、顔アイコン変換部66及び顔アイコンDB68を有する。映像変換部65は、カメラ装置CAによって撮像される音声位置の映像を、感情値に対応する代替画像(例えば顔アイコン)に変換する。顔アイコンDB68には、代替画像テーブル67が記憶されている。
図8は代替画像テーブル67の登録内容を示す模式図である。
代替画像テーブル67には、感情値に対応する顔アイコンfm(fm1,fm2,fm3,…)が登録されている。例えば、感情値が高くて「高」である場合、怒っているような表情を持つ顔アイコンfm1に変換される。例えば、感情値が普通(中程度)で「中」である場合、穏やかな表情を持つ顔アイコンfm2に変換される。例えば、感情値が低くて「低」である場合、笑っているような表情を持つ顔アイコンfm3に変換される。
尚、図8では3つの登録例を示したが、任意の数の顔アイコンが感情値に対応するように登録されていてもよい。
顔アイコン変換部66は、音声分析部45Aによる音声分析の結果、得られる感情値に対応する顔アイコンfmを、顔アイコンDB68内の代替画像テーブル67から取得する。顔アイコン変換部66は、カメラ装置CAによって撮像される音声位置の映像に、取得された顔アイコンfmを重ねる。映像変換部65は、顔アイコン変換後の画像データを出力制御部35に送る。出力制御部35は、顔アイコン変換後の画像データをディスプレイ装置36に表示させる。
[動作等]
次に、マイクアレイシステム10Aの動作について説明する。ここでは、来店したお客様と受付係との会話を収音して音声出力する場合を一例として示す。
図9は、店舗の窓口に設置されたマイクアレイ装置MAによって、受付係hm2とお客様hm1との会話が収音される状況を表す映像を示す模式図である。
図9の映像は、店舗内の天井に設置された固定カメラであるカメラ装置CAによって撮像された撮像エリアSAが、ディスプレイ装置36に映し出されている。例えば、受付係hm2がお客様hm1と対面するカウンタ101の真上に、マイクアレイ装置MAが設置される。マイクアレイ装置MAは、受付係hm2とお客様hm1との会話を含む、店舗内の音声を収音する。
お客様hm1が位置するカウンタ101は、プライバシー保護エリアPRAに設定されている。プライバシー保護エリアPRAは、例えば、ユーザが予めディスプレイ装置36に表示された映像に対して、タッチ操作等で範囲を指定することで設定される。
図9の映像では、撮像エリアSAにおいて、お客様hm1が来店し、カウンタ101の前に設置されたプライバシー保護エリアPRAに入っている状況が示されている。例えば、受付係hm2が「いらっしゃいませ」と挨拶をすると、その音声はスピーカ装置37から出力される。また、例えば、お客様hm1が発した音声はスピーカ装置37から「先日のトラブルの件」と出力される。発音内容は認識可能である。
一方、プライバシー保護エリアPRA内に立つ、お客様hm1の顔近傍(音声位置)には、怒っているような表情を持つ顔アイコンfm1が描画されている。
これにより、ユーザは、発話内容を察知でき、顔アイコンfm1からお客様hm1の感情を察知できる。一方、顔アイコンfm1によってお客様hm1の顔は秘匿化(マスク)され、お客様hm1のプライバシー保護が担保される。
尚、受付係hm2とお客様hm1が発した発話の音声を表す吹き出しは、説明を分かり易くするために付加されたものである。
図10は、マイクアレイ装置MAで収音された音声に基づく顔アイコンを含む映像の出力手順を示すフローチャートである。この映像出力動作は、例えば、マイクアレイ装置MAで収音された音声の音声データ及び画像データをレコーダRCに一旦記憶させた後に行われる。
尚、第1の実施形態と同一のステップ処理については、同一のステップ番号を付すことで、その説明を省略又は簡略化する。
S3では、音声位置がプライバシー保護エリアPRA内でない場合、出力制御部35は、カメラ装置CAで撮像された、顔画像を含む映像データをディスプレイ装置36に出力する(S4A)。この場合、出力制御部35は、指向性形成済みの音声データをそのままスピーカ装置37に出力する。この後、信号処理部33は本動作を終了する。
S7で、発話の音声の感情値が「高」である場合、顔アイコン変換部66は、代替画像テーブル67に登録されている、感情値が「高」に対応する顔アイコンfm1を読み出す。顔アイコン変換部66は、読み出された顔アイコンfm1を、カメラ装置CAで撮像された映像データの顔画像(音声位置)に重畳することで、映像データを変換する(S8A)。
尚、顔アイコン変換部66は、カメラ装置CAで撮像された映像データの顔画像(音声位置)を、読み出された顔アイコンfm1に置換することで、映像データを変換してもよい(S8A)。
出力制御部35は、変換後の映像データをディスプレイ装置36に出力する(S11A)。ディスプレイ装置36は、顔アイコンfm1を含む映像データを表示する。また、この場合、出力制御部35は、指向性形成済みの音声データをそのままスピーカ装置37に出力する。この後、信号処理部33は本動作を終了する。
S7で、発話の音声の感情値が「中」である場合、顔アイコン変換部66は、代替画像テーブル67に登録されている、感情値が「中」に対応する顔アイコンfm2を読み出す。顔アイコン変換部66は、読み出された顔アイコンfm2を、カメラ装置CAで撮像された映像データの顔画像(音声位置)に重畳することで、映像データを変換する(S9A)。
尚、顔アイコン変換部66は、カメラ装置CAで撮像された映像データの顔画像(音声位置)を、読み出された顔アイコンfm2に置換することで、映像データを変換してもよい(S9A)。
出力制御部35は、S11Aで、変換後の映像データをディスプレイ装置36に出力する。ディスプレイ装置36は、顔アイコンfm2を含む映像データを表示する。また、この場合、出力制御部35は、指向性形成済みの音声データをそのままスピーカ装置37に出力する。この後、信号処理部33は本動作を終了する。
S7で、発話の音声の感情値が「低」である場合、顔アイコン変換部66は、代替画像テーブル67に登録されている、感情値が「低」に対応する顔アイコンfm3を読み出す。顔アイコン変換部66は、読み出された顔アイコンfm3を、カメラ装置CAで撮像された映像データの顔画像(音声位置)に重畳することで、映像データを変換する(S10A)。
尚、顔アイコン変換部66は、カメラ装置CAで撮像された映像データの顔画像(音声位置)を、読み出された顔アイコンfm3に置換することで、映像データを変換してもよい(S10A)。
出力制御部35は、S11Aで、変換後の映像データをディスプレイ装置36に出力する。ディスプレイ装置36は、顔アイコンfm3を含む映像データを表示する。また、この場合、出力制御部35は、指向性形成済みの音声データをそのままスピーカ装置37に出力する。この後、信号処理部33は本動作を終了する。
マイクアレイシステム10Aでは、ユーザは、例えばディスプレイ装置36に表示されるお客様hm1の顔画像を視認し難くても、表示された顔アイコンfmの種類に基づいて、お客様hm1が怒っている等の感情を察することができる。
従って、例えば、受付係hm2とお客様hm1の会話録をトラブル事案として、振り返りや社内研修に使用したとしても、ユーザは、お客様hm1の顔画像が秘匿された状態で、お客様hm1の感情の変化を理解できる。
[効果等]
このように、音声処理装置では、取得部は、撮像部により撮像された撮像エリアSAの映像を取得し、収音部により収音された撮像エリアSAの音声を取得する。変換部は、音声位置の映像を感情値に対応する代替画像に変換する。出力制御部35は、映像を表示する表示部に、代替画像を表示させる。
撮像部は、例えばカメラ装置CAである。変換部は、例えば顔アイコン変換部66である。代替画像は、例えば顔アイコンfmである。表示部は、例えばディスプレイ装置36である。
また、本実施形態の画像処理装置は、撮像部により撮像された撮像エリアSAの映像と、収音部により収音された撮像エリアSAの音声を取得する取得部と、音声の音声位置を検出する検出部と、音声位置が前記プライバシー保護エリアPRA内である場合に、音声が発話の音声であるか否かを判定する判定部と、発話の音声を分析して感情値を取得する分析部と、音声位置の映像を感情値に対応する代替画像に変換する変換部と、映像を表示する表示部に、代替画像を表示させる出力制御部35と、を備える。尚、画像処理装置は、例えば指向性制御装置30である。
これにより、ユーザは、顔アイコンfmからお客様hm1の感情を察知できる。また、顔アイコンによってお客様hm1の顔を秘匿化(マスク)でき、お客様hm1のプライバシー保護が担保される。よって、音声処理装置は、プライバシー保護を図りつつ、発話者の感情を視覚的に把握できる。
また、変換部は、感情値に応じて、感情を示す異なる代替画像を表示させてもよい。
これにより、音声処理装置は、感情値に応じて異なる表情の顔アイコンfm等を出力できる。よって、ユーザは、お客様hm1の感情を適切に把握できる。
(第3の実施形態)
第3の実施形態では、第1の実施形態におけるプライバシー音に変換する処理と、第2の実施形態における顔アイコンに変換する処理と、を組み合わせた場合を示す。
図11は、第3の実施形態におけるマイクアレイシステム10Bの構成を示すブロック図である。第1及び第2の実施形態と同一の構成要素については、同一の符号を用いることで、その説明を省略又は簡略化する。
マイクアレイシステム10Bは、第1及び第2の実施形態と同様の構成を有し、音声分析部45及び映像変換部65の両方を有する。音声分析部45及び映像変換部65の構成及び動作は前述した通りである。
マイクアレイシステム10Bでは、第1の実施形態及び第2の実施形態と同様、例えば、来店したお客様と受付係との会話を収音して音声出力し、お客様と受付係とが所在する撮像エリアを録画する場合を想定する。
図12は、店舗の窓口に設置されたマイクアレイ装置MAによって、受付係hm2とお客様hm1との会話が収音される状況を表す映像を示す模式図である。
図12に示すディスプレイ装置36に表示される映像では、お客様hm1が来店し、カウンタ101の前に設置されたプライバシー保護エリアPRAに入っている状況が示される。例えば、受付係hm2が「いらっしゃいませ」と挨拶すると、その音声はスピーカ装置37から出力される。また、例えば、お客様hm1も受付係hm2に話しかけるが、スピーカ装置37から「ピー、ピー、ピー」とプライバシー音が出力される。
これにより、発話内容の秘匿性が担保される。また、マイクアレイシステム10Bのユーザは、スピーカ装置37から出力されるプライバシー音のピッチの変化等から、お客様hm1の感情を察知できる。
図12の映像では、プライバシー保護エリアPRA内に立つ、お客様hm1の顔近傍(音声位置)には、怒っているような表情を持つ顔アイコンfm1が配置される。
これにより、ユーザは、顔アイコンfm1からお客様hm1の感情を察知できる。また、顔アイコンfm1によってお客様hm1の顔が秘匿化(マスク)され、お客様hm1のプライバシー保護が担保される。
[効果等]
このように、マイクアレイシステム10Bは、撮像エリアSAの映像を撮像する撮像部と、撮像エリアの音声を収音する収音部と、収音部により収音された音声の音声位置を検出する検出部と、音声位置がプライバシー保護エリアPRA内である場合に、音声が発話の音声であるか否かを判定する判定部と、発話の音声を分析して感情値を取得する分析部と、感情値に対応する変換処理を行う変換部と、変換処理の結果を出力させる出力制御部35と、を備える。変換処理は、例えば、プライバシー音に変換する音声処理と、顔アイコンfmに変換する画像変換処理と、の少なくとも一方を含む。
これにより、マイクアレイシステム10Bは、例えば、プライバシー音によってお客様hm1の発話内容が秘匿化され、顔アイコンfmによってお客様hm1の顔が秘匿化されるので、プライバシーを更に保護できる。上記の発話内容の秘匿化と顔の秘匿化とは、少なくとも一方が実施される。また、ユーザは、プライバシー音のピッチの変化や顔アイコンの種類によって、お客様hm1の感情を更に察知し易くなる。
(他の実施形態)
以上のように、本開示における技術の例示として、第1〜第3の実施形態を説明した。しかし、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、各実施形態を組み合わせてもよい。
第1,第3の実施形態では、マイクアレイ装置MAで検出される音声の音声位置がプライバシー保護エリアPRA内である場合、撮像エリアSAで検出された音声をユーザに依存せずにプライバシー音に変換する処理を行うことを示した。この代わりに、プライバシー音への変換処理が、ユーザに依存して行われてもよい。プライバシー音への変換処理に限らず、顔アイコンの変換処理についても同様である。
例えば、指向性制御装置30を操作するユーザが、一般ユーザである場合、プライバシー音への変換処理を行い、管理者等の権限のあるユーザである場合、プライバシー音への変換処理をしなくてもよい。いずれのユーザであるかは、例えば、指向性制御装置30にログインする際のユーザID等によって判断されてもよい。
第1,第3の実施形態では、プライバシー音変換部46は、感情値に対応するプライバシー音として、マイクアレイ装置MAにより収音された音声の音声データに対してボイスチェンジ処理(加工処理)を施してもよい。
プライバシー音変換部46は、ボイスチェンジ処理の一例として、例えば、マイクアレイ装置MAにより収音された音声の音声データの周波数(ピッチ)の高低を変化させてもよい。つまり、プライバシー音変換部46は、スピーカ装置37から出力される音声の周波数を音声の内容が分かり難くなるような他の周波数に変更してもよい。
これにより、プライバシー保護エリアPRA内の音声の内容を認識し難くしつつ、ユーザは話者の感情を察することができる。また、プライバシー音DB48に予めプライバシー音を複数保持することが不要となる。
このように、出力制御部35は、マイクアレイ装置MAにより収音され、加工処理された音声をスピーカ装置37から出力させてもよい。これにより、プライバシー保護エリアPRA内に存在する被写体(例えば人物)のプライバシーを効果的に保護できる。
第1〜第3の実施形態では、出力制御部35は、ユーザの指又はスタイラスペンによって画面上で指定された指定位置に対応する音声位置がプライバシー保護エリアPRAに含まれる旨を、画面上でユーザに対して明示的に通知してもよい。
第1〜第3の実施形態では、音源位置や音源位置の方向がプライバシー保護エリアの範囲や方向にある場合、感情値に応じて音声や映像の少なくとも一部が、代替される別の音声、映像又は画像(代替出力又は変換処理の結果)に変換されることを例示した。この代わりに、プライバシー判断部42は、収音された時間帯がプライバシー保護を必要とする時間帯(プライバシー保護時間)に含まれるか否かを判断してもよい。プライバシー保護時間に収音時間が含まれる場合に、プライバシー音変換部46や顔アイコン変換部66により、感情値に応じて音声や映像の少なくとも一部が変換されてもよい。
また、本開示の実施形態では、お客様hm1をプライバシー保護エリアPRAに設定し、お客様hm1の発話から検出される感情値に応じて音声や映像の少なくとも一部が、代替される別の音声、映像又は画像に変換される例を示したが、逆に受付係hm2をプライバシー保護エリアに設定し、受付係hm2の発話から検出される感情値に応じて音声や映像の少なくとも一部が、代替される別の音声、映像又は画像に変換されてもよい。これにより、例えばトラブル事案としてクレーム発生時の振り返りや社内研修資料に使用する際に、受付係の顔をアイコンに変更することで、社員の特定を困難にするという効果が期待出来る。
さらに、本開示の実施形態では、マイクアレイ装置MA及び指向性制御装置30を用いて、お客様hm1及び受付係hm2の発話を収音しているが、これらの代わりにお客様hm1及び受付係hm2それぞれの近傍に設置された複数のマイク(例えば指向性マイクなど)を用いて、それぞれの発話を収音してもよい。
本開示は、プライバシー保護を図りつつ、発話者の感情を察知できる音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法等に有用である。
10,10A.10B マイクアレイシステム
21 筐体
26 加算器
30 指向性制御装置
31 通信部
32 操作部
33 信号処理部
34 発話判定部
35 出力制御部
36 ディスプレイ装置
37 スピーカ装置
38 メモリ
39 設定管理部
39z メモリ
41 指向性制御部
42 プライバシー判断部
45,45A 音声分析部
46 プライバシー音変換部
47,47A,47B,47C,47D 感情値テーブル
48,48A プライバシー音データベース(DB)
49 代替音テーブル
65 映像変換部
66 顔アイコン変換部
67 代替画像テーブル
68 顔アイコンデータベース(DB)
80 音源
101 カウンタ
241,242,243,…,24n A/D変換器
251,252,253,…,25n 遅延器
CA カメラ装置
fm,fm1,fm2,fm3 顔アイコン
hm1 お客様
hm2 受付係
NW ネットワーク
MA マイクアレイ装置
MA1,MA2,…,MAn,MB1,MB2,…,MBn マイクロホン
RC レコーダ
SA 撮像エリア

Claims (12)

  1. 収音部により収音された音声を取得する取得ステップと、
    前記音声の音声位置を検出する検出ステップと、
    前記音声位置がプライバシー保護エリア内である場合に、前記音声が発話の音声であるか否かを判定する判定ステップと、
    前記発話の音声を分析して感情値を取得する分析ステップと、
    前記発話の音声を前記感情値に対応する前記発話の意味を認識できない代替音に変換する変換ステップと、
    前記音声を出力する音声出力部に、前記代替音を出力させる出力制御ステップと、
    を有する音声処理方法。
  2. 請求項1に記載の音声処理方法であって、
    前記分析ステップは、前記発話の音声に対し、ピッチの変化、話速、音量及び滑舌の少なくとも1つを分析して、前記感情値を取得するステップを含む、音声処理方法。
  3. 請求項2に記載の音声処理方法であって、
    前記分析ステップは、前記ピッチの変化の大きさに比例して感情値の高さを設定するステップを含む、
    音声処理方法。
  4. 請求項2に記載の音声処理方法であって、
    前記分析ステップは、前記話速の速さに比例して感情値の高さを設定するステップを含む、
    音声処理方法。
  5. 請求項2に記載の音声処理方法であって、
    前記分析ステップは、前記音量の大きさに比例して感情値の高さを設定するステップを含む、
    音声処理方法。
  6. 請求項2に記載の音声処理方法であって、
    前記分析ステップは、前記滑舌の悪さに比例して感情値の高さを設定するステップ、を含む、
    音声処理方法。
  7. 請求項1に記載の音声処理方法であって、
    前記取得ステップは、撮像部により撮像された撮像エリアの映像を取得し、前記収音部により収音された前記撮像エリアの音声を取得するステップを含み、
    前記変換ステップは、前記音声位置の前記映像を前記感情値に対応する代替画像に変換するステップを含み、
    前記出力制御ステップは、前記映像を表示する表示部に、前記代替画像を表示させるステップを含む、音声処理方法。
  8. 請求項7に記載の音声処理方法であって、
    前記変換ステップは、前記感情値に応じて、感情を示す異なる代替画像を表示させるステップを含む、
    音声処理方法。
  9. 撮像部により撮像された撮像エリアの映像と、収音部により収音された前記撮像エリアの音声を取得する取得ステップと、
    前記音声の音声位置を検出する検出ステップと、
    前記音声位置がプライバシー保護エリア内である場合に、前記音声が発話の音声であるか否かを判定する判定ステップと、
    前記発話の音声を分析して感情値を取得する分析ステップと、
    前記発話の音声を前記感情値に対応する前記発話の意味を認識できない代替音に変換し、前記音声位置の映像を前記感情値に対応する代替画像に変換する変換ステップと、
    前記音声を出力する音声出力部に、前記代替音を出力させ、前記映像を表示する表示部に、前記代替画像を表示させる出力制御ステップと、
    を有する画像処理方法。
  10. 収音部により収音された音声を取得する取得部と、
    前記音声の音声位置を検出する検出部と、
    前記音声位置がプライバシー保護エリア内である場合に、前記音声が発話の音声であるか否かを判定する判定部と、
    前記発話の音声を分析して感情値を取得する分析部と、
    前記発話の音声を前記感情値に対応する前記発話の意味を認識できない代替音に変換する変換部と、
    前記音声を出力する音声出力部に、前記代替音を出力させる出力制御部と、
    を備える音声処理装置。
  11. 撮像部により撮像された撮像エリアの映像と、収音部により収音された前記撮像エリアの音声を取得する取得部と、
    前記音声の音声位置を検出する検出部と、
    前記音声位置がプライバシー保護エリア内である場合に、前記音声が発話の音声であるか否かを判定する判定部と、
    前期発話の音声を分析して感情値を取得する分析部と、
    前記発話の音声を前記感情値に対応する前記発話の意味を認識できない代替音に変換し、前記音声位置の映像を前記感情値に対応する代替画像に変換する変換部と、
    前記音声を出力する音声出力部に、前記代替音を出力させ、前記映像を表示する表示部に、前記代替画像を表示させる出力制御部と、
    を備える画像処理装置。
  12. 撮像エリアの映像を撮像する撮像部と、
    前記撮像エリアの音声を収音する収音部と、
    前記収音部により収音された前記音声の音声位置を検出する検出部と、
    前記音声位置がプライバシー保護エリア内である場合に、前記音声が発話の音声であるか否かを判定する判定部と、
    前記発話の音声を分析して感情値を取得する分析部と、
    前記感情値に対応する前記発話の意味を認識できない代替音に変換する変換部と、
    前記変換部による処理の結果を出力させる出力制御部と、
    を備える、マイクアレイシステム。
JP2018502976A 2016-02-29 2017-02-08 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法 Active JP6887102B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016038227 2016-02-29
JP2016038227 2016-02-29
PCT/JP2017/004483 WO2017150103A1 (ja) 2016-02-29 2017-02-08 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法

Publications (2)

Publication Number Publication Date
JPWO2017150103A1 JPWO2017150103A1 (ja) 2019-01-31
JP6887102B2 true JP6887102B2 (ja) 2021-06-16

Family

ID=59743795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018502976A Active JP6887102B2 (ja) 2016-02-29 2017-02-08 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法

Country Status (4)

Country Link
US (2) US10943596B2 (ja)
EP (1) EP3425635A4 (ja)
JP (1) JP6887102B2 (ja)
WO (1) WO2017150103A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6770562B2 (ja) * 2018-09-27 2020-10-14 株式会社コロプラ プログラム、仮想空間の提供方法および情報処理装置
US11527265B2 (en) * 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
JP7334536B2 (ja) * 2019-08-22 2023-08-29 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7248615B2 (ja) * 2020-03-19 2023-03-29 ヤフー株式会社 出力装置、出力方法及び出力プログラム
CN111833418B (zh) * 2020-07-14 2024-03-29 北京百度网讯科技有限公司 动画交互方法、装置、设备以及存储介质
US20220293122A1 (en) * 2021-03-15 2022-09-15 Avaya Management L.P. System and method for content focused conversation
CN113571097B (zh) * 2021-09-28 2022-01-18 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5567901A (en) * 1995-01-18 1996-10-22 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US6095650A (en) * 1998-09-22 2000-08-01 Virtual Visual Devices, Llc Interactive eyewear selection system
JP2001036544A (ja) * 1999-07-23 2001-02-09 Sharp Corp 通信ネットワークの擬人化処理装置および擬人化処理方法
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP4376525B2 (ja) * 2003-02-17 2009-12-02 株式会社メガチップス 多地点通信システム
JP4169712B2 (ja) * 2004-03-03 2008-10-22 久徳 伊藤 会話支援システム
JP4871552B2 (ja) * 2004-09-10 2012-02-08 パナソニック株式会社 情報処理端末
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
US8046220B2 (en) * 2007-11-28 2011-10-25 Nuance Communications, Inc. Systems and methods to index and search voice sites
JP2010169925A (ja) * 2009-01-23 2010-08-05 Konami Digital Entertainment Co Ltd 音声処理装置、チャットシステム、音声処理方法、ならびに、プログラム
KR101558553B1 (ko) * 2009-02-18 2015-10-08 삼성전자 주식회사 아바타 얼굴 표정 제어장치
JP5149872B2 (ja) * 2009-06-19 2013-02-20 日本電信電話株式会社 音響信号送信装置、音響信号受信装置、音響信号送信方法、音響信号受信方法及びそのプログラム
US8525885B2 (en) * 2011-05-15 2013-09-03 Videoq, Inc. Systems and methods for metering audio and video delays
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
JP2014143678A (ja) 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
EP3007456A4 (en) * 2013-05-30 2016-11-02 Sony Corp CLIENT DEVICE, METHOD, SYSTEM AND CONTROL PROGRAM
JP5958833B2 (ja) 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム
JP6985005B2 (ja) * 2015-10-14 2021-12-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 感情推定方法、感情推定装置、及び、プログラムを記録した記録媒体

Also Published As

Publication number Publication date
EP3425635A4 (en) 2019-03-27
US20210158828A1 (en) 2021-05-27
US20200152215A1 (en) 2020-05-14
JPWO2017150103A1 (ja) 2019-01-31
EP3425635A1 (en) 2019-01-09
WO2017150103A1 (ja) 2017-09-08
US10943596B2 (en) 2021-03-09

Similar Documents

Publication Publication Date Title
JP6887102B2 (ja) 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
US11531518B2 (en) System and method for differentially locating and modifying audio sources
JP6135880B2 (ja) 音声処理方法、音声処理システム、及び記憶媒体
US10497356B2 (en) Directionality control system and sound output control method
JP5452158B2 (ja) 音響監視システム、及び音声集音システム
JP6493860B2 (ja) 監視制御システム及び監視制御方法
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
US20150281832A1 (en) Sound processing apparatus, sound processing system and sound processing method
US20150312662A1 (en) Sound processing apparatus, sound processing system and sound processing method
JP6447976B2 (ja) 指向性制御システム及び音声出力制御方法
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
EP3412036A1 (fr) Procédé d'aide au suivi d'une conversation pour personne malentendante
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法
JP6610992B2 (ja) 接客態度評価システム及び接客態度評価方法
FR3026543A1 (fr) Procede d'aide au suivi d'une conversation pour personne malentendante
EP2927885A1 (en) Sound processing apparatus, sound processing system and sound processing method
JP2016219965A (ja) 指向性制御システム及び音声出力制御方法
EP2938097B1 (en) Sound processing apparatus, sound processing system and sound processing method
JP2016219966A (ja) 指向性制御システム及び音声出力制御方法
CN111933174A (zh) 语音处理方法、装置、设备和系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180717

AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210422

R151 Written notification of patent or utility model registration

Ref document number: 6887102

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151