JP6472823B2 - 信号処理装置、信号処理方法および属性付与装置 - Google Patents

信号処理装置、信号処理方法および属性付与装置 Download PDF

Info

Publication number
JP6472823B2
JP6472823B2 JP2017054936A JP2017054936A JP6472823B2 JP 6472823 B2 JP6472823 B2 JP 6472823B2 JP 2017054936 A JP2017054936 A JP 2017054936A JP 2017054936 A JP2017054936 A JP 2017054936A JP 6472823 B2 JP6472823 B2 JP 6472823B2
Authority
JP
Japan
Prior art keywords
signals
separated
attribute
arrival direction
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017054936A
Other languages
English (en)
Other versions
JP2018156047A (ja
Inventor
誠 広畑
誠 広畑
谷口 徹
徹 谷口
増田 太郎
太郎 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017054936A priority Critical patent/JP6472823B2/ja
Priority to CN201710767712.XA priority patent/CN108630223B/zh
Priority to US15/702,344 priority patent/US10366706B2/en
Publication of JP2018156047A publication Critical patent/JP2018156047A/ja
Application granted granted Critical
Publication of JP6472823B2 publication Critical patent/JP6472823B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、信号処理装置、信号処理方法およびラベル付与装置に関する。
近年、VoC(Voice of customer)などと称される、顧客の声を収集・分析して業務改善などを図る活動が広く行われている。また、このような状況に伴い、様々な集音技術が提案されるに至っている。
特許第5117012号公報
本発明が解決しようとする課題は、たとえば面倒な事前設定などを必要とせずに、特定話者の音声と非特定話者の音声とを区別することができる信号処理装置、信号処理方法および属性付与装置を提供することである。
実施形態によれば、信号処理装置は、分離手段と、推定手段と、を具備する。前記分離手段は、異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する。前記推定手段は、前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う。前記推定手段は、第1の期間のうちの第1の割合以上の期間において第1の値以上の確信度で到来方位が推定された分離信号に第1の属性を対応づけ、その他の分離信号に第2の属性対応づける
実施形態の信号処理装置の外観の一例を示す図。 実施形態の信号処理装置の利用シーンの一例を示す図。 実施形態の信号処理装置のハードウェア構成の一例を示す図。 実施形態の音声レコーダ・アプリケーションプログラムの機能ブロックの一構成例を示す図。 実施形態の音声レコーダ・アプリケーションプログラムにより計算される分離信号の方位特性分布の一例を示す図。 実施形態の音声レコーダ・アプリケーションプログラムが表示する初期画面の一例を示す図。 実施形態の音声レコーダ・アプリケーションプログラムが表示する録音中画面の一例を示す図。 実施形態の信号処理装置の特定話者の音声と非特定話者の音声との区別に関する処理の流れの一例を示すフローチャート。 実施形態の信号処理装置の特定話者の音声と非特定話者の音声との区別に関する処理の流れの一変形例を示すフローチャート。
以下、実施形態について図面を参照して説明する。
図1は、実施形態の信号処理装置の外観の一例を示す図である。
この信号処理装置10は、たとえば、指またはペン(スタイラス)による表示画面上でのタッチ操作を受け付け可能な電子機器として実現される。たとえば、この信号処理装置10は、タブレットコンピュータやスマートフォンなどとして実現され得る。なお、この信号処理装置10は、表示画面上でのタッチ操作のみならず、たとえば、外部接続されるキーボードやポインティングデバイス、筐体周壁に設けられる操作ボタンなどの操作を受け付け可能である。ここでは、信号処理装置10が、表示画面上でのタッチ操作を受け付け可能であることを想定するが、この信号処理装置10において、表示画面上でのタッチ操作を受け付け可能であることは必須ではなく、たとえば、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付け可能であるのみであっても構わない。
図1に示すように、この信号処理装置10は、タッチスクリーンディスプレイ11を有する。この信号処理装置10は、たとえばスレート状の筐体を有し、タッチスクリーンディスプレイ11は、その筐体のたとえば上面に配置される。タッチスクリーンディスプレイ11は、フラットパネルディスプレイと、センサとを有する。センサは、指またはペンが接触するフラットパネルディスプレイの画面上の位置を検出する。フラットパネルディスプレイは、たとえばLCD(Liquid crystal display)などである。センサは、たとえば静電容量方式のタッチパネルや電磁誘導方式のデジタイザなどである。ここでは、タッチスクリーンディスプレイ11が、タッチパネルとデジタイザとの両方を有することを想定する。
また、この信号処理装置10は、図1には示されない音声入力端子を有しており、音声入力端子を介して音声入力機器(マイクアレイ)12を接続することができる。音声入力機器12は、複数のマイクを有する。また、音声入力機器12は、信号処理装置10の筐体の一角に取り外し自在に装着可能な形状に形成されている。図1は、音声入力端子を介して信号処理装置10に接続された音声入力機器12が、信号処理装置10の本体の一角に装着されている状態を示している。なお、音声入力機器12は、この形に限らない。複数のマイクから信号処理装置10が音声を取得できればよく、たとえば、通信を介して信号処理装置10と接続されてもよい。
図2は、この信号処理装置10の利用シーンの一例を示す図である。
この信号処理装置10は、たとえば、VoCのための音声収集システムなどとして適用され得る。図2は、スタッフa2と顧客a1との間で交わされる会話の音声を、信号処理装置10に接続した音声入力機器12により収集している様子を示している。収集された音声は、信号処理装置10により話者(スタッフa2,顧客a1)ごとに分離され、たとえば、スタッフa2の音声は、接客マニュアルの改善に役立てるために利用され、顧客a1の音声は、顧客ニーズの把握に役立てるために利用される。収集された音声の話者ごとの分離については後述する。
ところで、たとえば、分離後のスタッフa1の音声と顧客a2の音声とを区別するために、スタッフa1の音声を事前に登録しておく必要があったり、スタッフa1と顧客a2との位置関係を事前に設定しておく必要があったり、などといったことは、ユーザビリティを低下させる要因となりかねない。
そこで、この信号処理装置10は、たとえば面倒な事前設定などを必要とせずに、特定話者(スタッフa1または顧客a2の一方)の音声と非特定話者(スタッフa1または顧客a2の他方)の音声とを区別することができるようにしたものであり、以下、この点について詳述する。
図3は、この信号処理装置10のハードウェア構成の一例を示す図である。
図3に示すように、この信号処理装置10は、CPU(Central processing unit)101、システムコントローラ102、主メモリ103、GPU(Graphics processing unit)104、BIOS(Basic input/output system)−ROM105、不揮発性メモリ106、無線通信デバイス107、EC(Embedded controller)108などを有する。
CPU101は、信号処理装置10内の様々なコンポーネントの動作を制御するプロセッサである。CPU101は、不揮発性メモリ106から主メモリ103に様々なプログラムをロードして実行する。これらプログラムには、OS(Operating system)210や、音声レコーダ・アプリケーションプログラム220を含む様々なアプリケーションプログラムが含まれている。音声レコーダ・アプリケーションプログラム220については後述するが、音声レコーダ・アプリケーションプログラム220は、音声入力機器12が収集した音声を話者ごとに分離し、その話者が特定話者か非特定話者かを示すラベル情報を付与して、音声データ300として不揮発性メモリ106に格納する機能を有する。また、CPU101は、BIOS−ROM105に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ102は、PCIe規格のシリアルバスなどを介してGPU104との通信を実行する機能も有している。さらに、システムコントローラ102は、前述した、音声入力端子を介して接続される音声入力機器12から音声を入力する機能も有している。
GPU104は、タッチスクリーンディスプレイ11に組み込まれているLCD11Aを制御する表示プロセッサである。LCD11Aは、GPU104によって生成される表示信号に基づいて画面イメージを表示する。このLCD11Aの上面側にはタッチパネル11Bが配置され、下面側にはデジタイザ11Cが配置されている。指が接触されるLCD11Aの画面上の接触位置や接触位置の動きなどはタッチパネル11Bによって検出される。また、ペン(スタイラス)が接触されるLCD11Aの画面上の接触位置や接触位置の動きなどはデジタイザ11Cによって検出される。
無線通信デバイス107は、無線通信を実行するように構成されたデバイスである。EC108は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。EC108は、電源スイッチの操作に応じて信号処理装置10を電源オンまたは電源オフする機能を有している。また、EC108は、キーボード、ポインティングデバイス、操作ボタンなどの操作を受け付けるキーボードコントローラを含む。
図4は、以上のようなハードウェア構成を持つ信号処理装置10上で動作する音声レコーダ・アプリケーションプログラム220の機能ブロックの一例を示す図である。
図4に示すように、音声レコーダ・アプリケーションプログラム220は、音源分離部221、話者推定部222、ユーザインタフェース部223などを有する。なお、ここでは、音声レコーダ・アプリケーションプログラム220が、CPU101により不揮発性メモリ106から主メモリ103にロードされて実行されることを想定している。換言すれば、音源分離部221、話者推定部222およびユーザインタフェース部223の各処理部は、プログラムがプロセッサにより実行されることにより実現されることを想定している。図3においては、1つのCPU101のみ示したが、各処理部は、複数のプロセッサにより実現されてもよい。また、各処理部は、プログラムがプロセッサにより実行されることにより実現されることに限定されず、たとえば、専用の電子回路により実現されるものであってもよい。
いま、スタッフである話者1(b1)と、顧客である話者2(b2−1)および話者3(b2−2)との3者の間で交わされる会話の音声が、音声入力機器12により収集されているシーンを想定する。
前述したように、音声入力機器12は、複数のマイクを有している。音源分離部221は、これら複数のマイクから複数の音声信号を入力し、これら複数の音声信号を分離して複数の分離信号を出力する。より詳細には、音源分離部221は、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)である分離行列を当該複数の音声信号から推定し、その分離行列を当該複数の音声信号に乗算することにより複数の分離信号を得る。なお、複数の音声信号を音源ごとの信号に分離するためのフィルタ(分離フィルタ)は分離行列に限定されない。つまり、分離行列を用いずに複数の音声信号にFIR
フィルタ(Finite impulse response, FIR)を適用し音源ごとの信号を強調(に分離)する手法も適用し得る。
話者推定部222は、音源分離部221が出力する複数の分離信号それぞれの到来方位を推定する。より詳細には、話者推定部222は、音源分離部221により推定された分離行列を用いて複数の分離信号それぞれの方位特性分布を計算し、その方位特性分布から複数の分離信号それぞれの到来方位を推定する。方位特性は、ある角度から到来したという確信度(尤度)であり、方位特性分布は、方位特性を広範囲の角度について求めることで得られる分布である。話者推定部222は、この推定結果に基づき、話者(音源)数と、各話者の方位とを得ることができ、また、分離信号と話者との対応づけを行うことができる。
図5は、話者推定部222により計算される分離信号の方位特性分布の一例を示す図である。
図5には、分離信号1〜4の方位特性分布が示されている。分離信号2,4は、あらかじめ定められた基準値以上の確信度の方位特性を含まないため、話者推定部222は、雑音と判断する。分離信号1は、45°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の値であるため、話者推定部222は、45°の角度から到来したと判断する。分離信号3は、−45°の角度の方位特性が最大値であり、かつ、あらかじめ定められた基準値以上の確信度であるため、話者推定部222は、−45°の角度から到来したと判断する。換言すると、分離信号1,3は、あらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号である。この話者推定部222による推定の結果、話者ごとの音声信号(分離信号)が、音声データ300として不揮発性メモリ300に格納される。
また、話者推定部222は、この推定結果に基づき、スタッフである話者1(b1)の音声信号であると推定される分離信号には、特定話者であることを示すラベル情報を付与し、顧客である話者2(b2−1)または話者3(b2−2)の音声信号であると推定される分離信号には、非特定話者であることを示すラベル情報を付与する。スタッフである話者1(b1)を特定話者、顧客である話者2(b2−1)または話者3(b2−2)を非特定話者とする対応づけについては後述する。このようなラベル情報を付与することにより、スタッフの音声と顧客の音声とを区別して取り扱うことができ、後段の処理の効率が向上する。なお、顧客(話者2(b2−1),話者3(b2−2))を特定話者、スタッフ(話者1(b1))を非特定話者としてもよい。つまり、ラベル情報は、話者の属性を示す情報である。属性とは、一般にあるものに共通して備わっているとされる性質や特徴のことを指す。そして、ここでは、特定話者(スタッフまたは顧客の一方)または非特定話者(スタッフまたは顧客の他方)を意味する。例えば、会議をした場合の会議内容では、進行役(ファシリテーター)をする人を特定話者(または非特定話者)とし、会議参加者を非特定話者(または特定話者)としてもよい。
ユーザインタフェース部223は、タッチスクリーンディスプレイ11を介してユーザに情報を出力し、また、タッチスクリーンディスプレイ11を介してユーザから情報を入力する入出力処理を実行する。なお、ユーザインタフェース部223は、たとえば、キーボード、ポインティングデバイス、操作ボタンなどを介してユーザから情報を入力することもできる。
次に、図5および図6を参照して、この信号処理装置10が、たとえば面倒な事前設定などを必要とせずに、特定話者の音声と非特定話者の音声とを区別する仕組みの概要について説明する。
図6は、音声レコーダ・アプリケーションプログラム220の起動時、ユーザインタフェース部223がタッチスクリーンディスプレイ11に表示する初期画面の一例を示す図である。
図5中、符号c1は、音声の収集、つまり録音を開始するための録音ボタンである。録音ボタンc1が操作されると、ユーザインタフェース部223は、処理の開始を音源分離部221および話者推定部222に通知する。これにより、音声レコーダ・アプリケーションプログラム220による録音が開始される。タッチスクリーンディスプレイ11上でのタッチ操作が録音ボタンc1の表示領域に対応するものである場合、OS210から音声レコーダ・アプリケーションプログラム220、より詳細には、ユーザインタフェース部223への通知が行われるので、ユーザインタフェース部223は、録音ボタンc1が操作されたことを認識することができる。なお、録音ボタンc1の表示領域上に置かれた指などがタッチスクリーンディスプレイ11から離れた場合も、OS210からユーザインタフェース部223への通知が行われるので、ユーザインタフェース部223は、録音ボタンc1の操作が解除されたことを認識することができる。録音ボタンc1以外の他のボタンについても同様である。
一方、図6は、録音が開始された後、ユーザインタフェース部223がタッチスクリーンディスプレイ11に表示する録音中画面の一例を示す図である。
図6中、符号d1は、音声の収集、つまり録音を停止するための停止ボタンである。停止ボタンd1が操作されると、ユーザインタフェース部223は、処理の停止を音源分離部221および話者推定部222に通知する。
また、図6中、符号d2は、特定話者の音声を収集する期間を設定するための設定ボタンである。以下では、この期間に収集される音声を、学習音声と称することがある。たとえば、録音の開始後、スタッフは、自分のみが発言する機会を捉え、その発言期間中、設定ボタンd2を操作し続ける。この場合、設定ボタンd2を操作し続けた期間が、学習音声の収集期間として設定される。また、スタッフは、発言を開始する時に設定ボタンd2を操作し、発言を終了する時に設定ボタンd2を再度操作してもよい。この場合、1回目に設定ボタンd2を操作してから2回目に設定ボタンd2を操作するまでの期間が、学習音声の収集期間として設定される。発言を開始する時に操作するボタンと、発言を終了する時に操作するボタンとを、各々設けてもよい。または、設定ボタンd2が操作されてから一定の時間が経過するまでを、学習音声の収集期間として設定してもよい。さらには、設定ボタンd2の役割を図5の録音ボタンc1が兼ねて、録音ボタンc1が操作されて録音が開始されてから一定の時間が経過するまでを、学習音声の収集期間として設定してもよい。
ここでは、学習音声の収集期間を設定する場合、設定ボタンd2を操作し続けることを想定する。
設定ボタンd2が操作されると、ユーザインタフェース部223は、学習音声の収集の開始を話者推定部222に通知する。また、設定ボタンd2の操作が終了した際も、ユーザインタフェース部223は、学習音声の収集の終了を話者推定部222に通知する。
話者推定部222は、複数の分離信号の中から、学習音声の収集期間のうちのあらかじめ定められた割合以上の期間においてあらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号を選び出す。話者推定部222は、当該選び出した分離信号に対して、特定話者であることを示すラベル情報を付与する。また、話者推定部222は、その他の分離信号に対して、非特定話者であることを示すラベル情報を付与する。前述したように、特定話者と非特定話者との位置づけを逆転させてもよい。
つまり、この信号処理装置10においては、特定話者の発言が大勢を占める期間が対象期間となるように設定ボタンd2を操作するだけで、特定話者の音声と非特定話者の音声とを区別することができる。これにより、ユーザビリティを向上させることができる。
すなわち、信号処理装置10は、異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、第1の期間における到来方向の推定結果に基づき、特定話者の属性を示す第1のラベル情報または特定話者とは異なる非特定話者の属性を示す第2のラベル情報のいずれかを前記分離音に付与する付与部とを有するラベル付与装置として機能する。また、信号処理装置10は、第1の期間と、第1のラベル情報の付与対象を指示するユーザ指示受付部をさらに有し、付与部が、ユーザの指示に応じて第1のラベル情報を付与するラベル付与装置として機能する。
図8は、この信号処理装置10の特定話者の音声と非特定話者の音声との区別に関する処理の流れの一例を示すフローチャートである。
信号処理装置10は、所定のボタンが操作されると(ステップA1;YES)、信号処理装置10は、学習音声の収集を開始する(ステップA2)。信号処理装置10は、所定のボタンが操作され続けている間(ステップA3;NO)、ステップA2の学習音声の収集を継続する。
一方、所定のボタンの操作が解除されると(ステップA3;YES)、信号処理装置10は、ステップA2の学習音声の収集を終了し、収集した学習音声に基づき、特定話者の方位情報を取得する(ステップA4)。より詳細には、学習音声の収集期間のうちのあらかじめ定められた割合以上の期間においてあらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号を、特定話者の音声信号と判定する。
この判定により、信号処理装置10は、特定話者の音声信号と判定された分離信号に対して、特定話者であることを示すラベル情報を付与し、その他の分離信号に対して、非特定話者であることを示すラベル情報を付与することができる。
ところで、以上の説明では、この信号処理装置10を使って顧客との間で交わされる会話の音声を収集するスタッフが、自分のみが発言する機会を捉え、設定ボタンd2を操作する例を説明した。
たとえば業種などによっては、会話の開始時、(信号処理装置10のユーザである)スタッフや社員が発言する機会が多い場合もあれば、顧客や来客が発言する機会が多い場合もある。この点を考慮し、さらに、設定ボタンd2の操作すら行う必要がなく、特定話者の音声と非特定話者の音声とを区別する一変形例について説明する。
設定ボタンd2の操作を不要とするために、ユーザインタフェース部223は、録音ボタンc1が操作されて録音が開始された後の一定期間に多く発言する話者を特定話者とするか非特定話者とするかの設定を受け付ける。たとえば、会話の開始時にスタッフや社員が発言する機会が多い場合を想定した、録音ボタンc1が操作されて録音が開始された後の一定期間に多く発言する話者を特定話者とする第1のモードと、会話の開始時に顧客や来客が発言する機会が多い場合を想定した、録音ボタンc1が操作されて録音が開始された後の一定期間に多く発言する話者を非特定話者とする第2のモードとのいずれかのモードとするかの設定を受け付ける。なお、前述したように、特定話者と非特定話者との位置づけを逆転させてもよい。
もし、第1のモードが設定されていたならば、信号処理装置10は、録音ボタンc1が操作されて録音が開始された後、一定期間、学習音声を収集し、その収集期間のうちのあらかじめ定められた割合以上の期間においてあらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号を、特定話者の音声信号と判定する。
一方、第2のモードが設定されていたならば、信号処理装置10は、録音ボタンc1が操作されて録音が開始された後、一定期間、学習音声を収集し、その収集期間のうちのあらかじめ定められた割合以上の期間においてあらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号を、非特定話者の音声信号と判定する。
図9は、この信号処理装置10の特定話者の音声と非特定話者の音声との区別に関する処理の流れの一変形例を示すフローチャートである。
信号処理装置10は、録音ボタンが操作され、録音を開始した際(ステップB1;YES)、学習音声の収集を開始する(ステップB2)。信号処理装置10は、一定期間、ステップB2の学習音声の収集を継続する。つまり、所定の期間が経過すると(ステップB3;YES)、信号処理装置10は、ステップB2の学習音声の収集を終了する。
次に、信号処理装置10は、第1モードまたは第2モードのいずれのモードが設定されているのかを調べる(ステップB4)。第1のモードが設定されている場合(ステップB4;YES)、信号処理装置10は、収集した学習音声に基づき、特定話者の方位情報を取得する(ステップB5)。より詳細には、学習音声の収集期間のうちのあらかじめ定められた割合以上の期間においてあらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号を、特定話者の音声信号と判定する。
一方、第2のモードが設定されている場合(ステップB4;NO)、信号処理装置10は、収集した学習音声に基づき、非特定話者の方位情報を取得する(ステップB6)。より詳細には、学習音声の収集期間のうちのあらかじめ定められた割合以上の期間においてあらかじめ定められた基準値以上の確信度で到来方位が推定された分離信号を、非特定話者の音声信号と判定する。
以上説明したように、この信号処理装置10によれば、たとえば面倒な事前設定などを必要とせずに、特定話者の音声と非特定話者の音声とを区別することができる。
なお、特定話者の音声と非特定話者の音声とを区別する手法としては、たとえば、音声認識部を備えて、前述のように設定される学習音声の収集期間においてあらかじめ定められたキーワードが認識された音声(分離信号)を特定話者の音声と推定する手法などを適用してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…信号処理装置、11…タッチスクリーンディスプレイ、11A…LCD、11B…タッチパネル、11C…デジタイザ、12…音声入力機器、101…CPU、102…システムコントローラ、103…主メモリ、104…GPU、105…BIOS−ROM、106…不揮発性メモリ、107…無線通信デバイス、108…EC、210…OS、220…音声レコーダ・アプリケーションプログラム、221…音源分離部、222…話者推定部、223…ユーザインタフェース部、300…音声データ。

Claims (10)

  1. なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    を具備し、
    前記推定手段は、第1の期間のうちの第1の割合以上の期間において第1の値以上の確信度で到来方位が推定された分離信号に第1の属性を対応づけ、その他の分離信号に第2の属性対応づける、
    信号処理装置。
  2. 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    を具備し、
    前記推定手段は、第1のボタンが操作されている期間における到来方位の推定結果に基づき、第1の属性または第2の属性のいずれかを、到来方位との対応づけが行われる分離信号それぞれに対応づける、
    号処理装置。
  3. 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    を具備し、
    前記推定手段は、第1のボタンが操作されてから第1の時間が経過するまでの期間における到来方位の推定結果に基づき、第1の属性または第2の属性のいずれかを、到来方位との対応づけが行われる分離信号それぞれに対応づける、
    号処理装置。
  4. 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    を具備し、
    前記推定手段は、第1のボタンが操作されてから第2のボタンが操作されるまでの期間まは前記第1のボタンに対する第1の操作が行われてから前記第1のボタンに対する第2の操作が行われるまでの期間における到来方位の推定結果に基づき、第1の属性または第2の属性のいずれかを、到来方位との対応づけが行われる分離信号それぞれに対応づける、
    号処理装置。
  5. 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    前記分離信号を音声として認識する認識手段と、
    具備し、
    前記推定手段は、第1の期間内に第1の信号が認識された分離信号に第1の属性を対応づけ、その他の分離信号に第2の属性を対応づける、
    号処理装置。
  6. 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    を具備し、
    前記推定手段は、前記複数の信号が供給され始めてから第1の時間が経過するまでの期間における到来方位の推定結果に基づき、第1の属性または第2の属性のいずれかを、到来方位との対応づけが行われる分離信号それぞれに対応づける、
    号処理装置。
  7. 異なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力する分離手段と、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行う推定手段と、
    を具備し、
    前記推定手段は、前記複数の信号が供給され始めてから第1の時間が経過するまでの第1の期間のうちの第1の割合以上の期間において第1の値以上の確信度で到来方位が推定された分離信号に第1の属性または第2の属性のうちのあらかじめ設定された一方を対応づける信号処理装置。
  8. 前記第1の期間のうちの前記第1の割合以上の期間において前記第1の値以上の確信度で到来方位が推定された分離信号に前記第1の属性または前記第2の属性のいずれを対応づけるのかの設定を受け付けるユーザインタフェース手段を具備する請求項に記載の信号処理装置。
  9. なる方位から到来する信号を含む複数の信号を分離フィルタにより分離して複数の分離信号を出力することと、
    前記複数の分離信号ごとに到来方位を推定し、前記複数の分離信号と到来方位との対応づけを行うことと、
    第1の期間のうちの第1の割合以上の期間において第1の値以上の確信度で到来方位が推定された分離信号に第1の属性を対応づけ、その他の分離信号に第2の属性対応づけることと、
    を具備する信号処理方法。
  10. 異なる方向からの複数の音声を取得し、複数の分離音を生成する生成部と、
    第1の期間における到来方向の推定結果に基づき、特定話者を示す第1の属性または前記特定話者とは異なる非特定話者を示す第2の属性のいずれかを前記分離音に付与する付与部と、
    前記第1の期間と、前記第1の属性の付与対象を指示するユーザ指示受付部と、
    を有し、
    前記付与部は、ユーザの指示に応じて前記第1の属性を付与する、
    属性付与装置。
JP2017054936A 2017-03-21 2017-03-21 信号処理装置、信号処理方法および属性付与装置 Active JP6472823B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017054936A JP6472823B2 (ja) 2017-03-21 2017-03-21 信号処理装置、信号処理方法および属性付与装置
CN201710767712.XA CN108630223B (zh) 2017-03-21 2017-08-31 信号处理装置以及信号处理方法
US15/702,344 US10366706B2 (en) 2017-03-21 2017-09-12 Signal processing apparatus, signal processing method and labeling apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017054936A JP6472823B2 (ja) 2017-03-21 2017-03-21 信号処理装置、信号処理方法および属性付与装置

Publications (2)

Publication Number Publication Date
JP2018156047A JP2018156047A (ja) 2018-10-04
JP6472823B2 true JP6472823B2 (ja) 2019-02-20

Family

ID=63581090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017054936A Active JP6472823B2 (ja) 2017-03-21 2017-03-21 信号処理装置、信号処理方法および属性付与装置

Country Status (3)

Country Link
US (1) US10366706B2 (ja)
JP (1) JP6472823B2 (ja)
CN (1) CN108630223B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459239A (zh) * 2019-03-19 2019-11-15 深圳壹秘科技有限公司 基于声音数据的角色分析方法、装置和计算机可读存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US7853025B2 (en) * 1999-08-25 2010-12-14 Lear Corporation Vehicular audio system including a headliner speaker, electromagnetic transducer assembly for use therein and computer system programmed with a graphic software control for changing the audio system's signal level and delay
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US7088831B2 (en) * 2001-12-06 2006-08-08 Siemens Corporate Research, Inc. Real-time audio source separation by delay and attenuation compensation in the time domain
US20040068370A1 (en) * 2002-10-08 2004-04-08 Moody Peter A. Use of distributed speech recognition (DSR) for off-board application processing
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4449871B2 (ja) * 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法
JP2007215163A (ja) 2006-01-12 2007-08-23 Kobe Steel Ltd 音源分離装置,音源分離装置用のプログラム及び音源分離方法
JP5117012B2 (ja) 2006-08-09 2013-01-09 株式会社東芝 方向探知システム及び信号抽出方法
JP2008275987A (ja) * 2007-05-01 2008-11-13 Yamaha Corp 音声認識装置および会議システム
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
JP4952698B2 (ja) * 2008-11-04 2012-06-13 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP5534413B2 (ja) * 2010-02-12 2014-07-02 Necカシオモバイルコミュニケーションズ株式会社 情報処理装置及びプログラム
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
JP5724125B2 (ja) * 2011-03-30 2015-05-27 株式会社国際電気通信基礎技術研究所 音源定位装置
US8394682B2 (en) * 2011-07-26 2013-03-12 Micron Technology, Inc. Methods of forming graphene-containing switches
JP2013104938A (ja) * 2011-11-11 2013-05-30 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9099096B2 (en) * 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US8886526B2 (en) * 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
US8880395B2 (en) * 2012-05-04 2014-11-04 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjunction with source direction information
JP6005443B2 (ja) * 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
JP5911101B2 (ja) 2012-08-30 2016-04-27 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム
US9412375B2 (en) * 2012-11-14 2016-08-09 Qualcomm Incorporated Methods and apparatuses for representing a sound field in a physical space
US10130107B2 (en) * 2013-03-15 2018-11-20 Linco Food Systems A/S Processing device for processing slaughtered and plucked poultry carcasses, comprising poultry-support devices and poultry-processing devices
JP6158006B2 (ja) * 2013-09-17 2017-07-05 株式会社東芝 音声処理装置、方法、及びプログラム
JP2015222847A (ja) * 2014-05-22 2015-12-10 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
US9998434B2 (en) * 2015-01-26 2018-06-12 Listat Ltd. Secure dynamic communication network and protocol
JP6501260B2 (ja) 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
CN105741833B (zh) * 2016-03-14 2021-05-11 腾讯科技(深圳)有限公司 语音通信数据处理方法和装置
JP6591477B2 (ja) 2017-03-21 2019-10-16 株式会社東芝 信号処理システム、信号処理方法及び信号処理プログラム

Also Published As

Publication number Publication date
CN108630223A (zh) 2018-10-09
US10366706B2 (en) 2019-07-30
JP2018156047A (ja) 2018-10-04
US20180277141A1 (en) 2018-09-27
CN108630223B (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
US10592198B2 (en) Audio recording/playback device
US10572073B2 (en) Information processing device, information processing method, and program
US9953654B2 (en) Voice command recognition apparatus and method
US9354842B2 (en) Apparatus and method of controlling voice input in electronic device supporting voice recognition
JP6178198B2 (ja) 音声翻訳システム、方法およびプログラム
EP2911149B1 (en) Determination of an operational directive based at least in part on a spatial audio property
US9472201B1 (en) Speaker localization by means of tactile input
KR101967917B1 (ko) 음성을 인식하는 전자 장치 및 방법
US10353495B2 (en) Personalized operation of a mobile device using sensor signatures
US9953643B2 (en) Selective transmission of voice data
US20160019886A1 (en) Method and apparatus for recognizing whisper
US20150088515A1 (en) Primary speaker identification from audio and video data
JP2014241005A (ja) 表示制御装置、表示制御方法、及び表示制御プログラム
CN106774803A (zh) 指纹识别方法及装置
CN105653168B (zh) 电子设备及其控制方法
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
JP6472823B2 (ja) 信号処理装置、信号処理方法および属性付与装置
JP6472824B2 (ja) 信号処理装置、信号処理方法および音声の対応づけ提示装置
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP6392051B2 (ja) 電子機器、方法およびプログラム
US20070118381A1 (en) Voice control methods
JP6672399B2 (ja) 電子機器
US11074024B2 (en) Mobile device for interacting with docking device and method for controlling same
CN209729499U (zh) 用于提供语音服务的开关面板
WO2014103355A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190123

R151 Written notification of patent or utility model registration

Ref document number: 6472823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151