JP2016163230A - 音声解析装置、音声解析システムおよびプログラム - Google Patents
音声解析装置、音声解析システムおよびプログラム Download PDFInfo
- Publication number
- JP2016163230A JP2016163230A JP2015041710A JP2015041710A JP2016163230A JP 2016163230 A JP2016163230 A JP 2016163230A JP 2015041710 A JP2015041710 A JP 2015041710A JP 2015041710 A JP2015041710 A JP 2015041710A JP 2016163230 A JP2016163230 A JP 2016163230A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- waveform
- target
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 69
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims description 17
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 238000007405 data analysis Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Telephone Function (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
【解決手段】話者の発声部位から異なる距離にて配され話者の音声を取得する複数のマイクロフォンにより生成された音声信号を取得する音声情報取得手段と、予め定められた対象話者の音声信号を強調した目的音強調波形および対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、を備えることを特徴とする端末装置10。
【選択図】図2
Description
しかしながら複数の話者が同時発話等の場合、同時発話であることを判別できない。また、何れかの話者の発話であるとの誤判定により話者識別の精度が低下する可能性がある。
本発明は、同時発話の判定を可能とする音声解析装置等を提供することを目的とする。
請求項2に記載の発明は、前記識別手段は、前記音声情報取得手段が取得した音声信号の波形、前記目的音強調波形および前記目的外音強調波形のそれぞれの周波数スペクトルの少なくとも2つについて共通する位置にあるピークを求め、共通する位置にあるピークの強度から取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項1に記載の音声解析装置である。
請求項3に記載の発明は、前記識別手段は、共通する位置にあるピークの強度の大小関係により取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項2に記載の音声解析装置である。
請求項4に記載の発明は、話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段と、予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、を備えることを特徴とする音声解析システムである。
請求項5に記載の発明は、コンピュータに、話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得機能と、予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別機能と、を実現させるプログラムである。
請求項2に記載の発明は、話者を識別する際に周波数スペクトルの一部を用いることによって、簡易な方法で行うことができる。
請求項3に記載の発明は、話者を識別する際に周波数スペクトルの大小関係を用いることによって、簡単な方法で行うことができる。
請求項4に記載の発明は、同時発話を判定することができる音声解析システムを提供できる。
請求項5に記載の発明は、同時発話を判定することができる機能をコンピュータにより実現できる。
図1は、本実施形態による音解析システムの構成例を示す図である。
図1に示すように、本実施形態の音声解析システム1は、音声解析装置の一例である端末装置10と、音解析装置の一例であるホスト装置20とを備えて構成される。端末装置10とホスト装置20とは、予め定められた通信回線を介して接続されている。この通信回線は、有線通信回線でも無線通信回線でも良い。無線通信回線を使用する場合、Wi−Fi(Wireless Fidelity)、Bluetooth(登録商標)、ZigBee、UWB(Ultra Wideband)等の既存の方式による回線を用いることができる。なお端末装置10は、図1では1台のみ図示しているが、複数台設置してもよい。
図示するように端末装置10は、話者の音声を取得する音声取得手段として複数のマイクロフォン11、12、13(第1マイクロフォン11、第2マイクロフォン12、第3マイクロフォン13)と、増幅器14とを備える。また、端末装置10は、取得した音声を解析する音声解析部15と、解析結果をホスト装置20に送信するためのデータ送信部16とを備え、さらに電源部17とを備える。
データ蓄積部22は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部21から取得した受信データを蓄積する。
図3は、端末装置10と話者の口(発声部位)との位置関係を説明した図である。
本実施形態では、1人の話者を選択し、これを対象話者とする。そして端末装置10は、マイクロフォン11、12、13が取得した話者の音声が、対象話者の発話音声であるか、対象話者以外の話者の発話音声であるかを識別する。
本実施形態では、この音声信号の位相差を利用して、マイクロフォン11、12、13が取得した話者の音声が、何れの話者の発話音声であるかを識別する。
目的音強調波形や目的外音強調波形は、既知の方法に求めることができる。具体的には、例えば、上記位相差を利用した空間フィルタを用いる方法により求めることができる。
図示するように図4(a)に比較して、対象話者Xの発話区間の音声信号の強度が大きくなるとともに、話者Yの発話区間の音声信号の強度は小さくなる。つまり対象話者Xの音声が強調された波形となる。
なお対象話者Xと話者Yの同時発話区間における音声信号は、対象話者Xの音声信号を大きくしたものと話者Yの音声信号を小さくしたものの合成波形となる。
図示するように図4(a)に比較して、対象話者Xの発話区間の音声信号の強度が小さくなるとともに、話者Yの発話区間の音声信号の強度は大きくなる。つまり対象話者Xの音声が強調された波形となる。
なお対象話者Xと話者Yの同時発話区間における音声信号は、対象話者Xの音声信号を小さくしたものと話者Yの音声信号を大きくしたものの合成波形となる。
図5は、目的音強調波形および目的外音強調波形の強度の比を示した図である。この場合、(図4(a)の目的音強調波形の強度)/(図4(b)の目的外音強調波形の強度)により強度の比を求めている。
対して話者Yの発話区間では、目的音強調波形では、音声信号の強度は小さくなり、目的外音強調波形では、音声信号の強度は大きくなる。そのため強度の比は、1より小さくなる。
よって例えば、閾値として予め定められた値を定め、強度の比がこの閾値より大きくなったときは、対象話者Xの発話音声であると判断でき、強度の比がこの閾値より小さくなったときは、話者Yの発話音声であると判断できる。なお図5では、この閾値として約1.2を設定している。
本実施形態では、目的音強調波形および目的外音強調波形のそれぞれについてフーリエ変換を行い、周波数スペクトルを求める。そしてそれぞれの周波数スペクトルのピークの強度を基に取得された音声の話者を識別する。
次にそれぞれの波形で共通する位置にあるピークを見つける。ここでは、図6(a)と図6(b)についてピークI〜III、Vが共通する位置にある。また、図6(a)と図6(c)についてピークV〜VIIが共通する位置にある。なおピークIVは、他と共通する位置にないため、ここでは対象とならない。
この場合、例えば、(元波形についてのピークの強度)/(目的音強調波形についてのピークの強度)を算出し、比を求める。
そして予め定められた閾値(第1の閾値)を超えるピークがある場合には、取得された音声が対象話者Xの発話音声であると判断する。この例では、ピークI〜III、Vの何れかが、第1の閾値を超えた場合、取得された音声が対象話者Xの発話音声であると判断する。この例では、ピークI〜IIIについて第1の閾値を超える。
そして予め定められた閾値(第2の閾値)を超えるピークがある場合には、取得された音声が話者Yの発話音声であると判断する。この例では、ピークV〜VIIの何れかが、第2の閾値を超えた場合、取得された音声が話者Yの発話音声であると判断する。この例では、ピークV〜VIIが全て第2の閾値を超える。
このように本実施形態では、元波形、目的音強調波形および目的外音強調波形のそれぞれの周波数スペクトルの少なくとも2つについて共通する位置にあるピークを求める。そして共通する位置にあるピークの強度から取得された音声が何れの話者の発話音声であるかを識別する。さらに具体的には、共通する位置にあるピークの強度の大小関係により取得された音声が何れの話者の発話音声であるかを識別する。
つまり対象話者Xの発話音声についての周波数スペクトル上のピークの位置は、元波形の周波数スペクトルでも目的音強調波形の周波数スペクトルでも変わらない。そして目的音強調波形の周波数スペクトルの強度は、元波形の周波数スペクトルに対して強調される。なお目的外音強調波形の周波数スペクトルでは、このピークは小さくなる。
よって目的音強調波形の波数スペクトルと元波形の周波数スペクトルのそれぞれのピークの強度を比較することで対象話者Xが発話しているか否かがわかる。
よって目的外音強調波形の波数スペクトルと元波形の周波数スペクトルのそれぞれのピークの強度を比較することで話者Yが発話しているか否かがわかる。
図8は、本実施形態における端末装置10の動作を示すフローチャートである。
図8に示すように、端末装置10のマイクロフォン11、12、13が音声を取得する(ステップ101)と、各マイクロフォン11、12、13から取得音声に応じた電気信号(音声信号)が増幅器14へ送られる。増幅器14は、マイクロフォン11、12、13からの音声信号を取得すると、音声信号を増幅して音声解析部15へ送る(ステップ102)。
次に音声解析部15は、一定の時間単位(例えば、数十分の一秒〜数百分の一秒)毎に時間フレームFを設定し、元波形、目的音強調波形および目的外音強調波形に対してフーリエ変換を行うことで、周波数スペクトルを求める(ステップ104)。
さらに音声解析部15は、それぞれの周波数スペクトルの波形からピークを検出する(ステップ105)。
次にそれぞれの波形で共通する位置にあるピークを見つける(ステップ106)。
そして共通する位置にあるピークの強度を基にして、時間フレームFの箇所が、何れの話者の発話区間であるかを判定する(ステップ107)。
ここでは、ステップ106において、共通する位置にあるピークがn個見つかったとし、このn個のピークの周波数λの値を、λ={λ1、λ2、λ3、…、λn}で表す。また目的音強調波形、目的外音強調波形、元波形のそれぞれの周波数スペクトルについて、このn個のピークの周波数λの位置の強度を、それぞれA={a1、a2、a3、…、an}、B={b1、b2、b3、…、bn}、C={c1、c2、c3、…、cn}で表す。
次に音声解析部15は、ai>ci>biであるか否かを判定する(ステップ202)。つまりここでは、強度の差により何れの話者の発話音声であるかの判断を行う。
そしてai>ci>biであったとき(ステップ202でYes)、発話フラグfiを「対象話者」に設定する(ステップ203)。
そしてbi>ci>aiであったとき(ステップ204でYes)、発話フラグfiを「他の話者」に設定する(ステップ205)。
次に音声解析部15は、カウンタiに1を加算する(ステップ206)。そして音声解析部15は、i>nであるかを判定する(ステップ207)。そしてi>nでなかったとき(ステップ207でNo)、ステップ202に戻る。
そして何れかに「対象話者」を含む場合(ステップ208でYes)、音声解析部15は、発話フラグf={f1、f2、f3、…、fn}の何れかに「他の話者」であるものを含むか否かを判定する(ステップ209)。
その結果、何れかに「他の話者」を含む場合(ステップ209でYes)、音声解析部15は、時間フレームFの箇所が、対象話者Xと話者Yの同時発話区間であると判定する(ステップ210)。
一方、何れかに「他の話者」を含まない場合(ステップ209でNo)、音声解析部15は、時間フレームFの箇所が、対象話者X単独の発話区間であると判定する(ステップ211)。
その結果、何れかに「他の話者」を含む場合(ステップ212でYes)、音声解析部15は、時間フレームFの箇所が、話者Y単独の発話区間であると判定する(ステップ213)。
図10は、他の話者が2人以上だったときに、図8のステップ107において行われる話者の判定についてさらに詳しく説明したフローチャートである。
ここでは、対象話者Xと他の話者との合計はm人である。つまり他の話者は、m−1人であるとする。
ここでもステップ106において、共通する位置にあるピークがn個見つかったとし、このn個のピークの周波数λの値を、λ={λ1、λ2、λ3、…、λn}で表す。また目的音強調波形の周波数スペクトルについて、このn個のピークの周波数λの位置の強度を、{a11、a12、a13、…、a1n}で表す。また目的外音強調波形の周波数スペクトルは、他の話者のそれぞれの音声信号を強調したものを他の話者の人数分求める。そしてこの目的外音強調波形の周波数スペクトルについて、このn個のピークの周波数λの位置の強度を、{a21、a22、a23、…、a2n}、{a31、a32、a33、…、a3n}、…、{am1、am2、am3、…、amn}で表す。そしてこれらを総括したものとして下記の強度Aを考える。なおこれは、m行n列の行列とみなすこともできる。
a21、a22、a23、…、a2n、
a31、a32、a33、…、a3n、
・・・・・・・・・・・・・・・・・
am1、am2、am3、…、amn}
例えば、BよりA’の方が大きくなった場合が、a1i>b1、a3i>b3、ani>bnの3個であり、他はA’よりBの方が大きくなった場合、T={a1i、a3i、ani}となる。
そしてTの要素の数が1以上であったとき(ステップ303でYes)、発話フラグf={f1、f2、f3、…、fn}のi番目(fi)を行番号とする(ステップ304)。上述した例では、f1が、1、3、nとなる。
次に音声解析部15は、カウンタiに1を加算する(ステップ305)。そして音声解析部15は、i>nであるかを判定する(ステップ306)。そしてi>nでなかったとき(ステップ306でNo)、ステップ302に戻る。
音声に関する情報を受信した端末装置10では、データ解析部23において複数の端末装置10から送られた音声が解析され、装着者の会話関係が判定される。
以下に本実施形態における話者の会話関係を判定する具体的な方法について説明を行なう。ここではまず同一の部屋内等の同一のエリアにおいて対象話者Xと話者Yが会話を行なっている場合に、この二人の話者が会話をしていることを判定する場合について説明する。
このとき、発話情報は、図11に示すように、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似し、同調性があることがわかる。そこで、本実施例のホスト装置20は、端末装置10から取得した情報を分析し、同調性を判定することにより、これらの情報が同じ発話状況を示していると判断し、対象話者Xと話者Yとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻(タイミング)等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。
なお本実施形態における端末装置10が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置10に設けられた制御用コンピュータ内部の図示しないCPUが、端末装置10の各機能を実現するプログラムを実行し、これらの各機能を実現させる。
Claims (5)
- 話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得手段と、
予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、
を備えることを特徴とする音声解析装置。 - 前記識別手段は、前記音声情報取得手段が取得した音声信号の波形、前記目的音強調波形および前記目的外音強調波形のそれぞれの周波数スペクトルの少なくとも2つについて共通する位置にあるピークを求め、共通する位置にあるピークの強度から取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項1に記載の音声解析装置。
- 前記識別手段は、共通する位置にあるピークの強度の大小関係により取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項2に記載の音声解析装置。
- 話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段と、
予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、
を備えることを特徴とする音声解析システム。 - コンピュータに、
話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得機能と、
予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別機能と、
を実現させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015041710A JP6515591B2 (ja) | 2015-03-03 | 2015-03-03 | 音声解析装置、音声解析システムおよびプログラム |
US14/791,794 US9704504B2 (en) | 2015-03-03 | 2015-07-06 | Voice analysis device and voice analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015041710A JP6515591B2 (ja) | 2015-03-03 | 2015-03-03 | 音声解析装置、音声解析システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016163230A true JP2016163230A (ja) | 2016-09-05 |
JP6515591B2 JP6515591B2 (ja) | 2019-05-22 |
Family
ID=56847318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015041710A Expired - Fee Related JP6515591B2 (ja) | 2015-03-03 | 2015-03-03 | 音声解析装置、音声解析システムおよびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9704504B2 (ja) |
JP (1) | JP6515591B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10564925B2 (en) * | 2017-02-07 | 2020-02-18 | Avnera Corporation | User voice activity detection methods, devices, assemblies, and components |
US20190267009A1 (en) * | 2018-02-27 | 2019-08-29 | Cirrus Logic International Semiconductor Ltd. | Detection of a malicious attack |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005173007A (ja) * | 2003-12-09 | 2005-06-30 | Canon Inc | 音声解析処理およびそれを用いた音声処理装置および媒体 |
JP2013135325A (ja) * | 2011-12-26 | 2013-07-08 | Fuji Xerox Co Ltd | 音声解析装置 |
JP2014066579A (ja) * | 2012-09-25 | 2014-04-17 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JP2014164164A (ja) * | 2013-02-26 | 2014-09-08 | Fuji Xerox Co Ltd | 音声解析装置、信号解析装置、音声解析システムおよびプログラム |
JP2014191069A (ja) * | 2013-03-26 | 2014-10-06 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5305743B2 (ja) | 2008-06-02 | 2013-10-02 | 株式会社東芝 | 音響処理装置及びその方法 |
-
2015
- 2015-03-03 JP JP2015041710A patent/JP6515591B2/ja not_active Expired - Fee Related
- 2015-07-06 US US14/791,794 patent/US9704504B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005173007A (ja) * | 2003-12-09 | 2005-06-30 | Canon Inc | 音声解析処理およびそれを用いた音声処理装置および媒体 |
JP2013135325A (ja) * | 2011-12-26 | 2013-07-08 | Fuji Xerox Co Ltd | 音声解析装置 |
JP2014066579A (ja) * | 2012-09-25 | 2014-04-17 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JP2014164164A (ja) * | 2013-02-26 | 2014-09-08 | Fuji Xerox Co Ltd | 音声解析装置、信号解析装置、音声解析システムおよびプログラム |
JP2014191069A (ja) * | 2013-03-26 | 2014-10-06 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160260439A1 (en) | 2016-09-08 |
JP6515591B2 (ja) | 2019-05-22 |
US9704504B2 (en) | 2017-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3707716B1 (en) | Multi-channel speech separation | |
JP5772448B2 (ja) | 音声解析システムおよび音声解析装置 | |
JP6031761B2 (ja) | 音声解析装置および音声解析システム | |
US11158334B2 (en) | Sound source direction estimation device, sound source direction estimation method, and program | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
JP2018049143A (ja) | 音声取得システムおよび音声取得方法 | |
JP6003472B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2016080750A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6003510B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP5867066B2 (ja) | 音声解析装置 | |
JPWO2018037643A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2013142843A (ja) | 動作解析装置、音声取得装置、および、動作解析システム | |
JP6515591B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP6007487B2 (ja) | 情報処理装置、情報処理システムおよびプログラム | |
WO2016017229A1 (ja) | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム | |
JP6476938B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP2011257627A (ja) | 音声認識装置と認識方法 | |
KR101658001B1 (ko) | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 | |
JP6191747B2 (ja) | 音声解析装置および音声解析システム | |
JP6031767B2 (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP5929810B2 (ja) | 音声解析システム、音声端末装置およびプログラム | |
JP6361360B2 (ja) | 残響判定装置及びプログラム | |
JP2017040752A (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
JP2013140534A (ja) | 音声解析装置、音声解析システムおよびプログラム | |
JP5113096B2 (ja) | 音源分離方法、装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6515591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |