JP2014512572A - 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 - Google Patents

聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 Download PDF

Info

Publication number
JP2014512572A
JP2014512572A JP2014502540A JP2014502540A JP2014512572A JP 2014512572 A JP2014512572 A JP 2014512572A JP 2014502540 A JP2014502540 A JP 2014502540A JP 2014502540 A JP2014502540 A JP 2014502540A JP 2014512572 A JP2014512572 A JP 2014512572A
Authority
JP
Japan
Prior art keywords
auditory
feature vector
syllable
skeleton feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014502540A
Other languages
English (en)
Other versions
JP5897107B2 (ja
Inventor
カリンリ、オズレム
チェン、ルーシン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2014512572A publication Critical patent/JP2014512572A/ja
Application granted granted Critical
Publication of JP5897107B2 publication Critical patent/JP5897107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【解決手段】発話中の音節または母音または音素の境界検出において、音入力ウィンドウに対して聴覚スペクトルが判定され、その聴覚スペクトルから1つ以上のマルチスケール特性が抽出されうる。各マルチスケール特性は、別個の2次元スペクトル経時受容フィルタを使用して抽出できる。1つ以上のマルチスケール特性に対応する1つ以上の特性マップが生成可能であり、その1つ以上の各特性マップから聴覚骨子特徴ベクトルが抽出できる。1つ以上の特性マップから抽出した各聴覚骨子特徴ベクトルの拡張を通して累積骨子特徴ベクトルを取得しうる。音入力ウィンドウの1つ以上の音節または母音または音素の境界は、機械学習アルゴリズムを使用して累積骨子特徴ベクトルを1つ以上の音節または母音または音素の境界の特性にマッピングすることにより検出できる。
【選択図】図1A

Description

本発明は、音声言語処理、具体的には、他の従来の音声特性を使用、または従来の音声特性を使用しない聴覚注意手がかりを使用した音声の音素、母音、または音節の境界の検出に関する。
音声認識システムは、コンピュータ・システムの入力で一般的な形態となってきた。典型的な音声認識システムでは、可聴信号を取り込み、認識可能な人間の言葉の要素に分析する。音素、音節、または母音などの単位に音声をセグメント化することにより、音声の音韻的側面とリズム的側面の両方に関する情報を提供する。音素(phoneと呼ばれることもある)は、一般的に音声の最小有意の音韻セグメントであるとみなされる。音素には、母音と子音が含まれる。音節という用語は、母音のみ、または前後に子音がある母音で構成される音声のセグメントを表すために使用される。通常、母音は音節核を構成する。従って、音素、母音、音節の境界を検出することは、音声認識と自然言語の理解において重要な役割を果たす。多くの音声言語処理のアプリケーションでは、サンプル音声信号内のどこで音節が開始し、終了するかを判断することが有用である。口頭の音節には、通常、音節核として母音部が含まれ、子音部分を含む場合と含まない場合があり、音節境界の検出で重要な鍵となるのは、音節内での母音および/または母音の境界が重要となる。音素の境界は、母音または子音の境界が検出された後に、聴覚注意手がかり有り、または無しで、エネルギー、声確率、ゼロ交差、異なるFFT周波数ビンでのスペクトル変化率、ケプストラム、デルタ・ケプストラム、およびデルタ‐デルタ・ケプストラム、フレーム・ベースの音素確率、唇の分析動画像による唇の動きなどの従来の特性を使用して検出できる。
研究者らは、音節は人間の音声認識において最も重要な要素のひとつであることを示す主張の裏付けを発見した。音声を音節単位にセグメント化することで、音声の速度、リズム、韻律、および音声認識と音声合成に関する洞察を提供する。音節には、ソノリティ(音節核)の中央ピークがあり、これは通常、母音およびこの中央ピーク周囲に集まる子音である。音節核は正確な音節境界に比較して信頼性が高く、より容易に検出できるため、文献のほとんどの研究は音節核検出に焦点をあてたものである。音節核検出では、既存の方法のほとんどは、抽出された短時間の音響特性から抽出した一次元の連続曲線を推定し、この曲線を調べて、音節核を見つけることに依存している。音節核を見つけるために使用する音響特性としては、選択した臨界帯域でのエネルギー、線形予測符号化スペクトル、サブバンド・ベースの相関関係、ピッチ、有声音などがある。この分野の最新研究には、以下が含まれる。
“Robust Speech Rate Estimation for Spontaneous Speech”,Dagen Wang and Shrikanth S.Narayanan,inIEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,VOL.15,NO.NOVEMBER2007,pp2190−2201
“Segmentation ofSpeech into Syllable−like units”T.Nagarajan etal,EUROSPEECH 2003−GENEVA,pp2893−2896
“Speech rhythm guided syllable nuclei detection”,Y.Zhang and J.Glass,Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp 3797−3800, Taipei, Taiwan April 2009
通常、こうした従来の方法では、多くのパラメータのチューニングを必要とするが、様々な設定や条件、すなわち、発話スタイル、ノイズ条件などの新しいデータ、新しい条件で使用するのが困難になるため、これは望ましいことではない。さらに、従来方法は通常、あいまいな音節核検出に焦点をあてている。
こうした背景の範囲内で本発明の実施形態が生まれた。
本発明の実施形態は、添付の図面と共に以下の詳細な説明を参照することで容易に理解できるであろう。
本発明の音声における音節/母音/音素の境界の検出方法を示す流れ図である。 本発明の実施形態で使用可能なスペクトル経時の受容フィルタの例を示す概略図である。 従来の音声特性と本発明の実施形態の累積大局的骨子特徴ベクトルを組み合わせて使用することにより音声における音節/母音/音素の境界の検出方法を示す流れ図である。 本発明の実施形態の音声における音節/母音/音素の境界を検出する装置を示すブロック図である。 本発明の実施形態の音節/母音/音素の境界を検出する装置のセル・プロセッサの実施の例を示すブロック図である。 本発明の実施形態の音節/母音/音素の境界の検出を実施するための命令が入ったコンピュータで読み取り可能な非一時的な記憶媒体の例を示す図である。
本発明の実施形態は、音声における音節/母音/音素の境界の検出のために聴覚注意手がかりを使用する音声言語の処理方法と装置に関する。曖昧な音節核検出に焦点をあてた従来の方法とは異なり、本発明の実施形態では、フレーム・レベルでより詳細な音節/母音/音素の境界情報を得ることができる。従来の方法とは異なり、本発明の実施形態による方法とシステムでは、音素の境界、母音の境界および/または音節の境界の検出のために聴覚注意手がかりを使用する。この注意特性は生物学的に着想を得たものであり、二次元スペクトル経時のフィルタを使用して音の信号の特性変化を捕捉して、音声の母音および/または音節をうまく検出する。さらに、聴覚注意特性は、従来の音素/母音/音節の境界検出のための音声特性と組み合わせて使用することができる。
図1Aは、本発明の実施形態による聴覚注意手がかりを使う音声における音節/母音/音素の境界を検出する方法を示す流れ図である。聴覚注意モデルは、生物学的に着想を得たものであり、人間の聴覚系における処理段階を模倣したものである。音声信号がいつ、どこで人間の注意を喚起するかを判定するように設計されている。
最初に、音入力ウィンドウ101が受信される。例として、これに制限されるものではないが、この音入力ウィンドウ101は、特定の音入力ウィンドウ101を特徴付ける音波をさらなる処理のために電気信号に変換する働きをするマイクロフォンを使用し、ある有限持続期間の時間ウィンドウ上で捕捉される。音入力ウィンドウ101は、ある人の音声のどのセグメントであってもよい。例として、これに制限されるものではないが、音入力ウィンドウ101には、単独の音節、単語、文章、またはこれらを組み合わせたものが含まれてもよい。
音入力ウィンドウ101は、次にこの音入力ウィンドウ101を聴覚スペクトル105に変換するように機能する一連の処理段階103を通過する。こうした処理段階103は、人間の聴覚系などの初期処理段階に基づくことができる。例として、これに制限されるものではないが、処理段階103は、聴覚系における基底膜から蝸牛神経核までのプロセスを模倣した蝸牛フィルタリング、内有毛細胞、および側方抑制の段階から構成され得る。蝸牛フィルタリングは、対数周波数軸に沿って均一に分散された中心周波数を持つ128のオーバーラップする定数Qの非対称バンドパス・フィルタのバンクを使用して実施してもよい。こうしたフィルタは、適切に構成された電子ハードウェアによって実施されてもよく、このような電子ハードウェアは専用に設計されたものでもよい。または、フィルタは、フィルタの機能を実施するソフトウェアでプログラムされた汎用コンピュータで実施されてもよい。分析のために、10msシフトのオーディオの20msフレームを使用可能であり、その結果、各オーディオ・フレームは、128次元のベクトルによって表される。
音入力ウィンドウ101が、聴覚スペクトル105に変換されると、この聴覚スペクトル105は、107に示されているように、中枢聴覚系の情報処理段階を模倣して、マルチスケール特性117を抽出することにより分析される。聴覚注意は、強度(エネルギー)、周波数、経時、ピッチ、音色、FM方向またはスロープ(ここでは方向(orientation)という)などの幅広い音響特性によって捕捉され、または自発的にこうした音響特性に向けられる。こうした特性は、一次聴覚野皮質の受容野を模倣するために選択し、実施できる。
例として、これに制限されるものではないが、前述の特性を包含するモデルに含むことができる4つの特性としては、強度(I)、周波数コントラスト(F)、経時コントラスト(T)およびθ={45°、135°}の方向(Oθ)がある。強度特性は、信号の強度すなわちエネルギーに関連する信号特性を捕捉する。周波数コントラスト特性では、信号のスペクトル(周波数)変化に関する信号特性を捕捉する。経時コントラスト特性では、信号の経時変化に関連する信号特性を捕捉する。方向フィルタは、信号の動くリップルに感受性がある。
各特性は、一次聴覚野皮質の特定の受容フィルタを模倣した二次元の経時スペクトル受容フィルタ109、111、113、115を使用して抽出してもよい。図1Bから1Fは、受容フィルタ(RF)109、111、113、115の例をそれぞれ示している。特性抽出のために模擬実験した受容フィルタ(RF)109、111、113、115のそれぞれは、抽出されている特性に対応するグレイスケールのイメージで図示される。励起フェーズ110は白色で、抑制フェーズ112は黒色でそれぞれ図示されている。
こうした受容フィルタ(RF)109、111、113、115は、信号特性における一定の変化を検出し、捕捉する機能がある。例えば、図1Bに図示されている強度フィルタ109は、音の入力ウィンドウの持続期間にわたる強度/エネルギーにおける変化を検出し、捕捉できるように特定の領域に対して選択的な励起フェーズのみで聴覚皮質にある受容野を模倣するように構成してもよい。同様に図1Cに示されている周波数コントラスト・フィルタ111は、励起フェーズと同時対称な抑制側波帯を有する一次聴覚皮質にある受容野に対応するように構成されてもよい。図1Dに図示されている経時コントラスト・フィルタ113は、抑制フェーズとその後の励起フェーズを有する受容野に対応するように構成されてもよい。
聴覚スペクトルは見えている場面のイメージに類似していると考えることが可能であり、こうした特性のいくつかは異なるローカルの方向のエッジにチューニングされる。すなわち、周波数コントラスト特性は、ローカルの水平方向のエッジにチューニングされるが、これはフォルマントとその変化を検出し、捕捉するために良い。つまり、図1Cの周波数コントラスト・フィルタ111は、音ウィンドウの持続期間にわたるスペクトル変化を検出し、捕捉する。図1Dの経時コントラスト・フィルタ113は、経時ドメインにおける変化を検出し、捕捉する。方向フィルタ115’と115’’は、動くリップルに反応する聴覚神経の応答の動態を模倣する。方向フィルタ115’は、図1Eに図示されているように、リップルが上方に移動しているときに検出し、捕捉するために、45°の方向を有する励起フェーズと抑制フェーズを持つように構成できる。同様に、方向フィルタ115’’は、図1Fに図示されているように、リップルが下方に移動しているときに検出し、捕捉するために、135°の方向を有する励起フェーズと抑制フェーズを持つように構成できる。ひとつの重要なポイントとしては、このモデルでは、絶対特性の強度ではなく特性コントラストが計算されることであり、これは変化のポイント/領域の検出とセグメント化において重要である。
周波数コントラスト111、経時コントラスト113、および方向特性115を生成するためのRFは、二次元の角度が変化するガボール・フィルタを使用して実現できる。周波数コントラストと経時コントラスト特性のために使用するフィルタは、それぞれ水平方向フィルタおよび垂直方向フィルタとして解釈可能であり、0°と90°の方向の二次元のガボール・フィルタで実現可能である。同様に、方向特性は、{45°と135°}の方向の二次元のガボール・フィルタで実現可能である。強度特性109を生成するためのRFは、二次元ガウス・カーネルを用いて実現される。
特性抽出107は、マルチスケールのプラットフォームを用いて完了する。特定のデータセットをスケール空間で表すものを生成する動機は、オブジェクトは異なるスケールで異なる構造で構成されるという基本的観察から始まる。未知のデータのセットを分析するシステムでは、当該データに関連する対象となる構造を表すための適切なスケールを推測的に知る方法がない。従って、唯一の妥当なアプローチとしては、生じうる未知のスケールの変動を捕捉するために複数のスケールで表すことを考える。本発明の実施形態では、このマルチスケール特性117は、ダイアディック・ピラミッドを用いて取得してもよい(すなわち、入力スペクトルをフィルタリングし、2の倍数で間引き(デシメーション)し、これを繰り返す)。その結果、8つのスケールが作成され(当該ウィンドウの持続期間が1.28秒よりも長い場合、そうでなければスケール数はより少なくなる)、1:1(スケール1)から1:128(スケール8)までの範囲のサイズ縮小係数が生じる。
マルチスケール特性117を取得後、119で示したようにこうしたマルチスケール特性117を用いて特性マップ121が生成される。これは、「中心周辺(center-surround)」差分を計算することで得られ、「中央」(微細)スケールと「周辺」(粗い)スケールと、を比較することを伴う。中央周辺のオペレーションでは、局所の皮質の抑制特性を模倣して、局所の経時と空間的な不連続性を検出する。「中央」の微細スケール(c)と「周辺の」より粗いスケール(s)との間のスケール間の減算(θ)によって模擬実験され、特性マップ、M(c,s):M(c,s)=|M(c)θM(s)|,M∈{I,F,T,Oθ}が得られる。2つのスケール間のスケール間の減算は、より微細なスケールとポイント毎の(point-wise)減算の補間によって計算される。例として、これに制限されるものではないが、σ∈{3、4}で、c={2、3、4}、s=c+σを使用してもよく、その結果、特性が8つのスケールで抽出される場合に、結果として合計30の特性マップが得られる。
次に、123で示されているように、低解像度で入力音ウィンドウ101全体をカバーするように、I、F、T、Oθの各特性マップ121から「聴覚骨子特徴」ベクトル125が抽出される。ある特性マップ121に対する聴覚骨子特徴ベクトル125を決定するために、特性マップ121は最初にサブ領域のmにnを乗じたグリッドに分割され、各サブ領域の最大、最小、平均、標準偏差などの統計が計算できる。例として、これに限定されるものではないが、各サブ領域の平均は、そのマップの全体的なプロパティを捕捉するために計算できる。高さhおよび幅wの特性マップMiに対して、聴覚骨子特徴ベクトルの計算は次のように表される。
聴覚骨子特徴ベクトル123(m=4、n=5)の例が図1に示されており、この場合、特性マップを表すために20次元の聴覚骨子特徴ベクトル125が示されている。こうしたmとnの特定の値は、例示目的のものであり、本発明の実施形態を制限するものではない。
各特性マップ121から聴覚骨子特徴ベクトル125を抽出後、聴覚骨子特徴ベクトル125は拡張され、合成され、累積聴覚骨子特徴ベクトル127を作る。累積聴覚骨子特徴ベクトル127はさらに次元減少129の技術を経て、音節/母音/音素の境界検出をより実用的なものにするために次元と冗長性を減少させてもよい。例として、これに制限されるものではないが、次元減少129に対して主成分分析(PCA)を使用できる。次元減少129の結果は最終特性であり、ここではより少ない次元で累積聴覚骨子特徴ベクトル127にある情報を伝える聴覚骨子特徴127’という。PCAは、パターン認識の主要技術として一般的に使用されている。一般的に理解されているように、PCAは、あるデータの投影による最大の分散が、第一座標(第一主成分という)に、2番目に大きい分散が第二座標にくるようになど、データを新しい座標系に変換する直交線形変換として数学的に定義されている。PCAは、適切に設定されたソフトウェアでプログラミングされたコンピュータで実現してもよい。PCAによる次元減少を実現できる市販のソフトウェアの例としては、米国マサチューセッツ州NatickのMathWorks,Inc.のMatlabやニュージーランドのワイカト大学で開発されたWeka機械学習ソフトウェアがある。または、因子分析法、カーネルPCA、線形判別分析(LDA)などの他の線形および非線形の次元減少技術を使用して次元減少129を実施してもよい。
最後に、入力音ウィンドウ101を特徴付ける聴覚骨子特徴127’が決定したら、音素の境界、母音の境界、音節核または音節の境界は、聴覚骨子特徴から検出しうる。特定の入力音ウィンドウでこうした検出をするには、ニューラル・ネットワーク、最近傍分類、決定木などの機械学習アルゴリズム131を使用して、累積骨子特徴127と、音素境界、母音境界、音節核または音節の境界との間のマッピングを見つけることができる。例として、これに制限されるものではないが、機械学習アルゴリズム131としてニューラル・ネットワークを使用することができるが、これは生物学的に十分に動機づけられたものであるためである。こうした場合、ニューラル・ネットワーク131は、関連する累積特徴骨子ベクトルが与えられると、入力音内の音素境界、母音境界、音節核または音節の境界を特定できる。
ここで使用したように、「ニューラル・ネットワーク」という用語は、計算へのコネクショニスト的アプローチに基づき情報処理のための計算/数学的モデルを使用する相互につながった自然または人口のニューロンの集まりのことをいう。ニューラル・ネットワークは、ニューラル・ネットワーク内を流れる外部の情報または内部の情報に基づき構造を変更する適応システムである。これは非線形の統計データ・モデリングを実現するために使用され、入力と出力の複雑な関係をモデル化するために使用してもよい。本発明の実施形態では、ニューラル・ネットワークを使用して聴覚累積骨子特徴ベクトル127または聴覚骨子特徴ベクトル127’、および1つ以上の音素境界、母音境界、音節核または音節の境界によって表される聴覚骨子特徴のグループの間の学習マッピングのために使用できる。例として、これに制限されるものではないが、3層のニューラル・ネットワークを使用してもよい。ニューラル・ネットワークは、D個の入力、(D+N)/2の隠れノード、およびNの出力ノードを持ってもよく、この場合、DはPCA次元減少後の聴覚骨子特徴の長さであり、Nは区別するクラスの数であり、すなわち、音素/母音/音節の境界検出では、Nはあるフレームが境界であるか、否かを決定する場合、2に等しい。
ニューラル・ネットワーク出力の推定は、i)硬判定、ii)軟判定の2つの方法で使用できる。硬判定では、ニューラル・ネットワークの最終判定が、バイナリ判定として使用される。例えば、フレームに境界がある場合、1を出力し、そうでなければゼロを出力する。軟判定では、[0,1]の間の値であるニューラル・ネットワークの確率スコアは、現在のフレームが注意特性を与えられた境界である事後確率として使用できる。また、軟判定では、推定事後確率を、他のシステムにフィードし、別のソースからの情報と組み合わせてさらにどちらかのシステムの性能を向上させることができる。例えば、境界情報を使用して、音声認識性能を向上させる、または音声認識エンジンからの補足情報を使用して境界検出性能などをさらに向上させることができる。また、本発明のある実施形態では、セグメントにある音節数に関する情報もオプションで提供可能であり、この数は例えば、1秒毎の音節数または一発話毎の音節数であり、発話速度推定に使用できる。次に、推定発話速度を使用して、発話速度に基づき適切な音響モデルを選択する、または会話の感情セグメントを見つけることによって音声認識性能を向上するなど他の音声言語処理アプリケーションを向上できる。
この音節/音素/母音の境界情報は単独で使用、または音声認識などの他の音声言語処理システムを向上させるために使用することができる。また、音素/母音/音節の境界を階層システムとして考えることもできる。ある境界タイプからの情報を使用して、他の境界タイプの情報を向上させることができる。すなわち、母音の境界情報を使用して、音素または音節の境界の検出を向上させることができる。また、本発明の実施形態は、あらゆるタイプの音声、発話スタイル、およびノイズ条件、すなわち孤立音声、連続音声、話し言葉の音声、朗読音声、クリーンな音声/ノイズがある音声などの分析に使用することができる。
図1Gは、本発明の他の実施形態による累積骨子特徴ベクトルを従来の音声特性と組み合わせて使用することにより音節/母音/音素の境界を検出する方法140を示す流れ図である。方法140では、累積特徴骨子ベクトル147が入力音ウィンドウの分析から、例えば、図1Aに関して上記で説明しているように、生成されてもよい。さらに、従来の方法を使用して同じ入力音ウィンドウで従来の分析から従来の音声特性148が生成されてもよい。例として、従来の特性には、これに限定されるものではないが、フレーム・ベースのエネルギー、フレーム・ベースの最大音声振幅、ゼロ交差率、フレーム・ベースの音素確率、フレーム・ベースの声確率、異なるFFT周波数ビンでのスペクトル変化率、ケプストラム、デルタ・ケプストラムおよびデルタ‐デルタ・ケプストラム、動画から捕捉した唇の動きなどがある。
累積特徴骨子ベクトル147および従来の音声特性148は、次元減少モジュール149に対する入力として使用可能であり、次元減少モジュール149は音節/母音/音素の境界検出をより実用的なものにするために入力の次元と冗長性を減少させる。次元減少モジュール149は、図1Aの次元減少129に関して上記で説明したように機能しうる。例として、これに制限されるものではないが、次元減少モジュール149は、累積特徴骨子ベクトル147および従来の音声特性148の次元を減らすために主成分分析(PCA)を実施してもよい。次元減少モジュール149の出力は、より少ない次元で累積聴覚骨子特徴ベクトル147および従来の特性148にある情報を伝達し、入力音ウィンドウを特徴付ける聴覚骨子特徴147’である。聴覚骨子特徴147’は、図1Aに関して上記で説明した聴覚骨子特徴127’と共通の特性を有してもよい。
聴覚骨子特徴ベクトル147’から、音素境界、母音境界、音節核または音節の境界を検出してもよい。例えば、機械学習アルゴリズム141を使用して、累積骨子特徴ベクトル147および/または従来の特性148と、音素境界、母音境界、音節核または音節の境界と、の間のマッピングを見つける。この機械学習アルゴリズムは、図1Aの機械学習アルゴリズム131と共通の特性を持ちうる。例として、これに制限されるものではないが、機械学習アルゴリズム141は、ニューラル・ネットワーク、最近傍分類、決定木などを使用してもよい。
本発明の実施形態では、適切に構成されたコンピュータ装置で実施されてもよい。図2は、本発明の実施形態の聴覚注意手がかりを使用して音素/音節/母音の境界を検出する方法を実施するために使用しうるコンピュータ装置を示すブロック図である。装置200は一般的にプロセッサ・モジュール201およびメモリ205を含みうる。プロセッサ・モジュール201は、1つ以上のプロセッサ・コアを含みうる。複数のプロセッサ・モジュールを使用する処理システムの例としては、セル・プロセッサ(Cell Processor)があり、この例は、例えばインターネットで入手可能な“Cell Broadband Engine Architecture”(http://www−306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdf)に詳細に示されており、これを本明細書の一部として援用する。
メモリ205は、RAM、DRAM、ROMなどの集積回路の形式であってもよい。メモリ205は、すべてのプロセッサ・モジュールによってアクセス可能なメイン・メモリであってもよい。実施形態によっては、プロセッサ・モジュール201は、各コアに関連付けられたローカルのメモリを有してもよい。プログラム203は、プロセッサで読み取り可能な命令の形式でメイン・メモリ205に保存されてもよい。プログラム203は、聴覚注意手がかりを使用して音ウィンドウで音節/母音の境界検出を行うように構成されてもよい。プログラム203は、C、C++、JAVA(登録商標),Assembly、MATLAB(登録商標)、FORTRAN、および他の多くの言語など、任意の適切なプロセッサで読み取り可能な言語で記述されてもよい。入力データ207はメモリに保存してもよい。こうした入力データ207には、音の入力ウィンドウ、特性マップ、または聴覚骨子特徴ベクトルを含みうる。プログラム203の実行中、プログラム・コードおよび/またはデータの一部は、メモリまたは複数プロセッサ・コアによる並列処理のためにプロセッサ・コアのローカル・ストアにロードされてもよい。
装置200には、入力/出力(I/O)要素211、電源(P/S)213、クロック(CLK)215、およびキャッシュ217などの良く知られているサポート機能209が含まれてもよい。装置200は、オプションでプログラムおよび/またはデータを保存するためのディスク・ドライブ、CD−ROMドライブ、テープ・ドライブ、または類似品などの大容量記憶装置219を含んでもよい。デバイス200は、オプションで装置とユーザとの間のインタラクションを容易にするために、ディスプレイ・ユニット221、オーディオ・スピーカ・ユニット222、およびユーザ・インタフェース・ユニット225を含んでもよい。ディスプレイ・ユニット221は、文字、数字、図記号、または画像を表示するブラウン管(CRT)またはフラット・パネル画面の形式であってもよい。ユーザ・インタフェース・ユニット225は、グラフィカル・ユーザ・インタフェース(GUI)と合わせて使用可能なキーボード、マウス、ジョイスティック、ライトペン、またはその他のデバイスを含んでもよい。装置200は、そのデバイスがインターネットなどのネットワーク上で他のデバイスと通信できるようにするネットワーク・インタフェース223を含んでもよい。
実施形態によっては、システム200には、オプションのマイクロフォン229を含んでもよく、これは単独のマイクロフォン、またはマイクロフォンのアレイであってもよい。マイクロフォン229は、I/O要素211を介してプロセッサ201に接続できる。例として、これに制限されるものではないが、マイクロフォン229を使用して異なる音入力ウィンドウを録音してもよい。
プロセッサ201、メモリ205、サポート機能209、大容量記憶装置219、ユーザ・インタフェース225、ネットワーク・インタフェース223、およびディスプレイ221を含むシステム200の構成要素は、1つ以上のデータ・バス227を介して動作可能に接続されてもよい。こうした構成要素は、ハードウェア、ソフトウェア、またはファームウェア、またはこれらを2つ以上組み合わせて実現してもよい。
装置内の複数プロセッサの並列処理を合理化するには多くの追加方法がある。例えば、2つ以上のプロセッサ・コアでコードを複製し、各プロセッサ・コアにデータの異なる部分を処理するコードを実行させるようにすることで処理ループを「展開(unroll)」することが可能である。こうした実施により、ループをセットアップする待機時間を回避しうる。本発明の実施形態に適用されるように、複数プロセッサは入力音ウィンドウから異なる特性を並列で抽出しうる。強度抽出フィルタ、周波数コントラスト抽出フィルタ、経時コントラスト抽出フィルタ、および方向抽出フィルタが、並列で異なるプロセッサ要素上で実行されれば、すべて同時に聴覚スペクトルを処理することが可能になり、より効率的に対応するマルチスケール特性を生成できる。さらに、特性マップも並列に生成し、それに対応する聴覚骨子特徴ベクトルも生成できるであろう。並列でデータを処理する機能があれば、貴重な処理時間を節約し、音声の音素/音節/母音の境界検出に対するシステムは、より効率的、合理的になる。
一例として、並列処理を実現する能力がある処理システムの中には、セル・プロセッサとして知られるものがある。セル・プロセッサの範疇に入りうるものには多くの異なるプロセッサ・アーキテクチャがある。例として、これに制限されるものではないが、図3は、セル・プロセッサの一例を示している。セル・プロセッサ300には、メイン・メモリ301、単独のPower processor要素(PPE)307、および8個のSyneric processorelement(SPE)311が含まれる。または、セル・プロセッサは、任意の数のSPEで構成されてもよい。図3に関して、メモリ301、PPE307、およびSPE311は、互いに通信可能であり及びI/O 装置315とリングタイプの要素相互接続バス317上で通信可能である。メモリ301は、上記で説明した入力データと共通の特性を持つ入力データ303、および上記で説明したプログラムと共通の特性を持つプログラム305を含む。少なくとも1つのSPE311は、そのローカル・ストアに、音節/母音の境界検出命令313および/または例えば、上記で説明したように、並列に処理する入力データの一部を含みうる。PPE307は、そのL1キャッシュに、上記で説明したプログラムと共通の特性を持つ音節/母音の境界検出命令309を含んでもよい。命令305とデータ303は、必要な場合、SPE311とPPE307によるアクセスのためにメモリ301に保存されてもよい。
例として、これに制限されるものではないが、異なるSPE311がマルチスケール特性117を実施してもよい。特に、異なるSPE311は、そのスペクトルからの強度(I)、周波数コントラスト(F)、経時コントラスト(T)、および方向(Oθ)の特性それぞれの専用として並列抽出してもよい。同様に、異なるSPE311がそれぞれの強度(I)、周波数コントラスト(F)、経時コントラスト(T)、および方向(Oθ)の特性マップ生成119または聴覚骨子特徴ベクトル抽出123を実施してもよい。
例として、PPE307は、関連するキャッシュを有する64ビットのPPU(PowerPC Processor Unit)であってもよい。PPE307は、オプションのベクトル・マルチメディア拡張ユニットを含んでもよい。各SPE311には、Syna骨子ic Processor Unit(SPU)とローカル・ストア(LS)を含む。実施形態によっては、ローカル・ストアは、例えば、プログラムとデータ用に約256キロバイトのメモリ容量を持ち得る。SPUは、PPUに比べて複雑度が低い計算ユニットであり、そのため、通常システム管理機能は行わない。SPUは単独の命令、複数のデータ(SIMD)機能を持つ場合があり、割り当てられたタスクを行うために、通常データを処理し、(PPEが設定するアクセス特徴に従って)必要なデータ転送を開始する。SPE311は、より高い計算ユニットの密度を必要とするアプリケーションをシステムが実行できるようにし、提供される命令セットを効果的に使用できる。非常に多くのSPE311をPPE307が管理することにより、幅広いアプリケーションに対してコスト効果が高い処理が可能になる。例として、セル・プロセッサは、Cell Broadband EngineArchitecture(CBEA)として知られるアーキテクチャによって特徴付けられ得る。CBEA準拠のアーキテクチャでは、複数のPPEをPPEグループに結合し、複数のSPEをSPEグループに結合してもよい。例示目的で、セル・プロセッサはひとつのSPEを持つ単独のSPEグループとひとつのPPEを持つ単独のPPEグループだけを持っているように図示されている。または、セル・プロセッサには、Power processor elementのグループ(PPEのグループ)およびSynergistic processor element(SPEグループ)を含むことができる。CBEA準拠のプロセッサについては例えば、以下に詳細に記載されており、Cell Broadband Engine Architecture(http://www.306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdf)で、オンラインで入手可能であり、これを本明細書の一部として援用する。
他の実施形態によれば、聴覚注意手がかりを用いた音素/音節/母音の境界検出の命令は、コンピュータで読み取り可能な記憶媒体に保存してもよい。例として、これに制限されるものではないが、図4は本発明の実施形態によるコンピュータで読み取り可能な非一時的な記憶媒体400の例を示している。記憶媒体400には、コンピュータ処理デバイスで取り出し、解釈、および実行可能な形式で保存されているコンピュータで読み取り可能な命令が含まれる。例として、これに制限されるものではないが、コンピュータで読み取り可能な記憶媒体400は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、固定ディスク・ドライブ(例、ハードディスク・ドライブ)用のコンピュータで読み取り可能な記憶ディスク、またはリムーバル・ディスク・ドライブなどのコンピュータで読み取り可能なメモリであってもよい。さらに、コンピュータで読み取り可能な記憶媒体400は、フラッシュ・メモリ・デバイス、コンピュータで読み取り可能なテープ、CD−ROM、DVD−ROM、Blu−ray(登録商標)、HD−DVD、ユニバーサル・メディア・ディスク(Universal Media Disc、UMD(登録商標))、または他の光学記憶媒体であってもよい。
記憶装置400は、聴覚注意手がかりを使用した音声の音節/母音/音素の境界を検出するように構成された音節/母音/音素境界検出命令401を含む。音節/母音/音素境界検出命令401は、図1に関して上記で説明した方法による音節/母音/音素の境界検出を行うように構成されてもよい。特に、音節/母音/音素境界検出命令401は、オプションで音節/母音/音素の境界検出を行う対象である音入力ウィンドウを受信するために使用する入力音受信命令403を含んでもよい。音入力ウィンドウは、コンピュータで読み取り可能な形式で録音から、またはマイクロフォンやマイクロフォン・アレイによって実行時にライブでキャプチャされた音から取得されてもよい。音節/母音/音素境界検出命令401は、さらに上記で説明した蝸牛フィルタリング、内有毛細胞、および側方抑制の処理段階を使用して音入力ウィンドウの聴覚スペクトルを判定する聴覚スペクトル命令405の判定を含んでもよい。
音節/母音/音素境界検出命令401は、実行されると、聴覚スペクトルに関連するマルチスケール特性を抽出するマルチスケール特性命令407をさらに含んでもよい。こうしたマルチスケール特性には、上記で説明したように強度、周波数コントラスト、経時コントラスト、および方向が含まれてもよい。これは、実行されると、さらに上記のように各マルチスケール特性に対して対応する特性マップを生成する特性マップ生成命令409の実行をトリガーする。この時点で、音節/母音/音素境界検出命令401は、実行されると、各特性マップに対するマルチ・パラメータの聴覚骨子特徴ベクトルを抽出する聴覚骨子特徴ベクトル命令411の抽出を実行してもよい。
音節/母音/音素境界検出命令401は、さらに実行されると、すべての聴覚骨子特徴ベクトルを拡張、結合し、ひとつの累積骨子特徴ベクトルにする累積骨子特徴ベクトル413を取得することを含んでもよい。累積骨子特徴ベクトル413は、実行されると、主成分分析(PCA)を実行して、冗長性を取り除き、累積骨子特徴ベクトルの次元を減らすように構成されてもよい。音節/母音/音素境界検出命令401は、実行されると、さらに累積骨子特徴ベクトルを対応する音素の境界、母音の境界、音節核または音節の境界にマッピングする音節/母音/音素の境界を検出する命令415を含んでもよい。
実験と結果
先行技術の音節検出技術に対して本発明の実施形態による音節境界検出を行うために多くの音節セグメント化の実験が行われた。この音節セグメント化の実験では、TIMITデータセットを使用した。TIMITコーパスは、音節の注釈を持たない。NISTの音節に分けるソフトウェア、tsyllb2の音素トランスクリプションを使用して言葉を音節に分けた。続いて、TIMITと合わせて提供される音素レベルのタイミング情報と各音節の音素シーケンスを使用して音節のタイミング情報が自動的に抽出された。この実験では、公式TIMITトレインと試験スプリットが使用された。この試験セットには、1344の発声が含まれ、これには約17,190の音節が含まれる。
この実験では、聴覚骨子特徴と音節境界との間のマッピングを学習するために3層のニューラル・ネットワークを使用した。ニューラル・ネットワークは、D個の入力、(D+N)/2の隠れノード、およびN個の出力ノードを持ち、分散の95%が保持される場合に、DはPCA次元減少後の聴覚骨子特徴ベクトルの長さであり、Nはクラスの数であり、こうした特定の実験では、これは2、すなわち、境界と非境界である。聴覚要点骨子特徴は、コンテキストを捕捉するための現在のフレームを中心とするウィンドウを使用して50ms毎に推定される。
複数音節の語に対する正確な音節境界は、英語では曖昧になることがあり、どの子音が第一の音節または第2の音節に属するかを判定するのは難しい。従って、実験は、通常母音から子音への移行部がある音節核の終わりを推定することを目標とした。同じ方法を使用して、音節核の始まりと終わりを検出できるが、ここでは音節核の終わりのみを検出することをターゲットにし、1つの音節で1つの検出のみが存在するようにする。これは、発話/秒毎の音節数を推定するうえで有用であった。従って、以下の考察では、音節境界という用語は、便宜上、音節核の終わりという意味で使用する。
音節境界検出では、50msのエラー・マージンを認めた。例えば、130msに境界が存在する場合、100msと150msのフレームに対応する聴覚骨子特徴は両方ともトレーニング中の境界としてラベル付けされた。同様に、評価中、50ms内で検出された境界は、正確であるとして受け入れられた。
この実験では、平均音節持続期間であった0.2sから0.4sまで持続期間を変化させてコンテキストの隣接する左右のパフォーマンスへの影響を分析するためにウィンドウ持続期間Wの役割を調べた。選択されたグリッド・サイズによって、経時およびスペクトルの解像度が決まる。経時およびスペクトルの解像度を変えて聴覚骨子特徴を抽出するために異なるグリッド・サイズでテストを行った。グリッド・サイズ、4×10が十分なものであり、妥当な特性次元で音節境界検出を性能良く行うことがわかった。さらに、スペクトル解像度を高めることで、複雑度を増しながら結果を向上させることもわかった。
以下の表Iにウィンドウ持続期間を変化させたフレーム・レベルの音節境界検出性能が、聴覚骨子特徴次元Dで示されている。ウィンドウの持続期間を延ばすことで、音節境界検出性能は向上するが、これはコンテキスト情報が境界検出に役立つことを意味している。達成された最高性能は、W=0.4sのフレーム・レベルで85.32%の音節境界検出正確度である。以下の表Iで報告されている結果は、オリジナルのニューラル・ネットワークの出力スコアである。実のところ、各音節境界に対してフレームの1つを検出すれば十分であるため、実際のフレーム・レベルの正確度は、これよりも高い。すなわち、ニューラル・ネットワークは、参照音節境界が130msである場合、100msと150msの両方の境界を予測する。そうでなければ、検出されなかったフレームを削除エラーとしてペナルティを課す。
本発明の実施形態は、先行技術との違いと先行技術と比べた利点を示している。具体的に、臨界帯域のエネルギー、線形予測符号化スペクトル、サブバンド・ベースの相関関係、ピッチ、有声音など短期間の音響特性を利用する先行技術とは異なり、本発明の実施形態では、音節のセグメント化に聴覚注意手がかりを使用する。従来の方法では、特定のデータと設定に固有のパラメータのチューニングが必要となる。これとは対象的に本発明の実施形態のモデルでは、パラメータのチューニングが不要である。
さらに、本発明の実施形態では、各フレームに対して、現在のフレームが音節の境界である可能性があるフレーム・レベルの結果を得る。これとは対象的に先行技術では、例えば、核の始まりから約50ms前から、核の終わりの約50msまで音節核周辺のピークを検出することを目的としており、従ってより大きなエラー・マージンを認めている。本発明の実施形態では、フレーム・レベルでより詳細な情報を得ることができる。本発明の実施形態では、あるセグメント内の音節数、例えば1秒毎または1発話毎の音節数などについての情報も提供可能であり、会話速度を推定するために使用できる。推定した会話速度を使用して、会話速度に基づき適切な音響モデルを選択する、または音声の感情セグメントを見つけることにより音声認識性能を向上させるなど他の音声言語処理アプリケーションを向上させることができる。
他の方法と比較するために、音節核検出の実験も実施し、音節レベルの結果も得た。最初に、音節核の中間に対応するフレーム/秒が検出対象のターゲットとしてラベル付けされるようにニューラル・ネットワークがトレーニングされた。次に、ニューラル・ネットワークの確率スコアを使用して時間の関数として一次元曲線をつくるように軟判定を使用した。続いて、検出された音節核としてカウントされる局所的な極値を見つけるためにその曲線に対してピーク検索を行った。他の方法で行われているように、必要に応じて音節核周囲の50msエラーは許容した。この結果は、以下の文献から参照した最新の結果と共に表IIに示す。
“Robust Speech Rate Estimation for Spontaneous Speech”,Dagen Wang and Shrikanth S.Narayanan,inIEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,VOL.15,NO. 8NOVEMBER2007,pp2190−2201、これを本明細書の一部として援用する。
“Speech rhythm guided syllable nuclei detection”,Y.Zhang and J.Glass,Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pp 3797−3800, Taipei, Taiwan April 2009、これを本明細書の一部として援用する。
他の方法では、パラメータを細かくチューニングして、最高のリコールと精度を得るものの、一度に同時に得ることはできないが、以下の式であらわされるF−scoreでは精度とリコールを一度に考えるため、以下の表IIのF−scoreを比較のために参照できる。
上記の表IIの結果は、本発明の実施形態の音節検出は、音節核検出の最新技術と同等または最新技術よりも優れていることを示している。
上記は本発明の好適な実施形態を完全に記述したものであるが、様々な代替、改良、および同等物を使用することが可能である。従って、本発明の範囲は、上記の明細書を参照して判断されるべきものではなく、代わりに添付の請求項と同等物の完全な範囲と共に判断されるものである。本明細書に記載した特性は好まれるか否かに関わらず本明細書に記載されている他の特性と組み合わせてもよい。以下の請求項では、不定冠詞、“a”、“an”は、明確にそうでないと記載がない限り、冠詞の後に続く物の数量が1つ以上であることを示す。以下の請求項では、特に記載がない限り、“or”(「または」)という語は、非排他的であると解釈される。添付の請求項は、means forというフレーズを使用して特定の請求項でそうした制限が明示的に受け入れられていない限り、ミーンズ+ファンクションの制限を含むものと解釈されないものとする。

Claims (18)

  1. 音声の音節/母音/音素の境界を検出する方法であって、
    a)音入力ウィンドウに対する聴覚スペクトルを判定し、
    b)1つ以上のマルチスケール特性を前記聴覚スペクトルから抽出し、この場合、各マルチスケール特性は、別個の2
    次元スペクトル経時受容フィルタを使用して抽出し、
    c)前記1つ以上のマルチスケール特性に対応する1つ以上の特性マップを生成し、
    d)前記1つ以上の特性マップから聴覚骨子特徴ベクトルを抽出し、
    e)前記1つ以上の特性マップから抽出した各聴覚骨子特徴ベクトルの拡張を通して累積骨子特徴ベクトルを取得し、および
    f)機械学習アルゴリズムを使用して前記累積骨子特徴ベクトルを1つ以上の音節または母音の境界特性にマッピングすることにより、音入力ウィンドウで1つ以上の音節または母音または音素の境界を検出することを含む方法。
  2. さらにf)で検出された音節または母音または音素の境界を使用して認識された母音または音節または音素から、語彙的意味または文法的意味を抽出することを含む請求項1に記載の方法。
  3. さらに、語彙的意味または文法的意味を表示する、または保存することを含む請求項2に記載の方法。
  4. 前記累積骨子ベクトルで1つ以上の聴覚注意特性を与えられた境界を現在のフレームが含むか否かを判定するために、f)はバイナリ判定または確率スコアの生成を含む請求項1に記載の方法。
  5. a)で前記聴覚スペクトルを判定することは、音入力ウィンドウを、聴覚系における基底膜から蝸牛神経核の間の伝達を模倣した蝸牛フィルタリング段階、内有毛細胞段階、および側方抑制の段階を通過させることを含む請求項1に記載の方法。
  6. 前記蝸牛フィルタリング段階は、128のオーバーラップする定数Qの非対称バンドパス・フィルタのバンクを使用して実行される請求項5に記載の方法。
  7. b)の前記マルチスケール特性の1つは、前記聴覚スペクトルに関連する強度を特徴づける請求項1に記載の方法。
  8. b)の前記マルチスケール特性の1つは、前記聴覚スペクトルに関連する周波数コントラストを特徴づける請求項7に記載の方法。
  9. b)の前記マルチスケール特性の1つは、前記聴覚スペクトルに関連する経時コントラストを特徴づける請求項8に記載の方法。
  10. b)の前記マルチスケール特性の1つは、前記聴覚スペクトルに関連する方向を特徴づける請求項9に記載の方法。
  11. b)の前記1つ以上のマルチスケール特性は、ダイアディック・ピラミッドを用いて取得される請求項1に記載の方法。
  12. c)の各特性マップはその特定のマルチスケール特性に関連する1つ以上の中央スケールとその特定のマルチスケール特性に関連する1つ以上の周辺スケールとの間の差異を計算することによって得られる請求項1に記載の方法。
  13. d)の各聴覚骨子特徴要因が、その対応する特性マップを、mにnを乗じたグリッドにサブ領域を分割し、各サブ領域の統計を計算することによって判定する請求項1に記載の方法。
  14. 次元減少のためにより大きな入力ベクトルを形成する目的で、骨子特徴ベクトルと組み合わせて追加の音声特性を使用する請求項1に記載の方法。
  15. 前記追加の音声特性には、各FFT周波数ビンによって計算されるフレーム・ベースのエネルギー、フレーム・ベースの最大振幅、フレーム・ベースのゼロ交差率、フレーム・ベースの音素確率、フレーム・ベースのピッチ振動を有する音声信号である確率、またはフレーム・ベースのスペクトル変化率を含む請求項15に記載の方法。
  16. e)は、前記累積骨子特徴ベクトルの冗長性を除去する、または次元を減らすために次元減少方法を使用することを含む請求項1に記載の方法。
  17. 音声認識における音節/母音の境界を検出するための装置であって、
    プロセッサと、
    メモリと、
    前記メモリで実現し、プロセッサによって実行可能なコンピュータ・コーディングされた命令と、を含む方法であって、前記コンピュータ・コーディングされた命令は、音節/母音/音素の境界を検出する方法を実施するように構成され、前記方法は、
    a)音入力ウィンドウに対する聴覚スペクトルを判定し、
    b)前記聴覚スペクトルから1つ以上のマルチスケール特性を抽出し、この場合、各マルチスケール特性は別個の2次元スペクトル経時の受容フィルタを使用して抽出され、
    c)前記1つ以上のマルチスケール特性に対応する1つ以上の特性マップを生成し、
    d)前記1つ以上の各特性マップから聴覚骨子特徴ベクトルを抽出し、
    e)前記1つ以上の特性マップから抽出した各聴覚骨子特徴ベクトルを拡張することで累積骨子特徴ベクトルを取得し、および
    f)機械学習アルゴリズムを使用して前記累積骨子特徴ベクトルを1つ以上の音節または母音または音素の境界特性にマッピングすることにより、音入力ウィンドウで1つ以上の音節または母音または音素の境界を検出することを含む方法。
  18. コンピュータ・プログラム製品であって、
    音声の音節/母音/音素の境界検出のために前記媒体で具体化されるコンピュータで読み取り可能なプログラム・コードを持つ非一時的なコンピュータで読み取り可能な記憶媒体を含み、前記コンピュータ・プログラム製品は、
    a)音入力ウィンドウに対する聴覚スペクトルを判定するためのコンピュータで読み取り可能なプログラム・コード手段と、
    b)各マルチスケール特性は、別個の二次元スペクトル経時受容フィルタを使用して抽出される、1つ以上のマルチスケール特性を前記聴覚スペクトルから抽出するためのコンピュータで読み取り可能なプログラム・コードと、
    c)前記1つ以上のマルチスケール特性に対応する1つ以上の特性マップを生成するためのコンピュータで読み取り可能なプログラム・コード手段と、
    d)前記1つ以上の各特性マップから聴覚骨子特徴ベクトルを抽出するためのコンピュータで読み取り可能なプログラム・コード手段と、
    e)前記各聴覚骨子特徴ベクトルの拡張を通して累積骨子特徴ベクトルを取得するためのコンピュータで読み取り可能なプログラム・コード手段と、
    f)機械学習アルゴリズムを使用して前記1つ以上の特性マップから抽出した各累積骨子特徴ベクトルを1つ以上の音節または母音または音素の境界特性にマッピングすることにより、音入力ウィンドウで1つ以上の音節または母音または音素の境界を検出するためのコンピュータで読み取り可能なプログラム・コード手段とを含むコンピュータ・プログラム製品。
JP2014502540A 2011-04-01 2011-11-02 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 Active JP5897107B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/078,866 US8756061B2 (en) 2011-04-01 2011-04-01 Speech syllable/vowel/phone boundary detection using auditory attention cues
US13/078,866 2011-04-01
PCT/US2011/059004 WO2012134541A1 (en) 2011-04-01 2011-11-02 Speech syllable/vowel/phone boundary detection using auditory attention cues

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2016046781A Division JP6198872B2 (ja) 2011-04-01 2016-03-10 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出

Publications (2)

Publication Number Publication Date
JP2014512572A true JP2014512572A (ja) 2014-05-22
JP5897107B2 JP5897107B2 (ja) 2016-03-30

Family

ID=46928421

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014502540A Active JP5897107B2 (ja) 2011-04-01 2011-11-02 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
JP2016046781A Active JP6198872B2 (ja) 2011-04-01 2016-03-10 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016046781A Active JP6198872B2 (ja) 2011-04-01 2016-03-10 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出

Country Status (6)

Country Link
US (2) US8756061B2 (ja)
EP (1) EP2695160B1 (ja)
JP (2) JP5897107B2 (ja)
KR (1) KR20130133858A (ja)
CN (2) CN103503060B (ja)
WO (1) WO2012134541A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
EP2645364B1 (en) * 2012-03-29 2019-05-08 Honda Research Institute Europe GmbH Spoken dialog system using prominence
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9767791B2 (en) * 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
KR102272453B1 (ko) 2014-09-26 2021-07-02 삼성전자주식회사 음성 신호 전처리 방법 및 장치
WO2016095218A1 (en) 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
TWI576834B (zh) 2015-03-02 2017-04-01 聯詠科技股份有限公司 聲頻訊號的雜訊偵測方法與裝置
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105976811B (zh) * 2016-04-27 2019-07-12 四川大学 一种包含声母的音节切分方法及装置
JP6897677B2 (ja) * 2016-06-15 2021-07-07 ソニーグループ株式会社 情報処理装置及び情報処理方法
WO2018049391A1 (en) * 2016-09-12 2018-03-15 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
KR102017244B1 (ko) 2017-02-27 2019-10-21 한국전자통신연구원 자연어 인식 성능 개선 방법 및 장치
CN107945809B (zh) * 2017-05-02 2021-11-09 大连民族大学 一种复调音乐多音高估计方法
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
JP7295839B2 (ja) 2017-07-10 2023-06-21 エスシーティアイ ホールディングス、インク 音節に基づく自動音声認識
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108766418B (zh) * 2018-05-24 2020-01-14 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
JP7159655B2 (ja) * 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
US10720151B2 (en) 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
CN109065070B (zh) * 2018-08-29 2022-07-19 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN109377981B (zh) * 2018-11-22 2021-07-23 四川长虹电器股份有限公司 音素对齐的方法及装置
WO2020132576A1 (en) * 2018-12-21 2020-06-25 Nura Holdings Pty Ltd Speech recognition using multiple sensors
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
KR102163862B1 (ko) * 2019-03-25 2020-10-12 한국과학기술원 멀티스케일 음성 감정 인식을 위한 전자 장치 및 그의 동작 방법
CN110033782B (zh) * 2019-04-11 2021-08-24 腾讯音乐娱乐科技(深圳)有限公司 单位时间内音节数量的计算方法及相关装置
CN110211574B (zh) * 2019-06-03 2022-03-11 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN110619867B (zh) 2019-09-27 2020-11-03 百度在线网络技术(北京)有限公司 语音合成模型的训练方法、装置、电子设备及存储介质
CN111063335B (zh) * 2019-12-18 2022-08-09 新疆大学 一种基于神经网络的端到端声调识别方法
GB2596169B (en) * 2020-02-11 2022-04-27 Tymphany Acoustic Tech Ltd A method and an audio processing unit for detecting a tone
CN111312224B (zh) * 2020-02-20 2023-04-21 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN113628612A (zh) * 2020-05-07 2021-11-09 北京三星通信技术研究有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
WO2022076923A1 (en) 2020-10-08 2022-04-14 Modulate, Inc. Multi-stage adaptive system for content moderation
CN113611281A (zh) * 2021-07-16 2021-11-05 北京捷通华声科技股份有限公司 一种语音合成方法、装置、电子设备及存储介质
CN114267375B (zh) * 2021-11-24 2022-10-28 北京百度网讯科技有限公司 音素检测方法及装置、训练方法及装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02205897A (ja) * 1989-02-03 1990-08-15 Toshiba Corp 有音検出装置
JPH05257496A (ja) * 1992-03-12 1993-10-08 Sekisui Chem Co Ltd 単語認識方式

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4594575A (en) 1984-07-30 1986-06-10 Ncr Corporation Digital processor for speech signals
US4975960A (en) 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
US5586215A (en) 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP2924555B2 (ja) 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5852669A (en) 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US5806036A (en) 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6185529B1 (en) 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US7117157B1 (en) 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR20040024870A (ko) 2001-07-20 2004-03-22 그레이스노트 아이엔씨 음성 기록의 자동 확인
US7209883B2 (en) 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7165029B2 (en) 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7472063B2 (en) 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7091409B2 (en) 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
US7454342B2 (en) 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US7505902B2 (en) 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
JP4533897B2 (ja) 2004-09-01 2010-09-01 パイオニア株式会社 処理制御装置、そのプログラム、および、そのプログラムを記録した記録媒体
US7392187B2 (en) 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US8738370B2 (en) 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
US7518631B2 (en) 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP2006031033A (ja) 2005-08-01 2006-02-02 Toshiba Corp 情報処理装置
US8209182B2 (en) 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
GB2433150B (en) 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
DE102006008260B3 (de) 2006-02-22 2007-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Analyse eines Audiodatums
US8825149B2 (en) 2006-05-11 2014-09-02 Northwestern University Systems and methods for measuring complex auditory brainstem response
JP4085130B2 (ja) 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
US8355915B2 (en) 2006-11-30 2013-01-15 Rao Ashwin P Multimodal speech recognition system
JP5245255B2 (ja) 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US8965762B2 (en) 2007-02-16 2015-02-24 Industrial Technology Research Institute Bimodal emotion recognition method and system utilizing a support vector machine
GB0703974D0 (en) 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
KR100925479B1 (ko) 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
JP2010230695A (ja) 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN101315733B (zh) * 2008-07-17 2010-06-02 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习系统发音评测的自适应方法
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8442832B2 (en) 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
EP2406787B1 (en) 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8406925B2 (en) 2009-07-01 2013-03-26 Honda Motor Co., Ltd. Panoramic attention for humanoid robots
US9511289B2 (en) 2009-07-10 2016-12-06 Valve Corporation Player biofeedback for dynamically controlling a video game state
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8589166B2 (en) 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
US8600749B2 (en) 2009-12-08 2013-12-03 At&T Intellectual Property I, L.P. System and method for training adaptation-specific acoustic models for automatic speech recognition
US9070360B2 (en) 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9548054B2 (en) 2012-05-11 2017-01-17 Mediatek Inc. Speaker authentication methods and related methods of electronic devices using calendar data
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02205897A (ja) * 1989-02-03 1990-08-15 Toshiba Corp 有音検出装置
JPH05257496A (ja) * 1992-03-12 1993-10-08 Sekisui Chem Co Ltd 単語認識方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015009768; Ozlem Kalinli, et al.: 'Prominence Detection Using Auditory Attention Cues and Task-Dependent High Level Information' IEEE Transactions on Audio, Speech, and Language Processing Vol. 17, No. 5, 200907, pp. 1009-1024, IEEE *

Also Published As

Publication number Publication date
JP5897107B2 (ja) 2016-03-30
JP2016128935A (ja) 2016-07-14
JP6198872B2 (ja) 2017-09-20
US8756061B2 (en) 2014-06-17
CN105023573A (zh) 2015-11-04
EP2695160A1 (en) 2014-02-12
KR20130133858A (ko) 2013-12-09
CN105023573B (zh) 2018-10-09
WO2012134541A1 (en) 2012-10-04
CN103503060A (zh) 2014-01-08
US20120253812A1 (en) 2012-10-04
US9251783B2 (en) 2016-02-02
EP2695160B1 (en) 2020-01-08
CN103503060B (zh) 2015-07-22
US20150073794A1 (en) 2015-03-12
EP2695160A4 (en) 2015-03-18

Similar Documents

Publication Publication Date Title
JP6198872B2 (ja) 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
US10424289B2 (en) Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors
US8676574B2 (en) Method for tone/intonation recognition using auditory attention cues
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
Karpov An automatic multimodal speech recognition system with audio and video information
Korvel et al. Highlighting interlanguage phoneme differences based on similarity matrices and convolutional neural network
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
Huang et al. Detecting Intelligibility by Linear Dimensionality Reduction and Normalized Voice Quality Hierarchical Features.
Kalinli Syllable segmentation of continuous speech using auditory attention cues
Rahman et al. Blocking black area method for speech segmentation
Vyas et al. An integrated spoken language recognition system using support vector machines
Kakouros et al. Attention based temporal filtering of sensory signals for data redundancy reduction
MingXuan et al. Research on Pathological Voice Recognition using Multi-Scale Convolutional Neural Network
Taleb et al. Language-Independent Bimodal System for Early Parkinson’s Disease Detection
Mahendran et al. Visually Impaired Voting Aids using Speech Processing and face Recognttion
Sukvichai et al. An Alternative Approach for Thai Automatic Speech Recognition Based on the CNN-based Keyword Spotting with Real-World Application
Dialect et al. Check for updates

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160301

R150 Certificate of patent or registration of utility model

Ref document number: 5897107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250