JP5737808B2 - 音響処理装置およびそのプログラム - Google Patents

音響処理装置およびそのプログラム Download PDF

Info

Publication number
JP5737808B2
JP5737808B2 JP2011188874A JP2011188874A JP5737808B2 JP 5737808 B2 JP5737808 B2 JP 5737808B2 JP 2011188874 A JP2011188874 A JP 2011188874A JP 2011188874 A JP2011188874 A JP 2011188874A JP 5737808 B2 JP5737808 B2 JP 5737808B2
Authority
JP
Japan
Prior art keywords
speech
signal
section
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011188874A
Other languages
English (en)
Other versions
JP2013050604A (ja
Inventor
小森 智康
智康 小森
信正 清山
信正 清山
礼子 齋藤
礼子 齋藤
亨 今井
亨 今井
真一 本間
真一 本間
今井 篤
篤 今井
都木 徹
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2011188874A priority Critical patent/JP5737808B2/ja
Publication of JP2013050604A publication Critical patent/JP2013050604A/ja
Application granted granted Critical
Publication of JP5737808B2 publication Critical patent/JP5737808B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号を処理する音響処理装置およびそのプログラムに関する。
テレビ放送やラジオ放送などのコンテンツを再生する際に、スピーチ(人の発話。ナレーション等。)を聞き取りやすくすることが求められる。スピーチ成分を強調するためにスピーチ成分を含む周波数帯域を強調する方法も考えられるが、この方法では、背景音(例えばスピーチの背景で流れる音楽など)のうち、スピーチの周波数帯域にあたる部分も強調されてしまう。
特許文献1には、ステレオ信号の相関を利用して、相関の低い音(異相成分)を小さくしてから、相関の高い音(同相成分)と再度ミキシングすることで、背景の音楽や効果音など(異相成分)を抑制する技術が記載されている。
特開2009−025500号公報
しかしながら、特許文献1に記載された技術では、同相成分と異相成分とを推定して分離して、異相成分のみを抑制しているため、例えばモノラルのスピーチ成分のない部分で、番組の背景音で使われる音楽のように同相成分の相対的な比率が元々小さいときに、異相成分の混合ゲインを小さくしすぎる場合がある。こうした場合、背景音のみの部分で、無相関成分を抑圧する処理は、ナレーションなど視聴者の注意をひきつける信号が含まれていないため、その抑圧処理による音質劣化は、スピーチと背景音が混在する部分よりも気になりやすく、耳障りなノイズ(例えばミュージカルノイズのようなノイズ)を発生させ、音質劣化をより気づきやすくしてしまうことがある。
本発明は、上記の課題認識に基づいて行なわれたものであり、異相成分と同相成分の混合ゲインを適切に調整することにより、聞き取りやすさの度合いを向上させることのできる音響処理装置およびそのプログラムを提供するものである。
また本発明は、特に、ナレーション信号(同相成分)と背景音信号(異相成分)とが混合された状態の入力音声を元に、耳障りなノイズを極力小さくしつつ、音楽や効果音などの背景音の音量を抑制することのできる音響処理装置およびそのプログラムを提供する。
[1]上記の課題を解決するため、本発明の一態様による音響処理装置は、入力音声信号に基づき、スピーチ音声信号と背景音信号とを推定し、前記入力音声信号を推定スピーチ音声信号と推定背景音信号とに分離する背景音分離部と、前記入力音声信号に基づき、または前記入力音声信号に関連する信号に基づき、前記入力音声信号がスピーチを含む音声区間であるかスピーチを含まない非音声区間であるかを判断し判断結果を出力する音声区間判断部と、前記音声区間判断部による前記判断結果が音声区間であるか非音声区間であるかに応じた方法で、信号の混合比を決定する混合比調整部と、前記入力音声信号と前記推定スピーチ音声信号と前記推定背景音信号との少なくともいずれかを、前記混合比調整部によって決定された混合比に基づいて混合し、出力音声信号として出力する混合部とを具備し、前記音声区間判断部は、前記入力音声信号に対応するラウドネス値が、所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する信号特徴抽出型区間検出部を音声区間検出手段の少なくとも一つとして具備することを特徴とする。
上記においてスピーチとは人の発話である。例えば、放送番組においては、ナレーションやアナウンスや演者によるその他の発話がスピーチに該当する。音声区間とは、スピーチを含む区間である。非音声区間とは、スピーチを含まない区間である。音声区間も非音声区間も、一般に効果音や背景音を含む。
所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する方法の具体例は、平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数との合計が、所定の閾値(1を含む)以上である場合に音声区間であると判断し、その他の場合に非音声区間であると判断することである。
[2]また、本発明の一態様は、上記の音響処理装置としてコンピューターを機能させるためのプログラムである。
本発明によれば、人の音声と背景音が混合された状態の番組のミキシングバランスを、放送等の受信機側で自動的に聴感に対応させて調整することができる。
本発明によれば、音声区間であるか非音声区間であるかに応じて、スピーチ音声を主成分とする推定スピーチ音声信号N’と、背景音を主成分とする推定背景音信号BG’の混合比を変える。これにより、音声区間の背景音の大きさと、音楽や効果音だけの区間の背景音の大きさを独立に変えることができる。音声区間と音楽や効果音だけの区間では、視聴者(特に高齢者視聴者)の好ましいと感じる、背景音の大きさは異なっていることわかっていることから、独立に変えることで、より聞きやすいバランスにカスタマイズして調整することもできる。
本発明の第1の実施形態による音響処理装置の機能構成を示すブロック図である。 同実施形態における背景音分離部が内部に備える同相成分抽出器の構成を示すブロック図である。 本発明の第2の実施形態による音響処理装置の機能構成を示すブロック図である。 本発明の第3の実施形態による音響処理装置の機能構成を示すブロック図である。 本発明の第4の実施形態による音響処理装置の機能構成を示すブロック図である。
以下、図面を参照しながら本発明の実施形態について説明する。
[第1の実施形態]
図1は、第1の実施形態による音響処理装置の機能構成を示すブロック図である。図示するように、音響処理装置1は、背景音分離部100と、音声区間判断部120と、混合比調整部140と、混合部150とを含んで構成される。また、音声区間判断部120は、言語特徴抽出型区間検出部121と、信号特徴抽出型区間検出部122と、字幕情報抽出型区間検出部123と、重み付け判断部130とを含んで構成される。
この音響処理装置1は、例えば、デジタルテレビ受信機の内部に組み込まれる。その場合、デジタルテレビ受信機が受信した番組の音声信号や字幕データ情報を、音響処理装置1の入力とする。
背景音分離部100に入力される入力音声は、ナレーション信号(N)と背景音信号(B)とが混合されたものである。よって同図では、入力音声の信号を「N+BG」と示している。背景音信号は、背景音楽や効果音などを含む音響信号である。この入力音声は、例えば、テレビやラジオ等の放送信号に含まれる音声信号である。また例えば、放送以外のコンテンツに含まれる音声信号を入力音声としても良い。
背景音分離部100は、上記の入力信号を元に、推定されたナレーション信号(N)である推定ナレーション信号(N’)と、推定された背景音信号(BG)である推定背景音信号(BG’)とを出力する。
字幕情報抽出型区間検出部123に入力される字幕データ情報(図では「d1」と示す)は、上記の入力音声と同期しており、入力音声に対応する字幕テキストの情報を含むデータである。必要に応じて、字幕データ情報が、PTS(プレゼンテーションタイムスタンプ)など、コンテンツの提示タイミングに関する情報を含むようにしても良い。
言語特徴抽出型区間検出部121は、入力音声が音声区間であるか否かを表わす信号(P1)を出力する。信号特徴抽出型区間検出部122は、入力音声が音声区間であるか否かを表わす信号(P2)を出力する。字幕情報抽出型区間検出部123は、入力音声が音声区間であるか否かを表わす信号(P3)を出力する。重み付け判断部130は、上記の信号P1,P2,P3に基づき、演算を行い、音声区間判断の結果を表わす信号(CP,Corrected Period)を出力する。
混合比調整部140は、上記の信号(CP)に基づき、推定ナレーション信号(N’)と推定背景音信号(BG’)の混合比を調整する。そして、混合部150は、混合比調整部140によって調整された混合比を用いて推定ナレーション信号(N’)と推定背景音信号(BG’)とを混合し、出力音声の信号(N+BG)’を出力する。
次に、各部の処理の概略について説明する。
背景音分離部100は、入力音声信号(N+BG)に基づき、スピーチ音声信号と背景音信号とを推定し、入力音声信号を推定スピーチ音声信号(N’,推定されたスピーチ音声信号)と推定背景音信号(BG’,推定された背景音信号)とに分離する。
音声区間判断部120は、入力音声信号(N+BG)に基づき、または入力音声信号に関連する信号(N+BGから推定されたN’や、N+BGと関連するタイミングで外部から取得される字幕データ情報等)に基づき、音声区間であるか非音声区間であるかを判断し判断結果(CP)を出力する。ここで、音声区間とは、入力音声信号がスピーチを含む区間である。また、非音声区間とは、入力音声信号がスピーチを含まず音楽や効果音等のみを含む区間である。
混合比調整部140は、音声区間判断部120による判断結果が音声区間であるか非音声区間であるかに応じて、音声区間の場合と非音声区間の場合とで異なった方法で、信号の混合比を決定する。つまり、音声区間判断部120から出力される判断結果に応じて、推定スピーチ音声信号N’と推定背景音BG’の混合比を、区間毎に変える。
混合部150は、混合比調整部140が決定した混合比で、スピーチ音声信号と背景音信号とを混合し、出力音声信号(N+BG)’として出力する。なお、後述するように、(N+BG)=(N’+BG’)として良いので、混合部150は、入力音声信号(N+BG)と推定スピーチ音声信号(N’)と推定背景音信号(BG’)との少なくともいずれかを、適宜用いることにより、混合比調整部140によって決定された混合比に基づく音声を出力することができる。
言語特徴抽出型区間検出部121は、ケプストラム等の特徴を用いて入力音声信号の統計的解析を行い、人の声であるスピーチ音声として連続している区間かどうかの判断を行い、音声の連続している区間であるか否かを表す情報P1を算出して出力する。具体的には、言語特徴抽出型区間検出部121は、入力音声信号に基づき、ケプストラム等の音響特徴量を抽出するとともに、音響特徴量とスピーチとの間の関係を表わす統計値および音響特徴量と非スピーチとの間の関係を表わす統計値を含んだ音響モデルを読み出して、抽出された音響特徴量に対するスピーチおよび非スピーチの各々の尤度(累積尤度)を算出し、算出された尤度に基づいて音声区間であるか非音声区間であるかを判断する。
信号特徴抽出型区間検出部122は、入力音声信号に対応するラウドネス値を求め、このラウドネス値が、所定時間内におけるラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する。一例としては、信号特徴抽出型区間検出部122は、ラウドネス値の平均値を基準として、ラウドネス値が所定幅以上上回る回数と所定幅以上下回る回数との和が、所定の閾値(例えば、1)以上であるかどうかに応じて、閾値を上回る場合には音声区間であると判断し、その他の場合には非音声区間であると判断する。
別の言い方をすると、信号特徴抽出型区間検出部122は、所定時間のフレーム毎に入力音声信号の音の大きさを検出し、その音の大きさの特徴から、人の声であるスピーチ音声が連続しているかどうかの判断を行い、スピーチ音声の連続している区間情報をP2として出力する。
字幕情報抽出型区間検出部123は、入力音声信号に対応する字幕データに基づき、スピーチに対応する字幕データが提示されるべきタイミングであるか否かに基づいて、音声区間であるか非音声区間であるかを判断する。字幕情報抽出型区間検出部123は、字幕データが提示されるべきタイミングであるか否かをP3の値として出力する。
つまり、言語特徴抽出型区間検出部121と信号特徴抽出型区間検出部122と字幕情報抽出型区間検出部123の各々は、異なる手法によって音声区間と非音声区間を検出するという意味で、判断結果が互いに異なり得る複数の型の音声区間検出手段である。
重み付け判断部130は、複数の型の音声区間検出手段の各々の判断結果を所定の重みで重み付けすることによって、複合された判断結果を求めて出力する。具体的には、重み付け判断部130は、言語特徴抽出型区間検出部121からの出力である判断結果P1と、信号特徴抽出型区間検出部122からの出力である判断結果P2と、字幕情報抽出型区間検出部123からの出力である判断結果P3のそれぞれに重み付けを行い、重み付けした結果の和が所定の閾値を超えるか否かに応じて、判断結果HCPを求める。さらに、HCPの変化を滑らかにするような補正処理を行って、補正処理後の判断結果CPを出力する。
次に、各部の処理の詳細について説明する。
[ナレーション音声と背景音との分離]
背景音分離部100は、ステレオ相関法を利用してナレーション音声信号と背景音信号を分離する。入力音声信号は、2チャンネルステレオ信号であり、左チャンネルをL、右チャンネルとRと表わす。左チャンネルLに含まれる背景音信号をLとし、右チャンネルRに含まれる背景音信号をRとし、ナレーション音声信号Cは完全に左右相関することを用いると、これらの信号の関係は下の式(1)で表わされる。
Figure 0005737808
また、各チャンネル間で同相な信号をCとして、無相関な信号をそれぞれL0,R0とすると、2チャンネルステレオ信号L,Rは、下の式(2)で表わすこともできる。
Figure 0005737808
この式(2)において、Cは2チャンネルステレオ信号の同相成分であり、このCには、ナレーション音声信号と、背景音信号の同相成分とが含まれている。
背景音分離部100は、2チャンネルの入力音声信号中から、同相成分であるナレーション音声信号Cのみを抽出して、このナレーション音声信号Cに対する、左側入力信号の無相関信号部分Lおよび右側入力信号の無相関信号部分Rの加算割合を制御することで、ナレーション音声信号Cのみを適正に制御することが可能になる。
図2は、背景音分離部100が内部に備える同相成分抽出器の構成を示すブロック図である。背景音分離部100は、2チャンネルステレオ信号から同相成分を抽出するために、この適応フィルタを用いる。
同図において、符号1Lおよび1Rは、入力される信号LおよびRの入力部である。信号入力部1Lおよび1Rの出力側は、それぞれ、適応フィルタ2Lおよび2R、フィルタ係数生成器3Lおよび3R、サンプル遅延器4Lおよび4Rに接続されている。
つまり、L側とR側の2チャンネルの離散信号ベクトルLおよびRがあるとき、時刻kにおける入力信号をL(k)およびR(k)とし、一方の入力信号L(k)を適応フィルタ2L、フィルタ係数生成器3L、サンプル遅延器4Lに入力させ、他方の入力信号R(k)を適応フィルタ2R、フィルタ係数生成器3R、サンプル遅延器4Rに入力させる。
適応フィルタ2Lおよび2Rには、それぞれ、フィルタ係数生成器3Lおよび3Rが接続され、これら適応フィルタ2L,2Rおよびフィルタ係数生成器3L,3Rによって、刻々と変化するフィルタ係数W,Wが得られる。
この適応フィルタ2L,2Rにおいて、時刻kにおける入力信号L(k)に適応フィルタ係数Wを畳み込み、得られる信号をC(k)とし、入力信号R(k)に適応フィルタ係数Wを畳み込み、得られる信号をC(k)とする。
また、サンプル遅延器4Lおよび4Rは、それぞれ、入力信号L(k)およびR(k)を、M/2(Mは適応フィルタ長)だけ遅延させた、信号L’(k)およびR’(k)を生成する。
なお、適応フィルタ2Lおよび2Rにおける適応信号処理には、FIR(Finite Impulse Response)フィルタやIIR(Infinite Impulse Response)フィルタ等の構成を用いることができるが、これらには限定されない。諸条件を考慮して、適応信号処理のフィルタ構成や更新アルゴリズムを適宜選択する。
適応フィルタ2Lおよび2Rの出力C(k),C(k)は、それぞれ、誤差信号算出用の演算器5Lおよび5Rに入力され、サンプル遅延器4Lおよび4Rの出力は、それぞれ、同じく誤差信号算出用の演算器5Lおよび5Rに入力される。演算器5Lにおいて、サンプル遅延器4Rからの出力R’(k)から適応フィルタ2Lの出力C(k)を差し引いた誤差信号errL(k)が生成される。また、演算器5Rにおいて、サンプル遅延器4Lからの出力L’ (k)から適応フィルタ2Rの出力C(k)を差し引いた誤差信号errR(k)が生成される。
生成された誤差信号errL(k)およびerrR(k)は、それぞれ、フィルタ係数生成器3Lおよび3Rにフィードバックされ、この誤差信号errL(k)およびerrR(k)を利用して、適応アルゴリズムにより逐次適応フィルタ2Lおよび2Rが更新され、フィルタ出力C(k)およびC(k)が得られる。
適応フィルタ2Lおよび2Rからの出力は、それぞれ、誤差信号算出用の演算器5Lおよび5Rとは別に、同相信号加算用演算器6にも出力される。この同相信号加算用の演算器6は、各適応フィルタ2Lおよび2Rからの出力C(k)とC(k)とを加算する。この同相信号加算用の演算器6の出力は、乗算器8において0.5倍され、その結果、同相信号出力部10からは、同相信号としてC’(k)=(C(k)+C(k))/2が出力される。
この同相信号抽出回路20は、信号入力部1Lに入力される信号L=C+L、および信号入力部1Rに入力される信号R=C+Rに対して、それらの同相成分Cを抽出し同相信号出力部10から出力する。同相信号抽出回路20は、NLSM(学習同定法:Normalized Least Mean Square Algorithm)を用い、ステップサイズパラメータは、μ=0.02、γ=0.000001(=1×10−6)である。そして、同相信号抽出回路20は、誤差であるerrL(k)とerrR(k)を最小とするよう更新を行うことで同相信号を抽出する。図示した同相信号抽出回路20における適応フィルタWおよびWの出力は、それぞれ、式(3)および式(4)で表わす通りである。
Figure 0005737808
Figure 0005737808
Figure 0005737808
上記のように、背景音分離部100は、左チャンネルの信号(L)および右チャンネルの信号(R)から、同相成分の信号Cを抽出することができる。式(1)および式(2)からもわかるように、この信号Cには背景音信号(BG)の同相成分も含まれている。そのため、信号Cは厳密にはナレーション音声信号(C=N)と同一ではないが、信号Cはナレーション音声信号Nの近似であるN’とすることができる。また、背景音分離部100は、入力音声信号LおよびRから、信号Cを減算して、それぞれ、無相関成分の信号LおよびRを得る。この信号LおよびRが、近似的な背景音信号BG’に相当する。つまり、背景音分離部100は、入力信号N+BGを、ナレーション信号(N)に近似すると推定される推定ナレーション信号(N’)と背景音信号(BG)に近似すると推定される推定背景音信号(BG’)に分離し、出力する。
[言語特徴抽出型の音声区間検出]
言語特徴抽出型区間検出部121は、言語が有する特有の音響的特徴を用いて音声区間の検出を行う。具体的には、言語特徴抽出型区間検出部121は、所定の言語における音素や語等に含まれる周波数やパワー等の特徴量を用いた確率モデルに基づいて、音声区間を検出する。
より具体的には、例えば特許第4791857号公報に示されている手法を用いる方法がある。詳細に説明すると、言語特徴抽出型区間検出部121は、累積音素尤度を利用して、音声区間(発話の始端と終端)を検出する。そのため、言語特徴抽出型区間検出部121は、複数の話者クラスタの各々について、予めサブワード音響モデルを記憶しておく。そして、言語特徴抽出型区間検出部121は、複数の話者クラスタのサブワード音響モデルを用いて、入力される音声(具体的には、背景音分離部100によって分離された推定ナレーション信号N’)に対して、サブワード単位の、スピーチと非スピーチに対応する累積尤度を算出する。ここでサブワードとは、例えば、音素や音節である。言語特徴抽出型区間検出部121は、入力音声に同期しながら少ない遅れ時間で上記の累積尤度を算出し、発話始端および発話終端を検出する。
さらに具体的に説明すると、次の通りである。サブワード音響モデルは、サブワードと音響的特徴量との間の統計的な確率分布に関するデータの集合を記憶媒体に記憶させたものである。また、サブワード音響モデルは、非スピーチ(発話されていない区間)に対しても同様に音響的特徴量の統計的確率分布のデータを保持している。サブワード音響モデルの話者クラスタ数が2であり、話者クラスタの集合が{A,B}であるとき、話者クラスタS∈{A,B}の非スピーチ音響モデルをsilと表わす。また、話者クラスタSのスピーチ音響モデルをphS,iと表わす。ここで、iは、音素や音節等のサブワードを指標する番号である。
言語特徴抽出型区間検出部121は、発話始端では、入力される音声信号を元に算出した音響特徴量に対応する可能性のある複数のサブワード列に対して、最尤サブワード列の累積尤度の対数値L1を逐次求める。このL1は、下の式(6)によって算出される。なお、xτ は、時刻τから現時刻tまでの音響特徴量の列である。また、hは、サブワード列を示す。
Figure 0005737808
また、言語特徴抽出型区間検出部121は、発話始端の非スピーチ音響モデルの累積尤度の対数値L2を逐次求める。このL2は、下の式(7)によって算出される。なお、話者クラスタSは、式(6)と式(7)とで共通である。
Figure 0005737808
また、言語特徴抽出型区間検出部121は、発話終端では、音響特徴量の列xτ に対応する可能性のある複数のサブワード列に対して、全話者クラスタのスピーチに対応する音響モデルに後続して非スピーチに対応する音響モデルのうち、最大の累積尤度の対数値L3を逐次求める。このL3は下の式(8)によって算出される。なお、xτ 発話の始端検出開始時刻τから現時刻tまでの音響特徴量の列である。
Figure 0005737808
更に、言語特徴抽出型区間検出部121は、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度の対数値L4を逐次求める。このL4は下の式(9)によって算出される。
Figure 0005737808
言語特徴抽出型区間検出部121は、発話始端においては、最尤サブワード列の累積尤度の対数値L1と、始端の非スピーチ音響モデルの累積尤度の対数値L2の差が一定の閾値θstartを超えた時、すなわち(L1−L2)>θstartとなる時、これを発話始端検出条件として、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長tstart遡った時刻を発話始端時刻とする。なお、この時間長tstartは、例えばアナウンサーがニュース原稿を読み上げるような一般的な音声速度の場合には約200msec(ミリ秒)程度が好ましいが、特に、時間長tstartについては限定されない。
一方、言語特徴抽出型区間検出部121は、発話終端においては、終端が非スピーチ音響モデルとなる最尤サブワード列のうち最大の累積尤度の対数値L3と、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値L4との差が、一定の閾値θendを時間長tend1継続して超えた場合、すなわち時間長tend1継続して(L3−L4)>θendとなるとき、これを発話終端検出条件として、現時刻tから時間長tend2遡った時刻を発話終端時刻とする。なお、時間長tend2は、時間長tend1を基準として、tend2<tend1の条件を満たして設定される時間長である。これは、時間長tend1が発話終端検出条件の基準であるため、実際の発話終端時刻を求めるための時間長として時間長tend1は長すぎることとなってしまうためである。このため、tend2<tend1の関係を満たす時間長tend2を設定することにより、実際の発話終端部により近い時刻を検出することができる。ここで、時間長tend2は、例えばニュース原稿を読み上げるような一般的な音声速度の場合には約200msec(ミリ秒)程度が好ましいが、特に、時間長tend2の値が限定されるものではない。
そしてこの場合、所定の時間tdelay1(約350msec)の観測時間後に、当該区間中央部までの音声区間が決まる。そこで、言語特徴抽出型区間検出部121は、時間tdelay1遡った時刻が音声区間か非音声区間かを示すデータを区間情報P1として出力する。tdelay1遡った時刻が音声区間であればP1=1.0を出力し、非音声区間であればP1=0.0を出力する。本実施形態では、言語特徴抽出型区間検出部121が、例えば、10msec毎に音声区間か非音声区間かを示すP1の値を出力すれば十分であるが、この時間間隔は10msecに限定されない。また、連続的にP1の値を出力し続けるようにしても良い。
[信号特徴抽出型の音声区間検出]
信号特徴抽出型区間検出部122は、音声波形の包絡情報や、パワー等の時間方向の変化の特徴量を利用して、音声区間を検出する。その方法の一例として、信号特徴抽出型区間検出部122は、ラウドネスの振幅変化の特徴量を用いて音声区間を検出する。
具体的には、信号特徴抽出型区間検出部122は、入力音声(N+BG)のラウドネス値を測定(算出)する。このラウドネス値は、例えば、ITU−R BS 1771に準拠するものである。そして、信号特徴抽出型区間検出部122は、所定時間内(例えば、2000msec)の間のラウドネスの平均値を算出し、当該所定時間内において、ラウドネス波形がその平均値プラスLホン(phon)のラインと交差した回数C、およびラウドネス波形がその平均値マイナスLホンのラインと交差した回数Cをそれぞれカウントする。そして、C+Cの値が所定の回数(例えば、1回)以上となった場合にその区間は音声区間であると判定し、その他の場合にその区間は非音声区間であると判定する。
なお、Lの値は、例えば3〜5程度とすることが好ましいが、この範囲の値に限定されない。Lの値は、放送番組等におけるナレーション音声と背景音の標準的な混合比率等に基づいて予め設定しておく。
この場合、所定の時間tdelay2(約1000msec)の観測時間後に、当該区間中央部までの音声区間が決まる。従って、信号特徴抽出型区間検出部122は、時間tdelay2遡った時刻が音声区間か非音声区間かを示すデータを区間情報P2として出力する。信号特徴抽出型区間検出部122は、時間tdelay2遡った時刻が音声区間であればP2=1.0を出力し、時間tdelay2遡った時刻が非音声区間であればP2=0.0を出力する。本実施形態では、信号特徴抽出型区間検出部122が、例えば、20msec毎に音声区間か非音声区間かを示すP2の値を出力すれば十分であるが、この時間間隔は20msecに限定されない。また、連続的にP2の値を出力し続けるようにしても良い。
[字幕情報抽出型の音声区間検出]
字幕情報抽出型区間検出部123は、デジタルテレビ放送の信号に含まれるデジタル字幕データを利用して、入力音声信号における音声区間を検出する。字幕情報抽出型区間検出部123は、デジタルテレビ放送の受信手段によって受信された字幕データを入力とする。なお、デジタルテレビ放送における字幕データの構造は、下記の参考文献に記載されている。
参考資文献:「補助データパケット形式で伝送されるデジタル字幕データの構造と運用」標準規格,ARIB STD−B37 2.4版,平成18年(2006年)3月14日,社団法人電波産業会
字幕情報抽出型区間検出部123は、テレビ放送受信機が受信した字幕データを受け取ると、直ちにその字幕データの解析を開始する。具体的には、字幕情報抽出型区間検出部123は、字幕データを解析し、字幕の有無を判断するとともに、字幕がある場合にはその字句解析を行う。そして、字幕データのうち、括弧「()」に囲まれた部分と、音符記号(♪)に後続する部分は、ナレーションやセリフ等のスピーチに対応しないものと判断する。また、字幕データのうち上記以外の部分は、ナレーションやセリフ等のスピーチに対応するものと判断する。つまり、字幕情報抽出型区間検出部123は、字幕データのない時間帯を、非音声区間と判断する。また、字幕データのある時間帯のうち、スピーチに対応しない字幕が表示される時間帯を、非音声区間と判断する。また、字幕データのある時間帯のうち、スピーチに対応する字幕が表示される時間帯を、音声区間と判断する。
そして、字幕情報抽出型区間検出部123は、音声区間か否かを示すデータP3を出力する。字幕情報抽出型区間検出部123は、音声区間においてはP3=1.0を出力し、非音声区間においてはP3=0.0を出力する。
[重み付け判断]
上記のように、言語特徴抽出型区間検出部121と信号特徴抽出型区間検出部122と字幕情報抽出型区間検出部123は、各々独自の手法によって音声区間であるか非音声区間であるかを判定し、判定結果として、それぞれP1,P2,P3を出力する。重み付け判断部130は、これらの値を用いて演算を行い、判断結果としてCPの値を出力する。具体的には、重み付け判断部130は、下の式(10)によって、音声区間判断値Dを算出する。
Figure 0005737808
ここで、α1、α2、α3はそれぞれの区間検出部に対応した重み値である。例えば、α=0.6, α=0.4, α=1.0 という重み値を用いることができるが、これらの値には限られない。P1とP2とP3の値はそれぞれ0.0または1.0であるので、上記のようなα,α,αを用いた場合にDが取り得る値の範囲は、0≦D≦2.0である。そして、字幕情報抽出型区間検出部123は、算出したDの値に基づいて、音声区間か非音声区間かを判断し、HCP(High Confidence Period)の値を求める。具体的には、字幕情報抽出型区間検出部123は、D≧1.0の場合にはHCP=1.0とし、D<1.0の場合にはHCP=0.0とする。
このように、複数の区間検出手段を用いて、それら各々の出力結果に基づき、重み付け判断部130が総合的に音声区間であるか否かを判断することにより、判断の精度が上がる。例えば、字幕情報抽出型区間検出部123による区間検出の精度は比較的高いが、番組中に字幕がオープンキャプションに切り替わった状況においては字幕情報抽出型区間検出部123による検出精度が急激に落ちる。また、予め字幕データを準備した番組ではなく、生放送の番組でリアルタイムに字幕データを生成させて放送信号に付与している場合には、字幕の提示のタイミングに遅延が生じるため、この場合も字幕情報抽出型区間検出部123による検出精度が落ちる。こういった状況においても、本実施形態のように複数の区間検出手段を用いることにより、トータルな検出精度の向上につなげることができる。
[補正処理]
重み付け判断部130は、算出したHCPの値に基づく補正処理を行う。具体的には、重み付け判断部130は、算出したHCPの値が連続して1.0となる時間がT以下の場合(その直前および直後におけるHCPの値は0.0)には、その区間のHCPの値を0.0に補正する。また、重み付け判断部130は、算出したHCPの値が連続して0.0となる時間がT以下の場合(その直前および直後におけるHCPの値は1.0)には、その区間のHCPの値を1.0に補正する。
言い換えれば、この補正処理は、音声区間と非音声区間との間での切り替えが起こったときに切り替え先の状態が所定の時間継続せずに切り替え元の状態に戻った場合には、当該切り替えは起こらなかったものとして切り替え元の状態を継続して判断結果として出力するものである。
上記のような補正処理により、重み付け判断部130から出力する値を滑らかに変化させることができる。上記の時間Tは、例えば1000msecに予め設定する。また、上記の時間Tは、例えば1000msecに予め設定する。また、TとTは、それぞれ1000msec以外の値としても良い。また、T≠Tであっても良い。そして、重み付け判断部130は、このように補正された後のHCPの値をCP(音声区間判定結果)として、出力する。
[混合比調整処理]
混合比調整部140は、音声区間評価部120から出力されたCPの値に基づき、N’とBG’を混合させる際の混合比を調整する。具体的には、混合比調整部140は、音声区間判断部120から出力されたCPの値に基づいて、背景音抑圧手法とゲイン制御手法とを切り替える。具体的には、混合比調整部140は、CP=1.0の区間では背景音抑圧手法を使用し、CP=0.0の区間ではゲイン制御手法を使用する。
背景音抑圧手法を使用する場合、混合比調整部140は、背景音分離部100から出力された推定ナレーション信号N’と推定背景音信号BG’の混合比が、下の式(11)の通りとなるように調整する。なお、Outは出力音声信号である。また、ここに示すβの値は一例であり、適宜変更可能である。
Figure 0005737808
また、ゲイン制御手法を使用する場合、混合比調整部140は、出力Outが下の式(12)の通りとなるように調整する。なお、(N+BG)は、背景音分離部100をスルーした入力音声信号である。また、ここに示すβの値は一例であり、適宜変更可能である。
Figure 0005737808
なお、背景音分離部100の処理から明らかなように、(N+BG)=(N’+BG’)であるので、式(12)を下の式(13)で置き換えても良い。
Figure 0005737808
このように、混合比調整部140は、CPの値に応じて異なる手法を切り替えて使用しながら、出力音声を調整する。
なお、音声区間と非音声区間が切り替わる前後1000msec程度でクロスフェードするようにしても良い。クロスフェードさせる区間での出力の一例は、下の式(14)の通りである。ここで、Outは切り替え後の出力であり、Outは切り替え前の出力である。Out式およびOutのそれぞれは、式(11)または式(12)のいずれかで表わされるものである。また、θはクロスフェードする区間における位相であり、0からπ/2まで増加する。このようにクロスフェードさせることにより、より自然な出力音声を得ることができる。
Figure 0005737808
混合部150は、混合比調整部140による上記の調整に従って、前段からの音声信号を処理し、出力音声(N+BG)’として出力する。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。図3は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置2が第1の実施形態と異なる点は、音声区間判断部120Aが、言語特徴抽出型区間検出部121による検出結果のみに基づいて最終的なCP(音声区間判定結果)を出力している点である。言語特徴抽出型区間検出部121の機能自体は、第1の実施形態におけるそれと同様である。また、音声区間判断部120Aは、信号特徴の抽出に基づく区間検出(第1の実施形態における符号122)や、字幕情報の抽出に基づく区間検出(第1の実施形態における符号123)を行う機能を有していない。また、音声区間判断部120Aは、一種類の方法のみで音声区間の検出を行うため、重み付け判断(第1の実施形態における符号130)を行う機能を有していない。但し、音声区間判断部120Aから出力する値を滑らかに変化させることを目的として、第1の実施形態において行っている補正処理と同様の処理を、言語特徴抽出型区間検出部121が行うようにしても良い。
第2の実施形態は、第1の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。
[第3の実施の形態]
次に、本発明の第3の実施形態について説明する。図4は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置3が第1の実施形態と異なる点は、音声区間判断部120Bが、信号特徴抽出型区間検出部122による検出結果のみに基づいて最終的なCP(音声区間判定結果)を出力している点である。信号特徴抽出型区間検出部122の機能自体は、第1の実施形態におけるそれと同様である。また、音声区間判断部120Bは、言語特徴の抽出に基づく区間検出(第1の実施形態における符号121)や、字幕情報の抽出に基づく区間検出(第1の実施形態における符号123)を行う機能を有していない。また、音声区間判断部120Bは、一種類の方法のみで音声区間の検出を行うため、重み付け判断(第1の実施形態における符号130)を行う機能を有していない。但し、音声区間判断部120Bから出力する値を滑らかに変化させることを目的として、第1の実施形態において行っている補正処理と同様の処理を、信号特徴抽出型区間検出部122が行うようにしても良い。
第3の実施形態は、第1の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。
[第4の実施の形態]
次に、本発明の第4の実施形態について説明する。図5は、同実施形態による音響処理装置の機能構成を示すブロック図である。この音響処理装置4が第1の実施形態と異なる点は、音声区間判断部120Cが、字幕情報抽出型区間検出部123による検出結果のみに基づいて最終的なCP(音声区間判定結果)を出力している点である。字幕情報抽出型区間検出部123の機能自体は、第1の実施形態におけるそれと同様である。また、音声区間判断部120Cは、言語特徴の抽出に基づく区間検出(第1の実施形態における符号121)や、信号特徴の抽出に基づく区間検出(第1の実施形態における符号122)を行う機能を有していない。また、音声区間判断部120Cは、一種類の方法のみで音声区間の検出を行うため、重み付け判断(第1の実施形態における符号130)を行う機能を有していない。但し、音声区間判断部120Cから出力する値を滑らかに変化させることを目的として、第1の実施形態において行っている補正処理と同様の処理を、字幕情報抽出型区間検出部123が行うようにしても良い。
第4の実施形態は、第1の実施形態と比較して、装置規模を相対的に小さくできるという利点がある。
以上、第1〜第4の実施形態について説明した。まとめると、音声区間と非音声区間とで異なるパラメータ(混合比率)を用いてスピーチ音声信号と背景音信号とを混合することにより、スピーチ音声の聞き取りやすさが向上する。加齢による聴覚特性の変化で、高齢者ほどスピーチを聞き取りにくい傾向もあるが、上述した実施形態では、スピーチ音声信号と背景音信号とを分けて制御することにより、聞き取りやすさが向上する。また、パラメータを適宜変えることにより、個人の聴覚特性に応じた出力音声を得ることもできる。
各実施形態による音響処理装置は、高精度に、音声区間と非音声区間を検出することができる。そして、音声区間では、背景音を抑圧する処理によって、マスキングの効果が有効に働き、耳障りなノイズが検知されにくくなる。これは、放送番組等の音声において、一般的にスピーチ音声が背景音よりも大きな音量でミキシングされていることと整合する。また、非音声区間では、ゲイン制御のみを行うことによって、耳障りなノイズが発生しないようにできる。このように音声区間か非音声区間かによって異なる制御をするために、すべての区間において、視聴者の主観としても、耳障りなノイズの発生を大幅に抑えることが可能となる。
また、音声区間であるか非音声区間であるかに応じて、視聴者にとって好ましい背景音の大きさが異なることを発明者は確認済みであり、この意味からも、音声区間である場合と非音声区間である場合とに応じて、背景音のラウドネス制御を異なるパラメータで行えるようにしたことの効果が得られる。
なお、上述した実施形態における音響処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、第1〜第4の各実施形態における背景音分離部100は、ステレオ相関法によってナレーション音声信号と背景音信号とを分離することとしたが、他にも、スペクトルサブトラクション法(spectral subtraction method)やウィナーフィルター(Wiener Filter)などの手法を用いるようにしても良い。
また、例えば、第1または第2の実施形態における言語特徴抽出型区間検出部121は、背景音分離部100によって分離された推定ナレーション信号(N’)を入力として音声区間および非音声区間の検出を行ったが、代わりに、分離される前の入力音声信号(N+BG)に基づいて音声区間および非音声区間の検出を行うようにしても良い。
また、例えば、第1〜第4の各実施形態における混合部150は、背景音分離部100から(N+BG)の信号を受けるようにしているが、既に述べたように前記の式(12)を式(13)で置き換えることが可能であるので、この(N+BG)の信号の受け渡しを行わないようにしても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
[試聴実験について]
発明者らは、第1の実施形態による音響処理装置を実現し、実際の放送番組から取得した音声および字幕データを用いて、音声区間であるか否かに応じて異なる方法によって、推定ナレーション音声信号と推定効果音信号とを混合させる実証実験を行った。そして、複数の被験者によってスピーチ音声の聞き取りやすさを試聴実験した結果、従来技術よりも聞き取りやすさが改善されたことが確認できた。特に、被験者からは、自然・歪みがあまりない出力音声であるという評価が得られた。
本発明は、例えば、テレビやラジオ等の放送受信機に利用することができる。また、放送に限らず、人の音声(ナレーション等)と背景音(効果音や背景音楽等)とが混合されたコンテンツを再生する装置に利用することができる。
1,2,3,4 音響処理装置
1L,1R 信号入力部
2L,2R 適応フィルタ
3L,3R フィルタ係数生成器
4L,4R M/2サンプル遅延器
5L,5R (誤差信号算出用)演算器
6 (同相信号加算用)演算器
8 乗算器
10 同期信号出力部
100 背景音分離部
120,120A,120B,120C 音声区間判断部
121 言語特徴抽出型区間検出部(音声区間検出手段)
122 信号特徴抽出型区間検出部(音声区間検出手段)
123 字幕情報抽出型区間検出部(音声区間検出手段)
124 重み付け判断部
140 混合比調整部
150 混合部

Claims (2)

  1. 入力音声信号に基づき、スピーチ音声信号と背景音信号とを推定し、前記入力音声信号を推定スピーチ音声信号と推定背景音信号とに分離する背景音分離部と、
    前記入力音声信号に基づき、または前記入力音声信号に関連する信号に基づき、前記入力音声信号がスピーチを含む音声区間であるかスピーチを含まない非音声区間であるかを判断し判断結果を出力する音声区間判断部と、
    前記音声区間判断部による前記判断結果が音声区間であるか非音声区間であるかに応じた方法で、信号の混合比を決定する混合比調整部と、
    前記入力音声信号と前記推定スピーチ音声信号と前記推定背景音信号との少なくともいずれかを、前記混合比調整部によって決定された混合比に基づいて混合し、出力音声信号として出力する混合部と、を具備し、
    前記音声区間判断部は、前記入力音声信号に対応するラウドネス値が、所定時間内における前記ラウドネス値の平均値を基準として所定幅以上上回る回数と所定幅以上下回る回数とをカウントし、この回数に基づいて音声区間であるか非音声区間であるかを判断する信号特徴抽出型区間検出部を音声区間検出手段の少なくとも一つとして具備する、
    ことを特徴とする音響処理装置。
  2. コンピューターを、請求項1に記載の音響処理装置として機能させるためのプログラム。
JP2011188874A 2011-08-31 2011-08-31 音響処理装置およびそのプログラム Active JP5737808B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011188874A JP5737808B2 (ja) 2011-08-31 2011-08-31 音響処理装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011188874A JP5737808B2 (ja) 2011-08-31 2011-08-31 音響処理装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013050604A JP2013050604A (ja) 2013-03-14
JP5737808B2 true JP5737808B2 (ja) 2015-06-17

Family

ID=48012667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011188874A Active JP5737808B2 (ja) 2011-08-31 2011-08-31 音響処理装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5737808B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8811629B1 (en) 2013-09-09 2014-08-19 Voyetra Turtle Beach, Inc. Automatic volume control for combined game and chat audio
CN104424956B9 (zh) 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
WO2015097818A1 (ja) 2013-12-26 2015-07-02 株式会社 東芝 テレビシステムとサーバ装置及びテレビ装置
WO2015097826A1 (ja) 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
WO2015097831A1 (ja) * 2013-12-26 2015-07-02 株式会社東芝 電子機器、制御方法およびプログラム
JP6143887B2 (ja) * 2013-12-26 2017-06-07 株式会社東芝 方法、電子機器およびプログラム
JP6313619B2 (ja) * 2014-03-20 2018-04-18 日本放送協会 音声信号処理装置及びプログラム
CN110827843B (zh) * 2018-08-14 2023-06-20 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
CN110246506A (zh) * 2019-05-29 2019-09-17 平安科技(深圳)有限公司 人声智能检测方法、装置及计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05173592A (ja) * 1991-12-25 1993-07-13 Matsushita Electric Ind Co Ltd 音声/非音声判別方法および判別装置
JPH09154093A (ja) * 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 映像・音声再生装置
JPH09319393A (ja) * 1996-05-24 1997-12-12 Hitachi Ltd 音声認識翻訳システム
JP3933909B2 (ja) * 2001-10-29 2007-06-20 日本放送協会 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
JP4791857B2 (ja) * 2006-03-02 2011-10-12 日本放送協会 発話区間検出装置及び発話区間検出プログラム
JP4952698B2 (ja) * 2008-11-04 2012-06-13 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
JP2011059186A (ja) * 2009-09-07 2011-03-24 Gifu Univ 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体

Also Published As

Publication number Publication date
JP2013050604A (ja) 2013-03-14

Similar Documents

Publication Publication Date Title
JP5737808B2 (ja) 音響処理装置およびそのプログラム
JP6801023B2 (ja) ボリューム平準化器コントローラおよび制御方法
US7974838B1 (en) System and method for pitch adjusting vocals
JP4336364B2 (ja) テレビジョン受像機
US7162045B1 (en) Sound processing method and apparatus
KR101538623B1 (ko) 두 개의 입력 오디오 신호 믹싱 방법, 및 이를 실행하기 위한 디코더 및 컴퓨터 판독가능한 매체, 및 입력 오디오 신호 믹싱 디바이스
EP2194733B1 (en) Sound volume correcting device, sound volume correcting method, sound volume correcting program, and electronic apparatus.
JP2011501486A (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
JP2002078100A (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
US20110071837A1 (en) Audio Signal Correction Apparatus and Audio Signal Correction Method
US8750529B2 (en) Signal processing apparatus
WO2006051586A1 (ja) 音響電子回路及びその音量調節方法
US8837744B2 (en) Sound quality correcting apparatus and sound quality correcting method
JP2003274492A (ja) ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
US8099276B2 (en) Sound quality control device and sound quality control method
US20050246170A1 (en) Audio signal processing apparatus and method
JPH08179792A (ja) 音声処理装置
JP4922427B2 (ja) 信号補正装置
JP2002247699A (ja) ステレオ音響信号処理方法及び装置並びにプログラム及び記録媒体
JP2006333396A (ja) 音声信号拡声装置
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP3303446B2 (ja) 音声信号処理装置
JP3627189B2 (ja) 音響電子回路の音量調節方法
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150420

R150 Certificate of patent or registration of utility model

Ref document number: 5737808

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250