JP2019200259A - 音声と非音声の度合いの検出方法 - Google Patents

音声と非音声の度合いの検出方法 Download PDF

Info

Publication number
JP2019200259A
JP2019200259A JP2018093666A JP2018093666A JP2019200259A JP 2019200259 A JP2019200259 A JP 2019200259A JP 2018093666 A JP2018093666 A JP 2018093666A JP 2018093666 A JP2018093666 A JP 2018093666A JP 2019200259 A JP2019200259 A JP 2019200259A
Authority
JP
Japan
Prior art keywords
speech
amplitude
voice
signal
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018093666A
Other languages
English (en)
Other versions
JP6539829B1 (ja
Inventor
角元 純一
Junichi Kakumoto
純一 角元
村上 裕一
Yuichi Murakami
裕一 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2018093666A priority Critical patent/JP6539829B1/ja
Application granted granted Critical
Publication of JP6539829B1 publication Critical patent/JP6539829B1/ja
Publication of JP2019200259A publication Critical patent/JP2019200259A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

【課題】音声と音楽を識別する方法を提供する。【解決手段】一単位時間内の、特定の振幅の範囲と、その信号が振幅範囲にある時間の総計を測定する。全振幅を細分化し、振幅が個々の振幅範囲に入る時間の頻度分布から、振幅と頻度の関係を検証し、その特徴から、信号の性質が完全な音楽から完全なアナウンスまでの間のどの位置にあるかを判定する。【選択図】図1

Description

請求項で定義した用語と記号は明細書においても同様とする。
音響信号の振幅分布
音声信号の統計的性質について
音楽信号の統計的性質について
環境騒音や自然音の統計性質について
平滑化信号処理
ニュースや解説番組の音声を、楽曲やその他の信号と識別する手法の実状に関し、
前述の、特開 2002-366189 音楽と音声の識別検出方式 はカーオーディオやテレビ放送の再生信号の音質制御として2002年から2018年現在まで、そのアルゴリズムをDSPに組み込んで商品に使用している実績がある。
しかしながら、この方法には、これまで、複数回の改良を実施したものの、CPUの資源消費の許容限界もあって、下記のような場面での音質の完成度は満足できるレベルに達していないのが現状である。
天気予報番組の場合、BGMがアナウンスに合成されていることが多い。
ニュース番組の場合、取材する場所の環境騒音が入っていることが多い。
ドラマ番組の場合、環境音やBGMが合成されているのが一般的である。
実況中継や報道番組の場合、実況場所や取材場所の観客騒音や環境騒音が入っている。
など、音声とその他の信号が合成されていて、その合成比率も場面によって異なる。
この方法はアナウンスの無音時間の検出を基本としていることから、楽曲や騒音や雑音などの、小さいが切れ目のない信号が混じっている場合、音声が主体の信号であっても、音声である度合いがどの程度なのかの判定が難しい。
特開 2002-366189 音楽と音声の識別検出方式
無音時間の頻度を検出することで、音声と音楽を識別する方法に関する。
特開2010-152015 特許4439579
音質補正装置、音質補正方法及び音質補正用プログラム
特開平05-297883 音響信号処理装置および音響信号処理方法と音響信号判定装置
上記2件は、信号が 音声であるか と 音楽であるか を判定した結果を受けて 音質を決定する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特開平8-179791 音の可視化方法および装置
信号のスペクトル分析や、スペクトルのピーク値の周波数や強度の安定度や調和成分を検証することで、信号の性質を表示する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特表2010-530989 特許5395066
音声時間検出及び音声信号分類のための方法及び装置
信号のスペクトル分析とスペクトルの相関分析によるスペクトルの特徴による、音声時間の検出方法に関する
特開2011-85824 音響識別装置、その処理方法及びプログラム
信号のスペクトル分析によるスペクトルの特徴による、音声と音楽の判別方法に関する。
特開平7-64598 音声信号弁別装置およびオーディオ装置
音響信号をスペクトル分析し、周波数帯による強度の特徴の比較による音声と音楽の判別方法に関する
特開平8-179791、
特表2010-530989(特許5395066)、
特開2011-85824、
特開平7-64598、
上記4件は、信号のスペクトル分析やとスペクトルの相関分析によって、スペクトルの強度分布の特徴を捉える方法について、多数出願されているが、スペクトルの特徴だけで、それが音声であるか音楽であるか、それらの合成比率を判定するには曖昧な領域が存在し、その曖昧さをどのように検出するかの課題がある。
本案の着目点であるところの、請求項1に記述の入力信号の振幅の頻度について、PC上で実測できるGUIを試作し、代表的な信号について音声と非音声の合成比率を変えることで、振幅分布の変化の傾向を確認した結果を図1に示す。図1のグラフは、音声 と 音楽 の合成信号について、合成比率を変えた信号から それぞれの信号について10カ所ないし20カ所 を無作為に選び、それぞれ 1秒の一単位時間について、縦軸を振幅、横軸をそれぞれの振幅範囲にある時間の総和として プロットしたものである。横軸は振幅の頻度であるが、振幅の確率密度としても解釈できる。
縦軸はその時間内の最大信号が100%、横軸は1秒の一単位時間が100% である。
図1は、音声と音楽の合成比率によって振幅頻度がどのように変化するかを検証するために測定したものであって、合成比率を変えることによる曲線の特徴が 目視で確認できる程度に規則性をもっていること を示している。
(a)はニュース放送 と BGM向きの標準的な楽曲 の、
(b)はニュース放送 と 市街地の環境騒音 の、
(c)は女性の解説放送 と 急峻な変動がある金属弦ギターによるフラメンコ楽曲
の、それぞれ合成比率を変えての振幅に対応する頻度の測定結果である。音声も楽曲も騒音も、音源の種類はいくらでも存在するので、そこに完全な普遍性を見いだすことは難しいが、少なくとも日常的に耳にする音の信号では図1に示すグラフから、ある程度の共通性を見いだすことができる。
従って、カーオーディオやTVのセットに組み込むための音声と音楽を判定する機能は、商品の本質である主機能に差し支えのないCPUの資源消費の範囲で、最大限の効果を出さなければならない。
大量のデータベースにアクセスすることなくローカルで閉じているところの、リアルタイム性に勝れた簡素な信号処理方法でなければならない。簡素とは、時間軸の信号を周波数軸上の信号に変換する行程が必要な手法や、きめ細かくケースバイケースの統計処理を必要とする手法に比べ、大幅に簡素であることを意味する。
図1の(a)と(b)と(c)の、振幅が 15% 以下の小さい範囲でのグラフの傾きに着目すると、音声と非音声の合成比率と強い関係があることが確認できる。グラフは、音声の成分が大きい場合、振幅が 0 の付近で水平に近く、変曲点は顕著でない。
非音声の成分が大きい場合、頻度が 0の付近で垂直に近く、変曲点が顕著である。
本案は、図1の振幅対頻度曲線の特徴に着目するところの、音声から非音声までの成分の比率に対応した評価を数値で得る方法に関する。
音響信号の音声度と非音声度を数値で評価する方法。
完全な音声から完全な非音声に至る中間部を連続的で、かつ、安定した数値で結果を出す方法。
多様で、変化が頻繁で、曖昧な信号に対し、数値で評価した音声と非音声の度合いでもって、敏感な聴覚にとって違和感のない音質に制御する方法。
以上は、課題の一般的で抽象的な表現である。
そして、上記の課題には下記の二つの必要条件がある。
重要なことの第1は、
できる限り少ない、計算処理資源の消費で、上記の結果を出すことである。一例として、44.1kHz のサンプリング周波数で 5MIPS 程度を目安とする計算処理であれば、CPU資源消費に与える影響は大きくない。
重要なことの第2は、
完全な音声から完全な音楽まで連続的で安定した傾向として数値で表現できなければならない。
音声と非音声の中間点が出力数値の最大値と最小値の中間点にあることは必修である。特開 2002-366189 音楽と音声の識別検出方式 は出願当時から実用に供され現在も実機に使われている手法ではあるが、 5MIPS は満足されているものの、音声と非音声の中間領域で、音質が完全ではない。実状は、最大最小の範囲が広すぎることから、条件論理演算によって範囲に強力な制限がかけられている。完全な音声と完全な非音声に関しては問題ないが、強力な範囲制限が出力するところの広い中間範囲の数値 と 聴感が受ける自然感 との間に乖離があって、信号の種類に依存して替わり目に不自然さを感じるケースが少なくない。
人の感性が最終評価結果となることから全計算行程を一義的に決定することは適切ではなく、設計者の判断や、商品の性格によって選択できる融通性も持ち合わせていなければならない。
基準点を安定にしなければならない、という課題は、何をもって最大値と最小値にするかにある。入力信号が音響信号であることから 大きさの変化、種類の多様さ その範囲が極めて広いことに原因するところの難しさがある。
第1に、振幅頻度の性質を利用する。
一単位時間内の頻度の測定は、スペクトル分析による方法と比べ CPU資源 の消費が大幅に少ない。
第2に、振幅頻度を利用する場合、計算が容易で、かつ、簡素である。
振幅頻度の場合、一次差分、必要であれば二次差分、の計算が簡素であって、時間に対する変化の傾向分析に要するCPU資源の消費が小さくて済む。
第3に、振幅の頻度とその一次差分の測定結果を可変係数群との組み合わせによる乗算と加算のネットワークを通すことで、多様な入力信号と最適な聴感の関係を満足する係数群を見いだすことができる。聴感にとって最適な状態とは、数値としてのリファレンスではなく、人の感性と意思決定によるものであることから、計算手順もさることながら、多種多様な信号について聴感で確認しながら計算式に仕組まれる係数や定数を調節的に決定する。さらに機械的な手法として、多種多様な信号と聴感が求める結果との関係を学習させることで係数や定数の最適値を決定する。本案の手法は、計算処理構造と係数群の選択が設計の意思や目的にゆだねられなければならない課題に対し極めて有効である。
第1に、完全な音声から完全な非音声に至る中間の範囲で、連続的に数値で結果を出すことができる。
第2に、数値化の根拠を明確にすることができる。
第3に、多様性のある聴覚の判断に対し、計算結果に自由度を持たせることができる。
計算構造と係数群と定数群を設計的に決定する方法に関し、
実験的に決定する方法だけでなく、多数のサンプルとそれぞれの評価結果により学習的に決定する方法も選択できる。
第4に、少ないCPU資源消費で計算処理できる。
音声信号と非音声信号の合成比率を変えて測定したサンプル信号の振幅頻度 振幅頻度の数値データの一例 各種音響信号サンプルの振幅頻度 図1、図2、図3の振幅頻度をPC上で測定するところの一括処理用のGUI画面 請求項1、2、3、4、5、6、を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理用を想定したGUI画面 図5に示すGUIによる音声信号と非音声信号の合成比率を変えた信号の評価結果 図5に示すGUIによる、各種サンプル信号の評価結果 図6、図7、の結果を得るための、図5のGUIに代入した計算手順の一例
音声と音楽の度合いを判別し最適な音質を再生するTV用スピーカシステムとカーオーディオシステム。
(1)再生信号の種類に応じた最適な音質の制御プログラム。
(2)アナウンス信号に対し、加齢に伴う聴覚劣化を補う自動高明瞭化プログラム。
図1は、音声信号と非音声信号の合成比率を変えて測定した、サンプル信号の振幅頻度である。本案の可能性を検証するために測定したものである。
縦軸は振幅、横軸は頻度である。
(a)は、ニュース と 通常の楽曲、(b)は、ニュース と 環境ノイズ、
(c)は、ニュース と ギターとカスタネットの楽曲 のそれぞれについて、
ニュース信号に掛かる係数を k とし、 楽曲または環境ノイズに掛かる係数を 1-k として、k=0,2,4,5,6,8,10 と変化させた場合の合成信号について測定した振幅頻度である。いずれも、kの値が1に近づくに伴い、振幅が 15% から 25% の付近で曲線が直角に近くなり、振幅が 5% から 10% の付近で振幅頻度が急激に大きくなる。大雑把な評価では、振幅が 0% の付近の傾斜と 振幅が 30% の付近の値の比率によって、音声度 か 非音声度 かの判別結果の数値表示が可能であることを推測できる。
図2は、振幅頻度の数値表示の一例である。振幅の分割数は 20 の場合である。振幅の分割数と一単位時間の時間は 設計的に適正値を選択決定する。振幅の最大値を 100% とし、一単位時間の全時間を 100% とする。
S1、S2、、、Sn は供試信号の種類である。
D01 は 最低値 THD から 5% までの閾値の間の振幅頻度を示す。D02 から D20 は D01 と同様に、振幅の最大値の 1/20 きざみの閾値を示し、S1、S2、、、Sn の縦の欄は、それぞれの振幅頻度を示す。
図3は、各種音響信号のサンプルの振幅頻度測定結果である。
縦軸は振幅、横軸は頻度である。
(a)は解説、
(b)はニュース
(c)はニュース
(d)は解説とBGMの合成
(e)は雑談
(f)はギターによるフラメンコとカスタネット
(g)はギターによるフラメンコ
(h)は楽器演奏とボーカル
(i)はアカペラ
信号である。
(a),(b)、(c) は、ほぼ純粋のスピーチ信号であって、グラフは振幅が 10% の付近で急激に折れ曲がっている。
(d)、(e)は 純粋のスピーチと楽曲と環境騒音の合成信号であり、振幅が 10% の付近での曲がりは 純粋のアナウンスよりも緩く曲がっている。
(f)、(g)は楽器演奏であるが、歯切れの良い演奏であることから楽曲でも音声に近い性質を持つが、振幅が 10% の付近は緩く曲がっていて、振幅が 5% の付近での 振幅頻度は純粋のスピーチ信号よりも大幅に小さい。
(h)、(i) はボーカルが主体の楽曲である。いずれも、振幅が 10% の付近の曲がりはほとんどなく、振幅が 5% の付近では 振幅頻度は小さい。
(a)から(i)までのグラフは、図1で確認できるところの、k=1 から k=0 までのグラフの特徴と類似である。
図4は、図1、図2、図3の振幅頻度をPC上で測定する一括処理用のGUI画面である。(a)は操作画面である。音響信号のファイルのドラッグアンドドロップで、(b)のグラフを表示する。1 の黒色の横のバーは音響信号全体の時間軸を示す。2 の左 S がスタートポイント、右の E はエンドポイントである。中間の白色バーを左右に動かすことで、そのポイント付近の一単位時間の振幅頻度が(b)の窓にグラフで表示される。
縦軸は信号の振幅であって、100% はサンフ゜ル信号の全区間の振幅の最大値に対応する。横軸は振幅頻度である。グラフの基になるデータはファイルとして保存できる。複数のデータファイルをグラフの画面にドラッグアンドドロップすることで全てのデータを重ねて表示できる。
このGUIを使うことによって、多種多様で多数の音響信号についての結果を目視での比較評価ができることから、傾向を直感的に認識し、その傾向の客観的な分析へと、筋道をつけることができる。
図5は、請求項1を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理を想定したGUIの画面を示す。
図5のGUIの場合、振幅の最大値は供試された信号の全区間の最大値が 100% であることに対し、図6のGUIはリアルタイム処理を想定した信号処理となっていることから、縦軸の最大値は設計値としての最大値、即ち 2^15=32768 が 100% となっている。
(a)は、得られた一単位時間ごとの振幅頻度のデータを計算処理し、音声度と非音声度をグラフ表示するための計算手順の編集画面である。計算手順をファイルとして保存し、かつ読み出し、編集することができるので、目的とする結果を得るための複数の計算手順を比較検討することができる。音響信号を(b)の画面にドラッグアンドドロップすることでリアルタイム処理を想定した計算手順によって計算処理し、結果を(c)の画面にグラフ表示する。
1 は音響信号を再生した場合と同様な動作で、振幅の最大値を一定の値に保つコンプレッサーのパラメータ設定機能である。アタックタイム と レリースタイム と レリース動作を止める信号レベル を設定できる。
2 は、一単位時間の計算処理のパラメータ設定機能である。振幅の閾値の分解能 と 一単位の時間と信号処理結果の更新を休止する信号レベルを 設定できる。
3 は音声度と非音声度の最終結果と中間結果をグラフ表示するための計算処理手順の編集窓である。
4 はグラフ表示の横軸の分解能、
5 は計算過程の中間変数と結果の数値表示
6 はグラフ表示窓
7 はグラフ中のカーソル位置のグラフの縦軸の値である。
記載の計算手順の全ては一例である。
この設定例での、全振幅範囲の分割数は 30 である。従って それぞれの閾値間の頻度は Di, i=1,2,……30 である。
計算式に関する詳細は図8で説明する。
図6は、図5に示すGUIによる、音声信号と非音声信号の合成比率を変えた場合の音声度非音声度の計算結果である。それぞれの一単位時間ごとの計算結果であって、時系列的な平滑処理はされていない。y は音声度の最終結果、x と z は中間結果である。
縦軸は振幅、横軸は頻度である。
図7は、図5に示すGUIによる、各種サンプル信号の音声度非音声度の計算結果である。一単位時間ごとに算出された評価結果をもとに、時系列的な平滑処理を施したものである。図7の平滑処理は傾向を確認するために見やすくする程度であって、聴覚によって違和感のないレベルにまでは平滑化してはいない。どのような平滑化とするかについては設計的に決定するところなので、詳細説明を省略する。
(a)、(b)、(c)は ニュース
(d)は解説
(e)は雑談
(f)はドラマセリフ
(g)はBGMがある解説
(h)はBGMがある商品案内
(i)はBGMがある天気予報
(j)はラジオ体操
(k)は背景がひどくざわざわしている雑談
(l)、(m)はアカペラの楽曲
(n)、(o)、(p)、(q)はボーカル楽曲
の信号である。図中 y の曲線が音声度合いの強さを表す。
縦軸は振幅、横軸は頻度である。
音声度非音声度の計算式を図8に示す。
図8は、図6、図7の結果を得るための、図5のGUIに代入した計算手順の一例である。
1行目の 計算式 M=(1000/30)*Wax/32768 は、
測定中の一単位時間の振幅の最大値 Wmax を、入力信号の設計値の最大値であるところの、 2^5 即ち 32768 に対する 百分率の値に変換し、中間変数 M に代入する。
24ビット固定小数点 の場合の最大値は 2^23 である。
浮動小数点の場合の最大値は有効数字と桁数で表現される。
2行目から22行目までの [M>Di] A=Dx, x=,10,11,,,,,30 は 測定した最大振幅 M がどの閾値の範囲にあるかを見いだし、その 約1/3 の閾値に対応する振幅頻度 Dx を 中間変数 G に代入する行程である。入力信号はコンプレッションされている場合が一般的である。コンプレッサーは最大値と追従速度のパラメータを持っているが、実際の正確な最大値がどのレベルにあるかは定かではないので、計算処理による検証によって実際の振幅の最大値がどの閾値の範囲にあるかを割り出す必要がある。
最大振幅がどの閾値の範囲にあるかを割り出す方法は設計的に決定される。
A は中間変数である。
23行目の x=A は A の値のグラフ表示の指示である。
24行目の A=A+1 は、Aの値が 0 である場合、その後の計算行程での除算ができなくなる可能性を排除するために 1 を加えたものである。この場合の定数 1 は、
評価の範囲を適正にするための値であって、この値は設計的に決定される。
25行目の B=5*abs(D2-D1) は閾値が小さい区間の振幅頻度の傾斜を求める計算式である。計算結果がグラフに見やすい範囲となるよう 5 なる係数を乗じている。この場合の係数 5 は請求項1に記述の KK2 に相当する その他の KKi の値は 0 であり、最も簡素な評価計算式の一例である。
B は中間変数である。
26行目の z=B は このGUIが変数 z をグラフ表示するので、中間変数 B をグラフ表示する代入式である。
即ち、
x は振幅が最大の 1/3 付近の振幅頻度、
z は振幅が最小付近の振幅頻度の傾斜、即ち、振幅頻度一次差分値を表示する。
27行目の C=10*B/A は最大振幅の付近に対する最小振幅の付近の振幅頻度の比を求める計算式である。C の値が大きくなると信号の音声度合いの傾向が強く、逆に小さくなると、非音声度合いの傾向が強くなる。10 は一単位時間の評価結果の数値をグラフ上に見やすい高さにするための係数である。
28行目の D=0.95*D+0.05*C は時系列的に連続して得られる一単位時間の評価結果を時系列的にらかにするための平滑化処理である。平滑化の結果の 0.95倍 に新たな一単位時間の 0.05倍 を加える。定数 0.95 と 0.05 は平滑化パラメータの一例であって、この計算手順と、パラメータも設計的に決定される。28行目の計算手順は時系列で変動する数値を滑らかする手法の内、最も単純な方法の一例である。
29行目の E=C は このGUIが変数 y をグラフ表示するので、入力信号の 一単位時間ごとの音声度と非音声度をグラフに表すための代入式である。
32行目の y=E は グラフ表示変数 y に E を代入する。
平滑化した数値 D を表示する場合は ここで、 E=D とする。
図6と図7の結果が示すように、音声と非音声の度合いの数値化に関して 内分比率に応じた評価結果であることと 信号の種類に応じた評価結果が期待の範囲にあること がわかる。評価結果を出すに必要な行程は、
第1に、振幅を 20 ないし 30 程度に分割し、それぞれの閾値での頻度判定。
第2に、その頻度判定を一単位時間内ごとに実施。
第3に、頻度判定結果を基に、一単位時間内での最大振幅から最大振幅の閾値を求める。
第4に、最大振幅以下の閾値に対応する振幅頻度を求める。
第5に、振幅頻度から簡素な計算式で音声度と非音声度を数値化。
第6に、数値化された簡素な方法で音声非音声の度合いを時系列的に平滑化。
第7に、平滑化された音声非音声の度合いを音質制御信号とする。
である。
請求項1についての補足説明
例えば、信号が、サンプリング周波数が 44.1kHz の 符合付き 16ビット である場合、設計レベルでの最大の大きさは 2^15=32768 である。
例えば、30段階に等しい大きさの時間で設定する場合の Ri, i=0,1,2,3,,,,,n の
それぞれのスレッショルドは、 32768/30 ごとに設定される。
振幅頻度 Di, i=1,2,3,,,,,n は振幅がRi と Ri-1 の間にある サンプリングの個数に対応する。一単位時間が例えば 1秒 の場合、 サンプリング数 44100 個 が頻度 100% となる。
従って、Di に対応す頻度数を Ni とすると、Di の値は 100*Ni/44100 となる。
一単位時間の中の実働状態での入力信号の実測値の最大値は不明であることから、最大振幅に最も近い Rn, n=p を探さなければならない。
実測値 Wmax がどの閾値、即ち Rpに属するか、特定する方法の一つに、(1000/30)*Wmax/32768 の小数点以下の値を切り捨てた値を p の値として算出できる。
図5のGUIでは 小数点以下の値を切り捨てる機能を持っていないことから、M の値を最大値から小さい値へと順次比較し、Rp を特定し、振幅が最大値付近の Di-Di-1 を得る。
振幅が小さい付近では常に 0 ではない振幅頻度が理論的にも存在することから、D1,D2 あるいは DD1,DD2 のを使うことが有効である。
振幅が最大値の Dp-Dp-1 は値が極めて小さいことと、理論的に値が不正確であるケースが頻繁であることから、実用的には、図5の例に示すように、 t=P*/3 なるRt など 振幅頻度の曲線に変曲点が現れる付近の振幅頻度を選択することが有効である。
どの振幅の頻度をどのように利用するかは設計的に選択決定される。
音声度合いと非音声度合いの具体的な計算手順の例として次のような方法がある。
いずれも、図1の振幅頻度曲線の特徴から簡素な代数計算で判定できる手法である。
音声度合いの算出方法その1、
振幅が小さい付近の頻度が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、D1 もしくは D2 を用いる。
この場合、請求項1に記述F{} の要素として、 i が 1 または 2 の場合の Ki*Di を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その2、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、DD1=D1-D0 や DD2=D2-D1 などの、振幅が小さい付近の振幅頻度一次差分値を用いる。
この場合、請求項1に記述F{} の要素として、 i が 1 または 2 の場合の KKi*DDi を用いる方法が最も簡単な方法の一つである。
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その3、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
振幅が最大振幅の 1/3 付近の振幅頻度が小さい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
の双方を利用する。
この場合、Rp の ポインター p が最大振幅の閾値に対応するとき、
u=P/3 付近の 閾値 Ru の振幅頻度 Du と
D1=D1-D0 なる振幅頻度一次差分値を用いる。
F{} の要素として、Kt*Dt と、i が 1 の場合の KK1*DD1
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その4、
平面上の曲線の特徴抽出により音声度合いと非音声度合いを数値で表現する。
一次データである振幅頻度分布から、あらかじめ決められた主要部分の曲率を計算し、
複数の曲率データを、あらかじめ決定されている音声度合いと非音声度合いを算出する計算式に代入し、音声度合いと非音声度合いを数値で得る。
音声度合いの算出方法その5、
計算式を一般式の形で表現しておいて、計算式の中に埋め込んである係数や定数の最適値を学習方式で決定する方法。
請求項2と請求項3についての補足説明
音声度と非音声度は相反する傾向にあることから、音声度から非音声度の総和を一定値として、一方の値を求めることで、他の一方を決定することもできる。もともと、音声度と非音声度は曖昧な評価を含んでいることから、厳密に定義することは重要ではない。
そこそこで、違和感のない結果が求められることから、音声度と非音声度の総和を一定の値として機能させることでも充分実用になる。
請求項4についての補足説明
音声度と非音声度の一次データは一単位時間ごとの変動が激しく、平滑化の行程を必要とする。図5と図8に示すところの、 E=0.95E*0.05*D は最も簡素な時系列信号の平滑化の計算式である。前回までの平滑出力の 95% に 新たな結果の 5% を加えて 新たな平滑化信号とする。一単位時間の 約20倍 の時定数 を持つ平滑化に相当する。
図5と図8の場合、一単位時間が 0.3秒 であることから、時定数換算で 約6秒 となるが、音質変化に違和感のない実用的なコンシューマ商品に組み込む場合、時定数換算で 10秒 くらいが適切な選択の一つであることが実験上、確認されている。
本案の本質は音声度と非音声度の一次データを公知の方法で平滑することであって、平滑化の形式やパラメータは設計的に選択決定される。
請求項5についての補足説明
入力信号が、設計された範囲の最大値より大幅に小さい場合、検出した信号の音声度、非音声度を評価する必要がないケースがほとんどである。従って信号の大きさが小さい場合、平滑化の応答速度を遅くすることで、音声度と非音声度の判定を安定化することができる。例えば、音声信号の場合、音声信号は強度が 0 に近い頻度が多いことから、背景雑音が大きい場合、信号が小さい領域で非音声と判定する確率が増え、判定結果が不安定になる。入力信号が小さい場合、平滑化の応答速度を遅くすることで、聴感上の自然さを損なうことなく判定結果を安定させることができる。
この場合、一例として、図5と図8に示すところの、 E=0.95E*0.05*D の定数 0.95 と 0.05 の値を、測定した Wmax の値に連動させることで簡単に具現化できる。
請求項6についての補足説明
請求項6は、無音時間が長く続く信号に対し、無音時間をどのような信号処理をするか、という対処方法に関する。音声度と非音声度の制御が常時機能すると、小さな雑音や背景音にも応答し、音声信号の時間であるにもかかわらず非音声として、逆に、非音声の時間であるにもかかわらず音声として検出する機会が増えて不都合が生じる場面が多い。
信号が一定値以下の大きさの場合は音声度と非音声度の評価結果にかかわらず、平滑化の動作を休止する方法が最も簡素で有効な方法であることを実験的に確認できる。
例えば、何かの解説番組で背景に背景音があって、微少信号が長く続く場面は多い。
このような場面では非音声として応答し、非音声の音質に変わる。次に音声が入ると、
非音声の音質から始まるので全体に音質の変化の頻度が多く、違和感を感じる機会が増える。
入力信号の振幅が特定の値より小さい場合、平滑化を休止することで、判定結果の安定化を図ることができる。
請求項6は請求項5とは独立しているが、双方の機能を併用することで、なお一層、判定結果の安定化を図ることができる。
平滑化を休止する信号の大きさは設計的に決定する。
音質制御についての補足説明
音質制御は多種多様な方法がある。音質の自動制御に適した最も簡単な方法の一つは、
音声と非音声に適した、それぞれの音質に対応するところの、独立したフィルターを設けておいて、それぞれのフィルターの出力に係数器を設け、制御信号で係数を制御し、全てのフィルターの係数器の出力を合成する方法である。音声用のフィルターと非音声用のフィルターの双方の出力に係数器を設ける。そして、本案を応用する場合は、音声度の評価値の平滑化信号で音声用のフィルターの係数を制御し、非音声度の評価値の平滑化信号で非音声用の係数を制御し、双方の係数器の出力を加算信号を再生信号とする。
図1
横軸 Probability 振幅頻度
縦軸 AMP 振幅
K 1 から 0 まで変化する係数
News*k ニュース信号に 係数 k を乗じた信号
Average-Music*(1-k) 平均的な音楽信号に 係数 (1-k) を乗じた信号
Environment-Noise(1-k) 環境ノイズ信号に 係数 (1-k) を乗じた信号
Crisp-Guitar-Music(1-k) 歯切れの良いギター音楽信号に 係数 (1-k) を乗じた信号
図2
Class Di i=01,02,03,,,,,20 振幅を 20分割 した場合の振幅頻度のデータ名称
Amphitude Range[%] THD,005,010,,,,,100 最大振幅を 100% とする各閾値
S1,S2,,,,Sn 縦軸の数値 サンプル信号 と 各閾値に対応する振幅頻度
図3
Speech 音声度合いが強い傾向
Non-Speech 非音声度合いが強い傾向
Commentary 解説、
News ニュース
Commentary+BGM 解説とBGMの合成
Talk 雑談
Furamenco-Guitar & Castanet ギターによるフラメンコとカスタネット
Furamenco-Guitar ギターによるフラメンコ
Music & vocal 楽器演奏とボーカル
A Cappella アカペラ
図4
1 ドラッグアンドドロップされた信号のスタートからエンドまでの時間軸を示す。
2 中央の白いツマミは振幅頻度を検証する時間位置を表示
Probabihity 振幅頻度
AMP 振幅
図5
1 入力信号のコンプレッサーのパラメータ入力部
2 一単位時間の時間長、振幅頻度測定の分解能、信号処理を休止する振幅 の設定
3 計算処理の手順を編集する窓
4 表示グラフの横幅の設定
5 計算過程の各変数の数値表示窓
6 グラフ表示窓
7 y は音声度のグラフ
図6
x 最大振幅の 1/3 付近の振幅頻度
z 小さい振幅の振幅頻度の傾斜
y 音声度非音声度の一単位時間ごとの計算結果
(1) (音声信号強度):(非音声信号強度)=0:10 の場合
(2) (音声信号強度):(非音声信号強度)=2:8 の場合
(3) (音声信号強度):(非音声信号強度)=4:6 の場合
(4) (音声信号強度):(非音声信号強度)=5:5 の場合
(5) (音声信号強度):(非音声信号強度)=6:4 の場合
(6) (音声信号強度):(非音声信号強度)=8:2 の場合
(7) (音声信号強度):(非音声信号強度)=10:0 の場合
図7
x 振幅が大きい付近の振幅頻度の傾斜
z 振幅が小さい付近の振幅頻度の傾斜
y x/z
(a)、(b)、(c) ニュース
(d) 解説
(e) 雑談
(f) ドラマセリフ
(g) BGMがある解説
(h) BGMがある商品案内
(i) BGMがある天気予報
(j) ラジオ体操
(k) 背景がひどくざわざわしている雑談
(l)、(m) アカペラの楽曲
(n)、(o)、(p)、(q) ボーカル楽曲
図8
M 中間変数
Wmax 一単位時間の最大振幅
Di, i=4,5,6,7,8,9,10閾値 Ri と Ri-1 の間の振幅頻度
A,B,C,D 中間変数
x 最大振幅の 約1/3 付近の振幅頻度のグラフ表示
z 振幅が小さい付近の振幅頻度の傾斜のグラフ表示
y 音声度の計算結果


















請求項で定義した用語と記号は明細書においても同様とする。
音響信号の振幅分布
音声信号の統計的性質について
音楽信号の統計的性質について
環境騒音や自然音の統計性質について
平滑化信号処理
ニュースや解説番組の音声を、楽曲やその他の信号と識別する手法の実状に関し、
前述の、特開 2002-366189 音楽と音声の識別検出方式 はカーオーディオやテレビ放送の再生信号の音質制御として2002年から2018年現在まで、そのアルゴリズムをDSPに組み込んで商品に使用している実績がある。
しかしながら、この方法には、これまで、複数回の改良を実施したものの、CPUの資源消費の許容限界もあって、下記のような場面での音質の完成度は満足できるレベルに達していないのが現状である。
天気予報番組の場合、BGMがアナウンスに合成されていることが多い。
ニュース番組の場合、取材する場所の環境騒音が入っていることが多い。
ドラマ番組の場合、環境音やBGMが合成されているのが一般的である。
実況中継や報道番組の場合、実況場所や取材場所の観客騒音や環境騒音が入っている。
など、音声とその他の信号が合成されていて、その合成比率も場面によって異なる。
この方法はアナウンスの無音時間の検出を基本としていることから、楽曲や騒音や雑音などの、小さいが切れ目のない信号が混じっている場合、音声が主体の信号であっても、音声である度合いがどの程度なのかの判定が難しい。
特開 2002-366189 音楽と音声の識別検出方式
無音時間の頻度を検出することで、音声と音楽を識別する方法に関する。
特開2010-152015 特許4439579
音質補正装置、音質補正方法及び音質補正用プログラム
特開平05-297883 音響信号処理装置および音響信号処理方法と音響信号判定装置
上記2件は、信号が 音声であるか と 音楽であるか を判定した結果を受けて 音質を決定する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特開平8-179791 音の可視化方法および装置
信号のスペクトル分析や、スペクトルのピーク値の周波数や強度の安定度や調和成分を検証することで、信号の性質を表示する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特表2010-530989 特許5395066
音声時間検出及び音声信号分類のための方法及び装置
信号のスペクトル分析とスペクトルの相関分析によるスペクトルの特徴による、音声時間の検出方法に関する
特開2011-85824 音響識別装置、その処理方法及びプログラム
信号のスペクトル分析によるスペクトルの特徴による、音声と音楽の判別方法に関する。
特開平7-64598 音声信号弁別装置およびオーディオ装置
音響信号をスペクトル分析し、周波数帯による強度の特徴の比較による音声と音楽の判別方法に関する
特開平8-179791、
特表2010-530989(特許5395066)、
特開2011-85824、
特開平7-64598、
上記4件は、信号のスペクトル分析やとスペクトルの相関分析によって、スペクトルの強度分布の特徴を捉える方法について、多数出願されているが、スペクトルの特徴だけで、それが音声であるか音楽であるか、それらの合成比率を判定するには曖昧な領域が存在し、その曖昧さをどのように検出するかの課題がある。
本案の着目点であるところの、請求項1に記述の入力信号の振幅の頻度について、PC上で実測できるGUIを試作し、代表的な信号について音声と非音声の合成比率を変えることで、振幅分布の変化の傾向を確認した結果を図1に示す。図1のグラフは、音声 と 音楽 の合成信号について、合成比率を変えた信号から それぞれの信号について10カ所ないし20カ所 を無作為に選び、それぞれ 1秒の一単位時間について、縦軸を振幅、横軸をそれぞれの振幅範囲にある時間の総和として プロットしたものである。横軸は振幅の頻度であるが、振幅の確率密度としても解釈できる。
縦軸はその時間内の最大信号が100%、横軸は1秒の一単位時間が100% である。
図1は、音声と音楽の合成比率によって振幅頻度がどのように変化するかを検証するために測定したものであって、合成比率を変えることによる曲線の特徴が 目視で確認できる程度に規則性をもっていること を示している。
(a)はニュース放送 と BGM向きの標準的な楽曲 の、
(b)はニュース放送 と 市街地の環境騒音 の、
(c)は女性の解説放送 と 急峻な変動がある金属弦ギターによるフラメンコ楽曲
の、それぞれ合成比率を変えての振幅に対応する頻度の測定結果である。音声も楽曲も騒音も、音源の種類はいくらでも存在するので、そこに完全な普遍性を見いだすことは難しいが、少なくとも日常的に耳にする音の信号では図1に示すグラフから、ある程度の共通性を見いだすことができる。
従って、カーオーディオやTVのセットに組み込むための音声と音楽を判定する機能は、商品の本質である主機能に差し支えのないCPUの資源消費の範囲で、最大限の効果を出さなければならない。
大量のデータベースにアクセスすることなくローカルで閉じているところの、リアルタイム性に勝れた簡素な信号処理方法でなければならない。簡素とは、時間軸の信号を周波数軸上の信号に変換する行程が必要な手法や、きめ細かくケースバイケースの統計処理を必要とする手法に比べ、大幅に簡素であることを意味する。
図1の(a)と(b)と(c)の、振幅が 15% 以下の小さい範囲でのグラフの傾きに着目すると、音声と非音声の合成比率と強い関係があることが確認できる。グラフは、音声の成分が大きい場合、振幅が 0 の付近で水平に近く、変曲点は顕著でない。
非音声の成分が大きい場合、頻度が 0の付近で垂直に近く、変曲点が顕著である。
本案は、図1の振幅対頻度曲線の特徴に着目するところの、音声から非音声までの成分の比率に対応した評価を数値で得る方法に関する。
音響信号の音声度と非音声度を数値で評価する方法。
完全な音声から完全な非音声に至る中間部を連続的で、かつ、安定した数値で結果を出す方法。
多様で、変化が頻繁で、曖昧な信号に対し、数値で評価した音声と非音声の度合いでもって、敏感な聴覚にとって違和感のない音質に制御する方法。
以上は、課題の一般的で抽象的な表現である。
そして、上記の課題には下記の二つの必要条件がある。
重要なことの第1は、
できる限り少ない、計算処理資源の消費で、上記の結果を出すことである。一例として、44.1kHz のサンプリング周波数で 5MIPS 程度を目安とする計算処理であれば、CPU資源消費に与える影響は大きくない。
重要なことの第2は、
完全な音声から完全な音楽まで連続的で安定した傾向として数値で表現できなければならない。
音声と非音声の中間点が出力数値の最大値と最小値の中間点にあることは必修である。特開 2002-366189 音楽と音声の識別検出方式 は出願当時から実用に供され現在も実機に使われている手法ではあるが、 5MIPS は満足されているものの、音声と非音声の中間領域で、音質が完全ではない。実状は、最大最小の範囲が広すぎることから、条件論理演算によって範囲に強力な制限がかけられている。完全な音声と完全な非音声に関しては問題ないが、強力な範囲制限が出力するところの広い中間範囲の数値 と 聴感が受ける自然感 との間に乖離があって、信号の種類に依存して替わり目に不自然さを感じるケースが少なくない。
人の感性が最終評価結果となることから全計算行程を一義的に決定することは適切ではなく、設計者の判断や、商品の性格によって選択できる融通性も持ち合わせていなければならない。
基準点を安定にしなければならない、という課題は、何をもって最大値と最小値にするかにある。入力信号が音響信号であることから 大きさの変化、種類の多様さ その範囲が極めて広いことに原因するところの難しさがある。
第1に、振幅頻度の性質を利用する。
一単位時間内の頻度の測定は、スペクトル分析による方法と比べ CPU資源 の消費が大幅に少ない。
第2に、振幅頻度を利用する場合、計算が容易で、かつ、簡素である。
振幅頻度の場合、一次差分、必要であれば二次差分、の計算が簡素であって、時間に対する変化の傾向分析に要するCPU資源の消費が小さくて済む。
第3に、振幅の頻度とその一次差分の測定結果を可変係数群との組み合わせによる乗算と加算のネットワークを通すことで、多様な入力信号と最適な聴感の関係を満足する係数群を見いだすことができる。聴感にとって最適な状態とは、数値としてのリファレンスではなく、人の感性と意思決定によるものであることから、計算手順もさることながら、多種多様な信号について聴感で確認しながら計算式に仕組まれる係数や定数を調節的に決定する。さらに機械的な手法として、多種多様な信号と聴感が求める結果との関係を学習させることで係数や定数の最適値を決定する。本案の手法は、計算処理構造と係数群の選択が設計の意思や目的にゆだねられなければならない課題に対し極めて有効である。
第1に、完全な音声から完全な非音声に至る中間の範囲で、連続的に数値で結果を出すことができる。
第2に、数値化の根拠を明確にすることができる。
第3に、多様性のある聴覚の判断に対し、計算結果に自由度を持たせることができる。
計算構造と係数群と定数群を設計的に決定する方法に関し、
実験的に決定する方法だけでなく、多数のサンプルとそれぞれの評価結果により学習的に決定する方法も選択できる。
第4に、少ないCPU資源消費で計算処理できる。
音声信号と非音声信号の合成比率を変えて測定したサンプル信号の振幅頻度 振幅頻度の数値データの一例 各種音響信号サンプルの振幅頻度 図1、図2、図3の振幅頻度をPC上で測定するところの一括処理用のGUI画面 請求項1、2、3、4、5、6、を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理用を想定したGUI画面 図5に示すGUIによる音声信号と非音声信号の合成比率を変えた信号の評価結果 図5に示すGUIによる、各種サンプル信号の評価結果 図6、図7、の結果を得るための、図5のGUIに代入した計算手順の一例
音声と音楽の度合いを判別し最適な音質を再生するTV用スピーカシステムとカーオーディオシステム。
(1)再生信号の種類に応じた最適な音質の制御プログラム。
(2)アナウンス信号に対し、加齢に伴う聴覚劣化を補う自動高明瞭化プログラム。
図1は、音声信号と非音声信号の合成比率を変えて測定した、サンプル信号の振幅頻度である。本案の可能性を検証するために測定したものである。
縦軸は振幅、横軸は頻度である。
(a)は、ニュース と 通常の楽曲、(b)は、ニュース と 環境ノイズ、
(c)は、ニュース と ギターとカスタネットの楽曲 のそれぞれについて、
ニュース信号に掛かる係数を k とし、 楽曲または環境ノイズに掛かる係数を 1-k として、k=0,2,4,5,6,8,10 と変化させた場合の合成信号について測定した振幅頻度である。いずれも、kの値が1に近づくに伴い、振幅が 15% から 25% の付近で曲線が直角に近くなり、振幅が 5% から 10% の付近で振幅頻度が急激に大きくなる。大雑把な評価では、振幅が 0% の付近の傾斜と 振幅が 30% の付近の値の比率によって、音声度 か 非音声度 かの判別結果の数値表示が可能であることを推測できる。
図2は、振幅頻度の数値表示の一例である。振幅の分割数は 20 の場合である。振幅の分割数と一単位時間の時間は 設計的に適正値を選択決定する。振幅の最大値を 100% とし、一単位時間の全時間を 100% とする。
S1、S2、、、Sn は供試信号の種類である。
D01 は 最低値 THD から 5% までの閾値の間の振幅頻度を示す。D02 から D20 は D01 と同様に、振幅の最大値の 1/20 きざみの閾値を示し、S1、S2、、、Sn の縦の欄は、それぞれの振幅頻度を示す。
図3は、各種音響信号のサンプルの振幅頻度測定結果である。
縦軸は振幅、横軸は頻度である。
(a)は解説、
(b)はニュース
(c)はニュース
(d)は解説とBGMの合成
(e)は雑談
(f)はギターによるフラメンコとカスタネット
(g)はギターによるフラメンコ
(h)は楽器演奏とボーカル
(i)はアカペラ
信号である。
(a),(b)、(c) は、ほぼ純粋のスピーチ信号であって、グラフは振幅が 10% の付近で急激に折れ曲がっている。
(d)、(e)は 純粋のスピーチと楽曲と環境騒音の合成信号であり、振幅が 10% の付近での曲がりは 純粋のアナウンスよりも緩く曲がっている。
(f)、(g)は楽器演奏であるが、歯切れの良い演奏であることから楽曲でも音声に近い性質を持つが、振幅が 10% の付近は緩く曲がっていて、振幅が 5% の付近での 振幅頻度は純粋のスピーチ信号よりも大幅に小さい。
(h)、(i) はボーカルが主体の楽曲である。いずれも、振幅が 10% の付近の曲がりはほとんどなく、振幅が 5% の付近では 振幅頻度は小さい。
(a)から(i)までのグラフは、図1で確認できるところの、k=1 から k=0 までのグラフの特徴と類似である。
図4は、図1、図2、図3の振幅頻度をPC上で測定する一括処理用のGUI画面である。(a)は操作画面である。音響信号のファイルのドラッグアンドドロップで、(b)のグラフを表示する。1 の黒色の横のバーは音響信号全体の時間軸を示す。2 の左 S がスタートポイント、右の E はエンドポイントである。中間の白色バーを左右に動かすことで、そのポイント付近の一単位時間の振幅頻度が(b)の窓にグラフで表示される。
縦軸は信号の振幅であって、100% はサンフ゜ル信号の全区間の振幅の最大値に対応する。横軸は振幅頻度である。グラフの基になるデータはファイルとして保存できる。複数のデータファイルをグラフの画面にドラッグアンドドロップすることで全てのデータを重ねて表示できる。
このGUIを使うことによって、多種多様で多数の音響信号についての結果を目視での比較評価ができることから、傾向を直感的に認識し、その傾向の客観的な分析へと、筋道をつけることができる。
図5は、請求項1を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理を想定したGUIの画面を示す。
図5のGUIの場合、振幅の最大値は供試された信号の全区間の最大値が 100% であることに対し、図6のGUIはリアルタイム処理を想定した信号処理となっていることから、縦軸の最大値は設計値としての最大値、即ち 2^15=32768 が 100% となっている。
(a)は、得られた一単位時間ごとの振幅頻度のデータを計算処理し、音声度と非音声度をグラフ表示するための計算手順の編集画面である。計算手順をファイルとして保存し、かつ読み出し、編集することができるので、目的とする結果を得るための複数の計算手順を比較検討することができる。音響信号を(b)の画面にドラッグアンドドロップすることでリアルタイム処理を想定した計算手順によって計算処理し、結果を(c)の画面にグラフ表示する。
1 は音響信号を再生した場合と同様な動作で、振幅の最大値を一定の値に保つコンプレッサーのパラメータ設定機能である。アタックタイム と レリースタイム と レリース動作を止める信号レベル を設定できる。
2 は、一単位時間の計算処理のパラメータ設定機能である。振幅の閾値の分解能 と 一単位の時間と信号処理結果の更新を休止する信号レベルを 設定できる。
3 は音声度と非音声度の最終結果と中間結果をグラフ表示するための計算処理手順の編集窓である。
4 はグラフ表示の横軸の分解能、
5 は計算過程の中間変数と結果の数値表示
6 はグラフ表示窓
7 はグラフ中のカーソル位置のグラフの縦軸の値である。
記載の計算手順の全ては一例である。
この設定例での、全振幅範囲の分割数は 30 である。従って それぞれの閾値間の頻度は Di, i=1,2,……30 である。
計算式に関する詳細は図8で説明する。
図6は、図5に示すGUIによる、音声信号と非音声信号の合成比率を変えた場合の音声度非音声度の計算結果である。それぞれの一単位時間ごとの計算結果であって、時系列的な平滑処理はされていない。y は音声度の最終結果、x と z は中間結果である。
縦軸は振幅、横軸は頻度である。
図7は、図5に示すGUIによる、各種サンプル信号の音声度非音声度の計算結果である。一単位時間ごとに算出された評価結果をもとに、時系列的な平滑処理を施したものである。図7の平滑処理は傾向を確認するために見やすくする程度であって、聴覚によって違和感のないレベルにまでは平滑化してはいない。どのような平滑化とするかについては設計的に決定するところなので、詳細説明を省略する。
(a)、(b)、(c)は ニュース
(d)は解説
(e)は雑談
(f)はドラマセリフ
(g)はBGMがある解説
(h)はBGMがある商品案内
(i)はBGMがある天気予報
(j)はラジオ体操
(k)は背景がひどくざわざわしている雑談
(l)、(m)はアカペラの楽曲
(n)、(o)、(p)、(q)はボーカル楽曲
の信号である。図中 y の曲線が音声度合いの強さを表す。
縦軸は振幅、横軸は頻度である。
音声度非音声度の計算式を図8に示す。
図8は、図6、図7の結果を得るための、図5のGUIに代入した計算手順の一例である。
1行目の 計算式 M=(1000/30)*Wax/32768 は、
測定中の一単位時間の振幅の最大値 Wmax を、入力信号の設計値の最大値であるところの、 2^5 即ち 32768 に対する 百分率の値に変換し、中間変数 M に代入する。
24ビット固定小数点 の場合の最大値は 2^23 である。
浮動小数点の場合の最大値は有効数字と桁数で表現される。
2行目から22行目までの [M>Di] A=Dx, x=,10,11,,,,,30 は 測定した最大振幅 M がどの閾値の範囲にあるかを見いだし、その 約1/3 の閾値に対応する振幅頻度 Dx を 中間変数 G に代入する行程である。入力信号はコンプレッションされている場合が一般的である。コンプレッサーは最大値と追従速度のパラメータを持っているが、実際の正確な最大値がどのレベルにあるかは定かではないので、計算処理による検証によって実際の振幅の最大値がどの閾値の範囲にあるかを割り出す必要がある。
最大振幅がどの閾値の範囲にあるかを割り出す方法は設計的に決定される。
A は中間変数である。
23行目の x=A は A の値のグラフ表示の指示である。
24行目の A=A+1 は、Aの値が 0 である場合、その後の計算行程での除算ができなくなる可能性を排除するために 1 を加えたものである。この場合の定数 1 は、
評価の範囲を適正にするための値であって、この値は設計的に決定される。
25行目の B=5*abs(D2-D1) は閾値が小さい区間の振幅頻度の傾斜を求める計算式である。計算結果がグラフに見やすい範囲となるよう 5 なる係数を乗じている。この場合の係数 5 は請求項1に記述の KK2 に相当する その他の KKi の値は 0 であり、最も簡素な評価計算式の一例である。
B は中間変数である。
26行目の z=B は このGUIが変数 z をグラフ表示するので、中間変数 B をグラフ表示する代入式である。
即ち、
x は振幅が最大の 1/3 付近の振幅頻度、
z は振幅が最小付近の振幅頻度の傾斜、即ち、振幅頻度一次差分値を表示する。
27行目の C=10*B/A は最大振幅の付近に対する最小振幅の付近の振幅頻度の比を求める計算式である。C の値が大きくなると信号の音声度合いの傾向が強く、逆に小さくなると、非音声度合いの傾向が強くなる。10 は一単位時間の評価結果の数値をグラフ上に見やすい高さにするための係数である。
28行目の D=0.95*D+0.05*C は時系列的に連続して得られる一単位時間の評価結果を時系列的にらかにするための平滑化処理である。平滑化の結果の 0.95倍 に新たな一単位時間の 0.05倍 を加える。定数 0.95 と 0.05 は平滑化パラメータの一例であって、この計算手順と、パラメータも設計的に決定される。28行目の計算手順は時系列で変動する数値を滑らかする手法の内、最も単純な方法の一例である。
29行目の E=C は このGUIが変数 y をグラフ表示するので、入力信号の 一単位時間ごとの音声度と非音声度をグラフに表すための代入式である。
32行目の y=E は グラフ表示変数 y に E を代入する。
平滑化した数値 D を表示する場合は ここで、 E=D とする。
図6と図7の結果が示すように、音声と非音声の度合いの数値化に関して 内分比率に応じた評価結果であることと 信号の種類に応じた評価結果が期待の範囲にあること がわかる。評価結果を出すに必要な行程は、
第1に、振幅を 20 ないし 30 程度に分割し、それぞれの閾値での頻度判定。
第2に、その頻度判定を一単位時間内ごとに実施。
第3に、頻度判定結果を基に、一単位時間内での最大振幅から最大振幅の閾値を求める。
第4に、最大振幅以下の閾値に対応する振幅頻度を求める。
第5に、振幅頻度から簡素な計算式で音声度と非音声度を数値化。
第6に、数値化された簡素な方法で音声非音声の度合いを時系列的に平滑化。
第7に、平滑化された音声非音声の度合いを音質制御信号とする。
である。
請求項1についての補足説明
例えば、信号が、サンプリング周波数が 44.1kHz の 符合付き 16ビット である場合、設計レベルでの最大の大きさは 2^15=32768 である。
例えば、30段階に等しい大きさの時間で設定する場合の Ri, i=0,1,2,3,,,,,n の
それぞれのスレッショルドは、 32768/30 ごとに設定される。
振幅頻度 Di, i=1,2,3,,,,,n は振幅がRi と Ri-1 の間にある サンプリングの個数に対応する。一単位時間が例えば 1秒 の場合、 サンプリング数 44100 個 が頻度 100% となる。
従って、Di に対応す頻度数を Ni とすると、Di の値は 100*Ni/44100 となる。
一単位時間の中の実働状態での入力信号の実測値の最大値は不明であることから、最大振幅に最も近い Rn, n=p を探さなければならない。
実測値 Wmax がどの閾値、即ち Rpに属するか、特定する方法の一つに、(1000/30)*Wmax/32768 の小数点以下の値を切り捨てた値を p の値として算出できる。
図5のGUIでは 小数点以下の値を切り捨てる機能を持っていないことから、M の値を最大値から小さい値へと順次比較し、Rp を特定し、振幅が最大値付近の Di-Di-1 を得る。
振幅が小さい付近では常に 0 ではない振幅頻度が理論的にも存在することから、D1,D2 あるいは DD1,DD2 のを使うことが有効である。
振幅が最大値の Dp-Dp-1 は値が極めて小さいことと、理論的に値が不正確であるケースが頻繁であることから、実用的には、図5の例に示すように、 t=Rp/3 なるRt など 振幅頻度の曲線に変曲点が現れる付近の振幅頻度を選択することが有効である。
どの振幅の頻度をどのように利用するかは設計的に選択決定される。
音声度合いと非音声度合いの具体的な計算手順の例として次のような方法がある。
いずれも、図1の振幅頻度曲線の特徴から簡素な代数計算で判定できる手法である。
音声度合いの算出方法その1、
振幅が小さい付近の頻度が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、D1 もしくは D2 を用いる。
この場合、請求項1に記述F{} の要素として、 i が 1 または 2 の場合の Ki*Di を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その2、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、DD1=D1-D0 や DD2=D2-D1 などの、振幅が小さい付近の振幅頻度一次差分値を用いる。
この場合、請求項1に記述F{} の要素として、 i が 1 または 2 の場合の KKi*DDi を用いる方法が最も簡単な方法の一つである。
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
一般的には、
図1の(a)、(b)、(c)中、
k の 0 から 1 への変化に対応したグラフの曲線の特徴や、
図3の(a)から(i)へ向かって変化するグラフの曲線の特徴から、
見て取れるように、
音声度合いが強いほど、振幅が 0 の付近で 振幅頻度の一次差分値 DDi の値は正の方向に小さい傾向が顕著であって、逆に、非音声度合いが強いほど、負の方向に大きい傾向が顕著である、という性質を利用する。
音声度合いの算出方法その3、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
振幅が最大振幅の 1/3 付近の振幅頻度が小さい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
の双方を利用する。
この場合、Rp の ポインター p が最大振幅の閾値に対応するとき、
u=Pmax/3 付近の 閾値 Ru の振幅頻度 Du と
DD1=D1-D0 なる振幅頻度一次差分値を用いる。
F{} の要素として、Kt*Dt と、i が 1 の場合の KK1*DD1
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その4、
平面上の曲線の特徴抽出により音声度合いと非音声度合いを数値で表現する。
一次データである振幅頻度分布から、あらかじめ決められた主要部分の曲率を計算し、
複数の曲率データを、あらかじめ決定されている音声度合いと非音声度合いを算出する計算式に代入し、音声度合いと非音声度合いを数値で得る。
一般的に、
図1(a)、(b)、(c)中、K の 0 から 1 への変化に対応したグラフの曲線の特徴や、図3の(a)から(i)に向かって変化するグラフの特徴から、k が 1 に近づくほど曲率の起伏が大きい傾向を利用する。
即ち、
k=0 の場合の曲率は、
振幅が大きい範囲では小さいが、振幅が 1/3 から 1/5 の範囲では大きく、さらに振幅が小さくなると曲率は再び小さくなる。
k=1 の場合の曲率は、
振幅が大きい範囲では小さいが、振幅が 1/3 から 1/5 の範囲では k=0 の場合に比べ大きく、
さらに振幅が小さくなると、曲率は急激に小さくなり、さらに、曲率は負の方向に大きくなり、再び小さくなる。
音声度合いの算出方法その5、
計算式を一般式の形で表現しておいて、計算式の中に埋め込んである係数や定数の最適値を学習方式で決定する方法。
学習方式の場合、ニューラルネットワークと呼ばれる手法が一般的でる。この場合、目的の機能を得るに必要充分な複数の直交成分を振幅頻度曲線からあらかじめ抽出しておく。
一つのサンプル信号に関し、これらの直交成分の信号群を入力とし、期待する音声頻度と非音声頻度の値を期待出力とし、期待値と出力との誤差が最小となるよう、ニューラルネットワークの結合係数群の補正を作用させる。
必要充分なサンプルデーター群について上記の学習をくり返すことで、いずれの信号に対しても、満足の行く期待値を出力させることが可能とすることができる。
人の聴覚で音声度と非音声度を判定できる特徴があれば、今日のニューラルネットワークは、音声度と非音声度を聴覚と変わらない程度の機能を実現できる。
ここで、本案との関わりにおいて重要なことは、ニューラルネットワークの 入力として、振幅頻度分布 と 振幅頻度の一次差分値 から得られた信号の特徴を用いることである。音声度合い算出方法その1 から その4 までの記述は、ニューラルネットワークを用いる一般的な方法の極めて特殊で簡素な場合に相当する。
ニューラルネットワークの 仕組みと学習 の具体的方法に関しては公知であって、本案の本質ではないことから詳細説明を省略する。
請求項2と請求項3についての補足説明
音声度と非音声度は相反する傾向にあることから、音声度から非音声度の総和を一定値として、一方の値を求めることで、他の一方を決定することもできる。もともと、音声度と非音声度は曖昧な評価を含んでいることから、厳密に定義することは重要ではない。
そこそこで、違和感のない結果が求められることから、音声度と非音声度の総和を一定の値として機能させることでも充分実用になる。
請求項4についての補足説明
音声度と非音声度の一次データは一単位時間ごとの変動が激しく、平滑化の行程を必要とする。図5と図8に示すところの、 E=0.95E*0.05*D は最も簡素な時系列信号の平滑化の計算式である。前回までの平滑出力の 95% に 新たな結果の 5% を加えて 新たな平滑化信号とする。一単位時間の 約20倍 の時定数 を持つ平滑化に相当する。
図5と図8の場合、一単位時間が 0.3秒 であることから、時定数換算で 約6秒 となるが、音質変化に違和感のない実用的なコンシューマ商品に組み込む場合、時定数換算で 10秒 くらいが適切な選択の一つであることが実験上、確認されている。
本案の本質は音声度と非音声度の一次データを公知の方法で平滑することであって、平滑化の形式やパラメータは設計的に選択決定される。
請求項5についての補足説明
入力信号が、設計された範囲の最大値より大幅に小さい場合、検出した信号の音声度、非音声度を評価する必要がないケースがほとんどである。従って信号の大きさが小さい場合、平滑化の応答速度を遅くすることで、音声度と非音声度の判定を安定化することができる。例えば、音声信号の場合、音声信号は強度が 0 に近い頻度が多いことから、背景雑音が大きい場合、信号が小さい領域で非音声と判定する確率が増え、判定結果が不安定になる。入力信号が小さい場合、平滑化の応答速度を遅くすることで、聴感上の自然さを損なうことなく判定結果を安定させることができる。
この場合、一例として、図5と図8に示すところの、 E=0.95E*0.05*D の定数 0.95 と 0.05 の値を、測定した Wmax の値に連動させることで簡単に具現化できる。
請求項6についての補足説明
請求項6は、無音時間が長く続く信号に対し、無音時間をどのような信号処理をするか、という対処方法に関する。音声度と非音声度の制御が常時機能すると、小さな雑音や背景音にも応答し、音声信号の時間であるにもかかわらず非音声として、逆に、非音声の時間であるにもかかわらず音声として検出する機会が増えて不都合が生じる場面が多い。
信号が一定値以下の大きさの場合は音声度と非音声度の評価結果にかかわらず、平滑化の動作を休止する方法が最も簡素で有効な方法であることを実験的に確認できる。
例えば、何かの解説番組で背景に背景音があって、微少信号が長く続く場面は多い。
このような場面では非音声として応答し、非音声の音質に変わる。次に音声が入ると、
非音声の音質から始まるので全体に音質の変化の頻度が多く、違和感を感じる機会が増える。
入力信号の振幅が特定の値より小さい場合、平滑化を休止することで、判定結果の安定化を図ることができる。
請求項6は請求項5とは独立しているが、双方の機能を併用することで、なお一層、判定結果の安定化を図ることができる。
平滑化を休止する信号の大きさは設計的に決定する。
音質制御についての補足説明
音質制御は多種多様な方法がある。音質の自動制御に適した最も簡単な方法の一つは、
音声と非音声に適した、それぞれの音質に対応するところの、独立したフィルターを設けておいて、それぞれのフィルターの出力に係数器を設け、制御信号で係数を制御し、全てのフィルターの係数器の出力を合成する方法である。音声用のフィルターと非音声用のフィルターの双方の出力に係数器を設ける。そして、本案を応用する場合は、音声度の評価値の平滑化信号で音声用のフィルターの係数を制御し、非音声度の評価値の平滑化信号で非音声用の係数を制御し、双方の係数器の出力を加算信号を再生信号とする。
Ri, i=0,1,2,3,,,,n 入力信号の設計上の上限値を Rmax とするところの、
設計上の全範囲を n個 に分割するための閾値
Rmax 設計上の入力信号の最大振幅の絶対値であって、Rn に等しい
Di, i=1,2,3,,,,n 一単位時間における Ri と Ri-1 の振幅範囲内の振幅頻度Wmax 実測によるところの一単位時間内の最大振幅
Rp Wmax より小さく、かつ、Wmax に最も近い閾値
Dp Rp と Rp-1 の間の振幅頻度
Ki Di, i=1,2,3,,,p の音声度評価のための係数
Hi Di, i=1,2,3,,,p の非音声度評価のための係数
Am, m=1,2,3,,,u 定数
DDj=Dj−Dj-1, j=2,3,,,,p 振幅頻度一次差分値
振幅頻度特性の隣りあう時間の、振幅が大きい方の頻度から
振幅が小さい方の頻度を差し引いた値
KKj DDj, j=2,3,,,,p の音声度評価のための係数
HHj DDj, j=2,3,,,,p の非音声度評価のための係数
Bm, m=1,2,3,,,u 定数
Es 音声度評価値
F{} {}内の振幅頻度と係数と定数からなる音声度評価関数
G{} {}内の振幅頻度と係数と定数からなる非音声度評価関数
Es=F{K1*D1,K2*D2,,,,Kp*Dp,KK2*DD2,KK3*DD3,,,KKp*DDp,A1,A2,,,,Au}
音声度評価値の一般的な計算式
Em=G{H1*D1,H2*D2,,,,Hp*Dp,HH2*DD2,HH3*DD3,,,HHp*DDp,B1,B2,,,,Bv}
非音声度評価値の一般的な計算式
Esmax 請求項1に記述の一単位時間の音声度評価値 Es の、
設計的に決定した変動範囲の最大値
Esmax-Es 非音声度評価値
Emmax 請求項1に記述の一単位時間の非音声度評価値 Em の
設計的に決定した変動範囲の最大値
Emmax-Em 音声度評価値
Dmin 音声非音声の判定を必要としない小さな信号の振幅の絶対値
Tmin 入力信号が Dmin を超えない時間が Tmin を超えた場合、
その一単位時間の音声度平滑化機能と非音声度平滑化機能を
休止するための待ち時間
図1
横軸 Probability 振幅頻度
縦軸 AMP 振幅
K 1 から 0 まで変化する係数
News*k ニュース信号に 係数 k を乗じた信号
Average-Music*(1-k) 平均的な音楽信号に 係数 (1-k) を乗じた信号
Environment-Noise(1-k) 環境ノイズ信号に 係数 (1-k) を乗じた信号
Crisp-Guitar-Music(1-k) 歯切れの良いギター音楽信号に 係数 (1-k) を乗じた信号
図2
Class Di i=01,02,03,,,,,20 振幅を 20分割 した場合の振幅頻度のデータ名称
Amphitude Range[%] THD,005,010,,,,,100 最大振幅を 100% とする各閾値
S1,S2,,,,Sn 縦軸の数値 サンプル信号 と 各閾値に対応する振幅頻度
図3
Speech 音声度合いが強い傾向
Non-Speech 非音声度合いが強い傾向
Commentary 解説、
News ニュース
Commentary+BGM 解説とBGMの合成
Talk 雑談
Furamenco-Guitar & Castanet ギターによるフラメンコとカスタネット
Furamenco-Guitar ギターによるフラメンコ
Music & vocal 楽器演奏とボーカル
A Cappella アカペラ
図4
1 ドラッグアンドドロップされた信号のスタートからエンドまでの時間軸を示す。
2 中央の白いツマミは振幅頻度を検証する時間位置を表示
Probabihity 振幅頻度
AMP 振幅
図5
1 入力信号のコンプレッサーのパラメータ入力部
2 一単位時間の時間長、振幅頻度測定の分解能、信号処理を休止する振幅 の設定
3 計算処理の手順を編集する窓
4 表示グラフの横幅の設定
5 計算過程の各変数の数値表示窓
6 グラフ表示窓
7 y は音声度のグラフ
図6
x 最大振幅の 1/3 付近の振幅頻度
z 小さい振幅の振幅頻度の傾斜
y 音声度非音声度の一単位時間ごとの計算結果
(1) (音声信号強度):(非音声信号強度)=0:10 の場合
(2) (音声信号強度):(非音声信号強度)=2:8 の場合
(3) (音声信号強度):(非音声信号強度)=4:6 の場合
(4) (音声信号強度):(非音声信号強度)=5:5 の場合
(5) (音声信号強度):(非音声信号強度)=6:4 の場合
(6) (音声信号強度):(非音声信号強度)=8:2 の場合
(7) (音声信号強度):(非音声信号強度)=10:0 の場合
図7
x 振幅が大きい付近の振幅頻度の傾斜
z 振幅が小さい付近の振幅頻度の傾斜
y x/z
(a)、(b)、(c) ニュース
(d) 解説
(e) 雑談
(f) ドラマセリフ
(g) BGMがある解説
(h) BGMがある商品案内
(i) BGMがある天気予報
(j) ラジオ体操
(k) 背景がひどくざわざわしている雑談
(l)、(m) アカペラの楽曲
(n)、(o)、(p)、(q) ボーカル楽曲
図8
M 中間変数
Wmax 一単位時間の最大振幅
Di, i=4,5,6,7,8,9,10 閾値 Ri と Ri-1 の間の振幅頻度
A,B,C,D 中間変数
x 最大振幅の 約1/3 付近の振幅頻度のグラフ表示
z 振幅が小さい付近の振幅頻度の傾斜のグラフ表示
y 音声度の計算結果
請求項で定義した用語と記号は明細書においても同様とする。
音響信号の振幅分布
音声信号の統計的性質について
音楽信号の統計的性質について
環境騒音や自然音の統計性質について
平滑化信号処理
ニュースや解説番組の音声を、楽曲やその他の信号と識別する手法の実状に関し、
前述の、特開 2002-366189 音楽と音声の識別検出方式 はカーオーディオやテレビ放送の再生信号の音質制御として2002年から2018年現在まで、そのアルゴリズムをDSPに組み込んで商品に使用している実績がある。
しかしながら、この方法には、これまで、複数回の改良を実施したものの、CPUの資源消費の許容限界もあって、下記のような場面での音質の完成度は満足できるレベルに達していないのが現状である。
天気予報番組の場合、BGMがアナウンスに合成されていることが多い。
ニュース番組の場合、取材する場所の環境騒音が入っていることが多い。
ドラマ番組の場合、環境音やBGMが合成されているのが一般的である。
実況中継や報道番組の場合、実況場所や取材場所の観客騒音や環境騒音が入っている。
など、音声とその他の信号が合成されていて、その合成比率も場面によって異なる。
この方法はアナウンスの無音時間の検出を基本としていることから、楽曲や騒音や雑音などの、小さいが切れ目のない信号が混じっている場合、音声が主体の信号であっても、音声である度合いがどの程度なのかの判定が難しい。
特開 2002-366189 音楽と音声の識別検出方式
無音時間の頻度を検出することで、音声と音楽を識別する方法に関する。
特開2010-152015 特許4439579
音質補正装置、音質補正方法及び音質補正用プログラム
特開平05-297883 音響信号処理装置および音響信号処理方法と音響信号判定装置
上記2件は、信号が 音声であるか と 音楽であるか を判定した結果を受けて 音質を決定する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特開平8-179791 音の可視化方法および装置
信号のスペクトル分析や、スペクトルのピーク値の周波数や強度の安定度や調和成分を検証することで、信号の性質を表示する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特表2010-530989 特許5395066
音声時間検出及び音声信号分類のための方法及び装置
信号のスペクトル分析とスペクトルの相関分析によるスペクトルの特徴による、音声時間の検出方法に関する
特開2011-85824 音響識別装置、その処理方法及びプログラム
信号のスペクトル分析によるスペクトルの特徴による、音声と音楽の判別方法に関する。
特開平7-64598 音声信号弁別装置およびオーディオ装置
音響信号をスペクトル分析し、周波数帯による強度の特徴の比較による音声と音楽の判別方法に関する
特開平8-179791、
特表2010-530989(特許5395066)、
特開2011-85824、
特開平7-64598、
上記4件は、信号のスペクトル分析やとスペクトルの相関分析によって、スペクトルの強度分布の特徴を捉える方法について、多数出願されているが、スペクトルの特徴だけで、それが音声であるか音楽であるか、それらの合成比率を判定するには曖昧な領域が存在し、その曖昧さをどのように検出するかの課題がある。
本案の着目点であるところの、請求項1に記述の入力信号の振幅の頻度について、PC上で実測できるGUIを試作し、代表的な信号について音声と非音声の合成比率を変えることで、振幅分布の変化の傾向を確認した結果を図1に示す。図1のグラフは、音声 と 音楽 の合成信号について、合成比率を変えた信号から それぞれの信号について10カ所ないし20カ所 を無作為に選び、それぞれ 1秒の一単位時間について、縦軸を振幅、横軸をそれぞれの振幅範囲にある時間の総和として プロットしたものである。横軸は振幅の頻度であるが、振幅の確率密度としても解釈できる。
縦軸はその時間内の最大信号が100%、横軸は1秒の一単位時間が100% である。
図1は、音声と音楽の合成比率によって振幅頻度がどのように変化するかを検証するために測定したものであって、合成比率を変えることによる曲線の特徴が 目視で確認できる程度に規則性をもっていること を示している。
(a)はニュース放送 と BGM向きの標準的な楽曲 の、
(b)はニュース放送 と 市街地の環境騒音 の、
(c)は女性の解説放送 と 急峻な変動がある金属弦ギターによるフラメンコ楽曲
の、それぞれ合成比率を変えての振幅に対応する頻度の測定結果である。音声も楽曲も騒音も、音源の種類はいくらでも存在するので、そこに完全な普遍性を見いだすことは難しいが、少なくとも日常的に耳にする音の信号では図1に示すグラフから、ある程度の共通性を見いだすことができる。
従って、カーオーディオやTVのセットに組み込むための音声と音楽を判定する機能は、商品の本質である主機能に差し支えのないCPUの資源消費の範囲で、最大限の効果を出さなければならない。
大量のデータベースにアクセスすることなくローカルで閉じているところの、リアルタイム性に勝れた簡素な信号処理方法でなければならない。簡素とは、時間軸の信号を周波数軸上の信号に変換する行程が必要な手法や、きめ細かくケースバイケースの統計処理を必要とする手法に比べ、大幅に簡素であることを意味する。
図1の(a)と(b)と(c)の、振幅が 15% 以下の小さい範囲でのグラフの傾きに着目すると、音声と非音声の合成比率と強い関係があることが確認できる。グラフは、音声の成分が大きい場合、振幅が 0 の付近で水平に近く、変曲点は顕著でない。
非音声の成分が大きい場合、頻度が 0の付近で垂直に近く、変曲点が顕著である。
本案は、図1の振幅対頻度曲線の特徴に着目するところの、音声から非音声までの成分の比率に対応した評価を数値で得る方法に関する。
音響信号の音声度と非音声度を数値で評価する方法。
完全な音声から完全な非音声に至る中間部を連続的で、かつ、安定した数値で結果を出す方法。
多様で、変化が頻繁で、曖昧な信号に対し、数値で評価した音声と非音声の度合いでもって、敏感な聴覚にとって違和感のない音質に制御する方法。
以上は、課題の一般的で抽象的な表現である。
そして、上記の課題には下記の二つの必要条件がある。
重要なことの第1は、
できる限り少ない、計算処理資源の消費で、上記の結果を出すことである。一例として、44.1kHz のサンプリング周波数で 5MIPS 程度を目安とする計算処理であれば、CPU資源消費に与える影響は大きくない。
重要なことの第2は、
完全な音声から完全な音楽まで連続的で安定した傾向として数値で表現できなければならない。
音声と非音声の中間点が出力数値の最大値と最小値の中間点にあることは必修である。特開 2002-366189 音楽と音声の識別検出方式 は出願当時から実用に供され現在も実機に使われている手法ではあるが、 5MIPS は満足されているものの、音声と非音声の中間領域で、音質が完全ではない。実状は、最大最小の範囲が広すぎることから、条件論理演算によって範囲に強力な制限がかけられている。完全な音声と完全な非音声に関しては問題ないが、強力な範囲制限が出力するところの広い中間範囲の数値 と 聴感が受ける自然感 との間に乖離があって、信号の種類に依存して替わり目に不自然さを感じるケースが少なくない。
人の感性が最終評価結果となることから全計算行程を一義的に決定することは適切ではなく、設計者の判断や、商品の性格によって選択できる融通性も持ち合わせていなければならない。
基準点を安定にしなければならない、という課題は、何をもって最大値と最小値にするかにある。入力信号が音響信号であることから 大きさの変化、種類の多様さ その範囲が極めて広いことに原因するところの難しさがある。
第1に、振幅頻度の性質を利用する。
一単位時間内の頻度の測定は、スペクトル分析による方法と比べ CPU資源 の消費が大幅に少ない。
第2に、振幅頻度を利用する場合、計算が容易で、かつ、簡素である。
振幅頻度の場合、一次差分、必要であれば二次差分、の計算が簡素であって、時間に対する変化の傾向分析に要するCPU資源の消費が小さくて済む。
第3に、振幅の頻度とその一次差分の測定結果を可変係数群との組み合わせによる乗算と加算のネットワークを通すことで、多様な入力信号と最適な聴感の関係を満足する係数群を見いだすことができる。聴感にとって最適な状態とは、数値としてのリファレンスではなく、人の感性と意思決定によるものであることから、計算手順もさることながら、多種多様な信号について聴感で確認しながら計算式に仕組まれる係数や定数を調節的に決定する。さらに機械的な手法として、多種多様な信号と聴感が求める結果との関係を学習させることで係数や定数の最適値を決定する。本案の手法は、計算処理構造と係数群の選択が設計の意思や目的にゆだねられなければならない課題に対し極めて有効である。
第1に、完全な音声から完全な非音声に至る中間の範囲で、連続的に数値で結果を出すことができる。
第2に、数値化の根拠を明確にすることができる。
第3に、多様性のある聴覚の判断に対し、計算結果に自由度を持たせることができる。
計算構造と係数群と定数群を設計的に決定する方法に関し、
実験的に決定する方法だけでなく、多数のサンプルとそれぞれの評価結果により学習的に決定する方法も選択できる。
第4に、少ないCPU資源消費で計算処理できる。
音声信号と非音声信号の合成比率を変えて測定したサンプル信号の振幅頻度 振幅頻度の数値データの一例 各種音響信号サンプルの振幅頻度 図1、図2、図3の振幅頻度をPC上で測定するところの一括処理用のGUI画面 請求項1、2、3、4、5、6、を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理用を想定したGUI画面 図5に示すGUIによる音声信号と非音声信号の合成比率を変えた信号の評価結果 図5に示すGUIによる、各種サンプル信号の評価結果 図6、図7、の結果を得るための、図5のGUIに代入した計算手順の一例
音声と音楽の度合いを判別し最適な音質を再生するTV用スピーカシステムとカーオーディオシステム。
(1)再生信号の種類に応じた最適な音質の制御プログラム。
(2)アナウンス信号に対し、加齢に伴う聴覚劣化を補う自動高明瞭化プログラム。
図1は、音声信号と非音声信号の合成比率を変えて測定した、サンプル信号の振幅頻度である。本案の可能性を検証するために測定したものである。
縦軸は振幅、横軸は頻度である。
(a)は、ニュース と 通常の楽曲、(b)は、ニュース と 環境ノイズ、
(c)は、ニュース と ギターとカスタネットの楽曲 のそれぞれについて、
ニュース信号に掛かる係数を k とし、 楽曲または環境ノイズに掛かる係数を 1-k として、k=0,2,4,5,6,8,10 と変化させた場合の合成信号について測定した振幅頻度である。いずれも、kの値が1に近づくに伴い、振幅が 15% から 25% の付近で曲線が直角に近くなり、振幅が 5% から 10% の付近で振幅頻度が急激に大きくなる。大雑把な評価では、振幅が 0% の付近の傾斜と 振幅が 30% の付近の値の比率によって、音声度 か 非音声度 かの判別結果の数値表示が可能であることを推測できる。
図2は、振幅頻度の数値表示の一例である。振幅の分割数は 20 の場合である。振幅の分割数と一単位時間の時間は 設計的に適正値を選択決定する。振幅の最大値を 100% とし、一単位時間の全時間を 100% とする。
S1、S2、、、Sn は供試信号の種類である。
D01 は 最低値 THD から 5% までの閾値の間の振幅頻度を示す。D02 から D20 は D01 と同様に、振幅の最大値の 1/20 きざみの閾値を示し、S1、S2、、、Sn の縦の欄は、それぞれの振幅頻度を示す。
図3は、各種音響信号のサンプルの振幅頻度測定結果である。
縦軸は振幅、横軸は頻度である。
(a)は解説、
(b)はニュース
(c)はニュース
(d)は解説とBGMの合成
(e)は雑談
(f)はギターによるフラメンコとカスタネット
(g)はギターによるフラメンコ
(h)は楽器演奏とボーカル
(i)はアカペラ
信号である。
(a),(b)、(c) は、ほぼ純粋のスピーチ信号であって、グラフは振幅が 10% の付近で急激に折れ曲がっている。
(d)、(e)は 純粋のスピーチと楽曲と環境騒音の合成信号であり、振幅が 10% の付近での曲がりは 純粋のアナウンスよりも緩く曲がっている。
(f)、(g)は楽器演奏であるが、歯切れの良い演奏であることから楽曲でも音声に近い性質を持つが、振幅が 10% の付近は緩く曲がっていて、振幅が 5% の付近での 振幅頻度は純粋のスピーチ信号よりも大幅に小さい。
(h)、(i) はボーカルが主体の楽曲である。いずれも、振幅が 10% の付近の曲がりはほとんどなく、振幅が 5% の付近では 振幅頻度は小さい。
(a)から(i)までのグラフは、図1で確認できるところの、k=1 から k=0 までのグラフの特徴と類似である。
図4は、図1、図2、図3の振幅頻度をPC上で測定する一括処理用のGUI画面である。(a)は操作画面である。音響信号のファイルのドラッグアンドドロップで、(b)のグラフを表示する。1 の黒色の横のバーは音響信号全体の時間軸を示す。2 の左 S がスタートポイント、右の E はエンドポイントである。中間の白色バーを左右に動かすことで、そのポイント付近の一単位時間の振幅頻度が(b)の窓にグラフで表示される。
縦軸は信号の振幅であって、100% はサンフ゜ル信号の全区間の振幅の最大値に対応する。横軸は振幅頻度である。グラフの基になるデータはファイルとして保存できる。複数のデータファイルをグラフの画面にドラッグアンドドロップすることで全てのデータを重ねて表示できる。
このGUIを使うことによって、多種多様で多数の音響信号についての結果を目視での比較評価ができることから、傾向を直感的に認識し、その傾向の客観的な分析へと、筋道をつけることができる。
図5は、請求項1を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理を想定したGUIの画面を示す。
図5のGUIの場合、振幅の最大値は供試された信号の全区間の最大値が 100% であることに対し、図6のGUIはリアルタイム処理を想定した信号処理となっていることから、縦軸の最大値は設計値としての最大値、即ち 2^15=32768 が 100% となっている。
(a)は、得られた一単位時間ごとの振幅頻度のデータを計算処理し、音声度と非音声度をグラフ表示するための計算手順の編集画面である。計算手順をファイルとして保存し、かつ読み出し、編集することができるので、目的とする結果を得るための複数の計算手順を比較検討することができる。音響信号を(b)の画面にドラッグアンドドロップすることでリアルタイム処理を想定した計算手順によって計算処理し、結果を(c)の画面にグラフ表示する。
1 は音響信号を再生した場合と同様な動作で、振幅の最大値を一定の値に保つコンプレッサーのパラメータ設定機能である。アタックタイム と レリースタイム と レリース動作を止める信号レベル を設定できる。
2 は、一単位時間の計算処理のパラメータ設定機能である。振幅の閾値の分解能 と 一単位の時間と信号処理結果の更新を休止する信号レベルを 設定できる。
3 は音声度と非音声度の最終結果と中間結果をグラフ表示するための計算処理手順の編集窓である。
4 はグラフ表示の横軸の分解能、
5 は計算過程の中間変数と結果の数値表示
6 はグラフ表示窓
7 はグラフ中のカーソル位置のグラフの縦軸の値である。
記載の計算手順の全ては一例である。
この設定例での、全振幅範囲の分割数は 30 である。従って それぞれの閾値間の頻度は Di, i=1,2,……30 である。
計算式に関する詳細は図8で説明する。
図6は、図5に示すGUIによる、音声信号と非音声信号の合成比率を変えた場合の音声度非音声度の計算結果である。それぞれの一単位時間ごとの計算結果であって、時系列的な平滑処理はされていない。y は音声度の最終結果、x と z は中間結果である。
縦軸は振幅、横軸は頻度である。
図7は、図5に示すGUIによる、各種サンプル信号の音声度非音声度の計算結果である。一単位時間ごとに算出された評価結果をもとに、時系列的な平滑処理を施したものである。図7の平滑処理は傾向を確認するために見やすくする程度であって、聴覚によって違和感のないレベルにまでは平滑化してはいない。どのような平滑化とするかについては設計的に決定するところなので、詳細説明を省略する。
(a)、(b)、(c)は ニュース
(d)は解説
(e)は雑談
(f)はドラマセリフ
(g)はBGMがある解説
(h)はBGMがある商品案内
(i)はBGMがある天気予報
(j)はラジオ体操
(k)は背景がひどくざわざわしている雑談
(l)、(m)はアカペラの楽曲
(n)、(o)、(p)、(q)はボーカル楽曲
の信号である。図中 y の曲線が音声度合いの強さを表す。
縦軸は振幅、横軸は頻度である。
音声度非音声度の計算式を図8に示す。
図8は、図6、図7の結果を得るための、図5のGUIに代入した計算手順の一例である。
1行目の 計算式 M=(1000/30)*Wax/32768 は、
測定中の一単位時間の振幅の最大値 Wmax を、入力信号の設計値の最大値であるところの、 2^5 即ち 32768 に対する 百分率の値に変換し、中間変数 M に代入する。
24ビット固定小数点 の場合の最大値は 2^23 である。
浮動小数点の場合の最大値は有効数字と桁数で表現される。
2行目から22行目までの [M>Di] A=Dx, x=,10,11,,,,,30 は 測定した最大振幅 M がどの閾値の範囲にあるかを見いだし、その 約1/3 の閾値に対応する振幅頻度 Dx を 中間変数 G に代入する行程である。入力信号はコンプレッションされている場合が一般的である。コンプレッサーは最大値と追従速度のパラメータを持っているが、実際の正確な最大値がどのレベルにあるかは定かではないので、計算処理による検証によって実際の振幅の最大値がどの閾値の範囲にあるかを割り出す必要がある。
最大振幅がどの閾値の範囲にあるかを割り出す方法は設計的に決定される。
A は中間変数である。
23行目の x=A は A の値のグラフ表示の指示である。
24行目の A=A+1 は、Aの値が 0 である場合、その後の計算行程での除算ができなくなる可能性を排除するために 1 を加えたものである。この場合の定数 1 は、
評価の範囲を適正にするための値であって、この値は設計的に決定される。
25行目の B=5*abs(D2-D1) は閾値が小さい区間の振幅頻度の傾斜を求める計算式である。計算結果がグラフに見やすい範囲となるよう 5 なる係数を乗じている。この場合の係数 5 は請求項1に記述の KK2 に相当する その他の KKi の値は 0 であり、最も簡素な評価計算式の一例である。
B は中間変数である。
26行目の z=B は このGUIが変数 z をグラフ表示するので、中間変数 B をグラフ表示する代入式である。
即ち、
x は振幅が最大の 1/3 付近の振幅頻度、
z は振幅が最小付近の振幅頻度の傾斜、即ち、振幅頻度一次差分値を表示する。
27行目の C=10*B/A は最大振幅の付近に対する最小振幅の付近の振幅頻度の比を求める計算式である。C の値が大きくなると信号の音声度合いの傾向が強く、逆に小さくなると、非音声度合いの傾向が強くなる。10 は一単位時間の評価結果の数値をグラフ上に見やすい高さにするための係数である。
28行目の D=0.95*D+0.05*C は時系列的に連続して得られる一単位時間の評価結果を時系列的にらかにするための平滑化処理である。平滑化の結果の 0.95倍 に新たな一単位時間の 0.05倍 を加える。定数 0.95 と 0.05 は平滑化パラメータの一例であって、この計算手順と、パラメータも設計的に決定される。28行目の計算手順は時系列で変動する数値を滑らかする手法の内、最も単純な方法の一例である。
29行目の E=C は このGUIが変数 y をグラフ表示するので、入力信号の 一単位時間ごとの音声度と非音声度をグラフに表すための代入式である。
32行目の y=E は グラフ表示変数 y に E を代入する。
平滑化した数値 D を表示する場合は ここで、 E=D とする。
図6と図7の結果が示すように、音声と非音声の度合いの数値化に関して 内分比率に応じた評価結果であることと 信号の種類に応じた評価結果が期待の範囲にあること がわかる。評価結果を出すに必要な行程は、
第1に、振幅を 20 ないし 30 程度に分割し、それぞれの閾値での頻度判定。
第2に、その頻度判定を一単位時間内ごとに実施。
第3に、頻度判定結果を基に、一単位時間内での最大振幅から最大振幅の閾値を求める。
第4に、最大振幅以下の閾値に対応する振幅頻度を求める。
第5に、振幅頻度から簡素な計算式で音声度と非音声度を数値化。
第6に、数値化された簡素な方法で音声非音声の度合いを時系列的に平滑化。
第7に、平滑化された音声非音声の度合いを音質制御信号とする。
である。
請求項1についての補足説明
例えば、信号が、サンプリング周波数が 44.1kHz の 符合付き 16ビット である場合、設計レベルでの最大の大きさは 2^15=32768 である。
例えば、30段階に等しい大きさの時間で設定する場合の Ri, i=0,1,2,3,,,,,n の
それぞれのスレッショルドは、 32768/30 ごとに設定される。
振幅頻度 Di, i=1,2,3,,,,,n は振幅がRi と Ri-1 の間にある サンプリングの個数に対応する。一単位時間が例えば 1秒 の場合、 サンプリング数 44100 個 が頻度 100% となる。
従って、Di に対応す頻度数を Ni とすると、Di の値は 100*Ni/44100 となる。
一単位時間の中の実働状態での入力信号の実測値の最大値は不明であることから、最大振幅に最も近い Rn, n=p を探さなければならない。
実測値 Wmax がどの閾値、即ち Rpに属するか、特定する方法の一つに、(1000/30)*Wmax/32768 の小数点以下の値を切り捨てた値を p の値として算出できる。
図5のGUIでは 小数点以下の値を切り捨てる機能を持っていないことから、M の値を最大値から小さい値へと順次比較し、Rp を特定し、振幅が最大値付近の Di-Di-1 を得る。
振幅が小さい付近では常に 0 ではない振幅頻度が理論的にも存在することから、D1,D2 あるいは DD1,DD2 のを使うことが有効である。
振幅が最大値の Dp-Dp-1 は値が極めて小さいことと、理論的に値が不正確であるケースが頻繁であることから、実用的には、図5の例に示すように、 t=Rp/3 なるRt など 振幅頻度の曲線に変曲点が現れる付近の振幅頻度を選択することが有効である。
どの振幅の頻度をどのように利用するかは設計的に選択決定される。
音声度合いと非音声度合いの具体的な計算手順の例として次のような方法がある。
いずれも、図1の振幅頻度曲線の特徴から簡素な代数計算で判定できる手法である。
音声度合いの算出方法その1、
振幅が小さい付近の頻度が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、D1 もしくは D2 を用いる。
この場合、請求項1に記述F{} の要素として、 i が 1 または 2 の場合の Ki*Di を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その2、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、DD1=D1-D0 や DD2=D2-D1 などの、振幅が小さい付近の振幅頻度一次差分値を用いる。
この場合、請求項1に記述F{} の要素として、 i が 1 または 2 の場合の KKi*DDi を用いる方法が最も簡単な方法の一つである。
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
一般的には、
図1の(a)、(b)、(c)中、
k の 0 から 1 への変化に対応したグラフの曲線の特徴や、
図3の(a)から(i)へ向かって変化するグラフの曲線の特徴から、
見て取れるように、
音声度合いが強いほど、振幅が 0 の付近で 振幅頻度の一次差分値 DDi の値は正の方向に小さい傾向が顕著であって、逆に、非音声度合いが強いほど、負の方向に大きい傾向が顕著である、という性質を利用する。
音声度合いの算出方法その3、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
振幅が最大振幅の 1/3 付近の振幅頻度が小さい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
の双方を利用する。
この場合、Rp の ポインター p が最大振幅の閾値に対応するとき、
u=Pmax/3 付近の 閾値 Ru の振幅頻度 Du と
DD1=D1-D0 なる振幅頻度一次差分値を用いる。
F{} の要素として、Kt*Dt と、i が 1 の場合の KK1*DD1
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
音声度合いの算出方法その4、
平面上の曲線の特徴抽出により音声度合いと非音声度合いを数値で表現する。
一次データである振幅頻度分布から、あらかじめ決められた主要部分の曲率を計算し、
複数の曲率データを、あらかじめ決定されている音声度合いと非音声度合いを算出する計算式に代入し、音声度合いと非音声度合いを数値で得る。
一般的に、
図1(a)、(b)、(c)中、K の 0 から 1 への変化に対応したグラフの曲線の特徴や、図3の(a)から(i)に向かって変化するグラフの特徴から、k が 1 に近づくほど曲率の起伏が大きい傾向を利用する。
即ち、
k=0 の場合の曲率は、
振幅が大きい範囲では小さいが、振幅が 1/3 から 1/5 の範囲では大きく、さらに振幅が小さくなると曲率は再び小さくなる。
k=1 の場合の曲率は、
振幅が大きい範囲では小さいが、振幅が 1/3 から 1/5 の範囲では k=0 の場合に比べ大きく、
さらに振幅が小さくなると、曲率は急激に小さくなり、さらに、曲率は負の方向に大きくなり、再び小さくなる。
請求項2と請求項3についての補足説明
音声度と非音声度は相反する傾向にあることから、音声度から非音声度の総和を一定値として、一方の値を求めることで、他の一方を決定することもできる。もともと、音声度と非音声度は曖昧な評価を含んでいることから、厳密に定義することは重要ではない。
そこそこで、違和感のない結果が求められることから、音声度と非音声度の総和を一定の値として機能させることでも充分実用になる。
請求項4についての補足説明
音声度と非音声度の一次データは一単位時間ごとの変動が激しく、平滑化の行程を必要とする。図5と図8に示すところの、 E=0.95E*0.05*D は最も簡素な時系列信号の平滑化の計算式である。前回までの平滑出力の 95% に 新たな結果の 5% を加えて 新たな平滑化信号とする。一単位時間の 約20倍 の時定数 を持つ平滑化に相当する。
図5と図8の場合、一単位時間が 0.3秒 であることから、時定数換算で 約6秒 となるが、音質変化に違和感のない実用的なコンシューマ商品に組み込む場合、時定数換算で 10秒 くらいが適切な選択の一つであることが実験上、確認されている。
本案の本質は音声度と非音声度の一次データを公知の方法で平滑することであって、平滑化の形式やパラメータは設計的に選択決定される。
請求項5についての補足説明
入力信号が、設計された範囲の最大値より大幅に小さい場合、検出した信号の音声度、非音声度を評価する必要がないケースがほとんどである。従って信号の大きさが小さい場合、平滑化の応答速度を遅くすることで、音声度と非音声度の判定を安定化することができる。例えば、音声信号の場合、音声信号は強度が 0 に近い頻度が多いことから、背景雑音が大きい場合、信号が小さい領域で非音声と判定する確率が増え、判定結果が不安定になる。入力信号が小さい場合、平滑化の応答速度を遅くすることで、聴感上の自然さを損なうことなく判定結果を安定させることができる。
この場合、一例として、図5と図8に示すところの、 E=0.95E*0.05*D の定数 0.95 と 0.05 の値を、測定した Wmax の値に連動させることで簡単に具現化できる。
請求項6についての補足説明
請求項6は、無音時間が長く続く信号に対し、無音時間をどのような信号処理をするか、という対処方法に関する。音声度と非音声度の制御が常時機能すると、小さな雑音や背景音にも応答し、音声信号の時間であるにもかかわらず非音声として、逆に、非音声の時間であるにもかかわらず音声として検出する機会が増えて不都合が生じる場面が多い。
信号が一定値以下の大きさの場合は音声度と非音声度の評価結果にかかわらず、平滑化の動作を休止する方法が最も簡素で有効な方法であることを実験的に確認できる。
例えば、何かの解説番組で背景に背景音があって、微少信号が長く続く場面は多い。
このような場面では非音声として応答し、非音声の音質に変わる。次に音声が入ると、
非音声の音質から始まるので全体に音質の変化の頻度が多く、違和感を感じる機会が増える。
入力信号の振幅が特定の値より小さい場合、平滑化を休止することで、判定結果の安定化を図ることができる。
請求項6は請求項5とは独立しているが、双方の機能を併用することで、なお一層、判定結果の安定化を図ることができる。
平滑化を休止する信号の大きさは設計的に決定する。
音質制御についての補足説明
音質制御は多種多様な方法がある。音質の自動制御に適した最も簡単な方法の一つは、
音声と非音声に適した、それぞれの音質に対応するところの、独立したフィルターを設けておいて、それぞれのフィルターの出力に係数器を設け、制御信号で係数を制御し、全てのフィルターの係数器の出力を合成する方法である。音声用のフィルターと非音声用のフィルターの双方の出力に係数器を設ける。そして、本案を応用する場合は、音声度の評価値の平滑化信号で音声用のフィルターの係数を制御し、非音声度の評価値の平滑化信号で非音声用の係数を制御し、双方の係数器の出力を加算信号を再生信号とする。
Ri, i=0,1,2,3,,,,n 入力信号の設計上の上限値を Rmax とするところの、
設計上の全範囲を n個 に分割するための閾値
Rmax 設計上の入力信号の最大振幅の絶対値であって、Rn に等しい
Di, i=1,2,3,,,,n 一単位時間における Ri と Ri-1 の振幅範囲内の振幅頻度Wmax 実測によるところの一単位時間内の最大振幅
Rp Wmax より小さく、かつ、Wmax に最も近い閾値
Dp Rp と Rp-1 の間の振幅頻度
Ki Di, i=1,2,3,,,p の音声度評価のための係数
Hi Di, i=1,2,3,,,p の非音声度評価のための係数
Am, m=1,2,3,,,u 定数
DDj=Dj−Dj-1, j=2,3,,,,p 振幅頻度一次差分値
振幅頻度特性の隣りあう時間の、振幅が大きい方の頻度から
振幅が小さい方の頻度を差し引いた値
KKj DDj, j=2,3,,,,p の音声度評価のための係数
HHj DDj, j=2,3,,,,p の非音声度評価のための係数
Bm, m=1,2,3,,,u 定数
Es 音声度評価値
F{} {}内の振幅頻度と係数と定数からなる音声度評価関数
G{} {}内の振幅頻度と係数と定数からなる非音声度評価関数
Es=F{K1*D1,K2*D2,,,,Kp*Dp,KK2*DD2,KK3*DD3,,,KKp*DDp,A1,A2,,,,Au}
音声度評価値の一般的な計算式
Em=G{H1*D1,H2*D2,,,,Hp*Dp,HH2*DD2,HH3*DD3,,,HHp*DDp,B1,B2,,,,Bv}
非音声度評価値の一般的な計算式
Esmax 請求項1に記述の一単位時間の音声度評価値 Es の、
設計的に決定した変動範囲の最大値
Esmax-Es 非音声度評価値
Emmax 請求項1に記述の一単位時間の非音声度評価値 Em の
設計的に決定した変動範囲の最大値
Emmax-Em 音声度評価値
Dmin 音声非音声の判定を必要としない小さな信号の振幅の絶対値
Tmin 入力信号が Dmin を超えない時間が Tmin を超えた場合、
その一単位時間の音声度平滑化機能と非音声度平滑化機能を
休止するための待ち時間
図1
横軸 Probability 振幅頻度
縦軸 AMP 振幅
K 1 から 0 まで変化する係数
News*k ニュース信号に 係数 k を乗じた信号
Average-Music*(1-k) 平均的な音楽信号に 係数 (1-k) を乗じた信号
Environment-Noise(1-k) 環境ノイズ信号に 係数 (1-k) を乗じた信号
Crisp-Guitar-Music(1-k) 歯切れの良いギター音楽信号に 係数 (1-k) を乗じた信号
図2
Class Di i=01,02,03,,,,,20 振幅を 20分割 した場合の振幅頻度のデータ名称
Amphitude Range[%] THD,005,010,,,,,100 最大振幅を 100% とする各閾値
S1,S2,,,,Sn 縦軸の数値 サンプル信号 と 各閾値に対応する振幅頻度
図3
Speech 音声度合いが強い傾向
Non-Speech 非音声度合いが強い傾向
Commentary 解説、
News ニュース
Commentary+BGM 解説とBGMの合成
Talk 雑談
Furamenco-Guitar & Castanet ギターによるフラメンコとカスタネット
Furamenco-Guitar ギターによるフラメンコ
Music & vocal 楽器演奏とボーカル
A Cappella アカペラ
図4
1 ドラッグアンドドロップされた信号のスタートからエンドまでの時間軸を示す。
2 中央の白いツマミは振幅頻度を検証する時間位置を表示
Probabihity 振幅頻度
AMP 振幅
図5
1 入力信号のコンプレッサーのパラメータ入力部
2 一単位時間の時間長、振幅頻度測定の分解能、信号処理を休止する振幅 の設定
3 計算処理の手順を編集する窓
4 表示グラフの横幅の設定
5 計算過程の各変数の数値表示窓
6 グラフ表示窓
7 y は音声度のグラフ
図6
x 最大振幅の 1/3 付近の振幅頻度
z 小さい振幅の振幅頻度の傾斜
y 音声度非音声度の一単位時間ごとの計算結果
(1) (音声信号強度):(非音声信号強度)=0:10 の場合
(2) (音声信号強度):(非音声信号強度)=2:8 の場合
(3) (音声信号強度):(非音声信号強度)=4:6 の場合
(4) (音声信号強度):(非音声信号強度)=5:5 の場合
(5) (音声信号強度):(非音声信号強度)=6:4 の場合
(6) (音声信号強度):(非音声信号強度)=8:2 の場合
(7) (音声信号強度):(非音声信号強度)=10:0 の場合
図7
x 振幅が大きい付近の振幅頻度の傾斜
z 振幅が小さい付近の振幅頻度の傾斜
y x/z
(a)、(b)、(c) ニュース
(d) 解説
(e) 雑談
(f) ドラマセリフ
(g) BGMがある解説
(h) BGMがある商品案内
(i) BGMがある天気予報
(j) ラジオ体操
(k) 背景がひどくざわざわしている雑談
(l)、(m) アカペラの楽曲
(n)、(o)、(p)、(q) ボーカル楽曲
図8
M 中間変数
Wmax 一単位時間の最大振幅
Di, i=4,5,6,7,8,9,10 閾値 Ri と Ri-1 の間の振幅頻度
A,B,C,D 中間変数
x 最大振幅の 約1/3 付近の振幅頻度のグラフ表示
z 振幅が小さい付近の振幅頻度の傾斜のグラフ表示
y 音声度の計算結果

Claims (6)

  1. 頻度 とは、音響信号の振幅が特定の時間内における、
    特定の二つの閾値の間に存在する時間の総和、または
    特定の二つの閾値の間に存在するサンプリング数の総和
    であるとし、
    設計的に とは、一般的に定義された機能について、その機能を満足するところの全ての範囲の中から、特定の用途に合わせるべく、その機能が持つ変動範囲を制御するパラメータを選択または調節により決定する工程である とし、
    人の声であって、公共のメディアを介して内容が正確に伝わる必要のある信号、例を挙げれば、ニュースや解説や講義を代表とする信号を音声信号とし、
    楽器演奏とボーカルの任意の組み合わせからなる信号を音楽信号とし、
    その他の信号、例を挙げれば雑音や自然の音や効果音や都市騒音などを自然音信号とし、
    音楽信号と自然音信号を非音声信号とし、
    音声信号と非音声信号との任意の混成比率からなる信号を入力信号とし、
    入力信号の振幅の絶対値を振幅とし、
    0.1秒 から 3秒 を目安にするところの、
    音声信号と非音声信号を 識別するに必要かつ充分な時間の一単位を一単位時間とし、
    一単位時間の長さは設計的に決定されるものとし、
    一単位時間を 100% とし、
    入力信号の設計上の上限値を Rmax とするところの、設計上の全範囲を n個 に分割するための閾値を
    Ri, i=0,1,2,3,,,,n
    とし、
    Rmax は Rn に等しいものとし、
    その分割数 と 区域を分割するための閾値 は設計的に決定されるものとし、
    一単位時間における Ri と Ri-1 の振幅範囲内に、入力信号が存在する時間の総和を
    振幅 Ri の振幅頻度 Di, i=1,2,3,,,,n とし、
    振幅頻度 Di, i=1,2,3,,,,n を得る機能を振幅頻度測定機能とし、
    一単位時間内の入力信号の最大振幅、または、最大振幅と判定した振幅を一単位時間内最大振幅とし、
    一単位時間内最大振幅 を Wmax とし、
    Wmax より小さく、かつ、Wmax に最も近い閾値 Ri を Rp とし、
    Rp と Rp-1 の間の振幅頻度を Dp とし、
    Rp を特定する機能を最大振幅検出機能とし、
    Rp を特定する具体的手順については設計的に選択決定されるものとし、
    Ki を Di, i=1,2,3,,,p の係数とし、
    Hi を Di, i=1,2,3,,,p の係数とし、
    Am, m=1,2,3,,,u を定数とし、
    振幅頻度特性の隣りあう時間の、振幅が大きい方の頻度から振幅が小さい方の頻度を差し引いた値を振幅頻度一次差分値とし、
    振幅頻度一次差分値群を、
    DDj=Dj−Dj-1, j=2,3,,,,p とし、
    KKj を DDj, j=2,3,,,,p の係数とし、
    HHj を DDj, j=2,3,,,,p の係数とし、
    Bm, m=1,2,3,,,u を定数とし、
    Es を、入力信号の音声度合いの評価値であり、それを音声度評価値とし、
    Em を入力信号非音声の度合いの評価値であり、それを非音声度評価値とし、
    F{} を{}内の振幅頻度と係数と定数からなる音声度評価関数とし、
    G{} を{}内の振幅頻度と係数と定数からなる非音声度評価関数とし、
    音声度評価関数と非音声度評価関数の、
    {}内は振幅頻度と係数と定数からなる演算式で表現されているものとし、
    それらの演算式とは、
    加減乗除演算 と
    三角関数 と 指数関数 と 対数関数 と
    最大値と 最小値 と 絶対値 と 小数点以下切り捨て と 条件判断 の演算処理 との いずれも公知とその組み合わせからなるものとし、
    演算の具体的手順 は設計的に選択決定されるものとし、
    F、G 共に{}内の要素群は
    i=1,2,3,,,,,p とするところの ki*Di
    j=2,3,,,,p とするところの kkj*DDj
    m=1,2,3,,,,u とするところの Am
    i=1,2,3,,,,,p とするところの Hi*Di
    j=2,3,,,,p とするところの HHj*DDj
    m=1,2,3,,,,v とするところの Bm
    からなるものとし、
    全ての Di と DDj の内、どの値をどのように反映させるかは、係数 Ki と KKj と Hi と HHj と Am と Bm の値の選択により設計的に決定されるものとし、
    このことは、いずれの係数も、いずれの定数についても 0 を含む政府のいずれの値をも取り得ることを意味するものとし、
    Es=F{K1*D1,K2*D2,,,,Kp*Dp,KK2*DD2,KK3*DD3,,,KKp*DDp,A1,A2,,,,Au}
    として計算処理されるところの Es を音声度評価値とし、
    Em=G{H1*D1,H2*D2,,,,Hp*Dp,HH2*DD2,HH3*DD3,,,HHp*DDp,B1,B2,,,,Bv}
    として計算処理されるところの Em を非音声度評価値とし、

    音声度評価値と非音声度評価値を得る機能を音声非音声度評価機能とし、
    いずれも公知の振幅頻度測定機能と最大振幅検出機能と音声非音声度評価機能とを有することを特徴とするところの、
    音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声と非音声の度合い検出方法。
  2. 請求項1に記述の一単位時間の音声度評価値 Es の、設計的に決定した変動範囲の最大値を Esmax とし、
    音声度評価値 Es に加えて、
    Esmax から Es を差し引いた値 Esmax-Es を非音声度評価値 とするところの、
    音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声信号と非音声の度合い検出方法。
  3. 請求項1に記述の一単位時間の非音声度評価値 Em の設計的に決定した変動範囲の最大値を Emmax とし、
    非音声度評価値 Em に加えて、
    Emmax から Em を差し引いた値 Emmax-Em を音声度評価値 とするところの、
    音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声と非音声の度合い検出方法。
  4. 請求項1と請求項2と請求項3に記述の、
    時系列上に連続して算出する一単位時間ごとの 音声度評価値と非音声度評価値 を時系列的に平滑化する機能を、それぞれ、音声度平滑化機能と非音声度平滑化機能とし、
    音声度平滑化機能と非音声度平滑化機能の応答速度は設計的に決定されるものとし、
    設計的に決定された応答速度とは、一単位時間毎に大きく変動する音声度評価値と非音声度評価値が人の聴覚に違和感を与えない程度に滑らかに応答するべく設計的に調節決定された平滑化の度合いに対応する応答速度であるものとし、
    音声度平滑化機能の出力を音声度制御信号とし、
    非音声度平滑化機能の出力を非音声度制御信号とし、
    音声度制御信号を、音声信号の明瞭度を上げる信号処理機能の制御信号とし、
    明瞭度とは、音声の内容の聞き取り安やの度合いであるものとし、
    非音声度制御信号を非音声信号の再生音の豊かさや臨場感を強くする信号処理機能の制御信号とし、
    豊かさや臨場感とは、音源に近づいて感じる音質であって、主として低音強調と高音強調を作用させた音質の感覚的表現であるものとし、
    請求項1の音声度評価機能と非音声度評価機能に加えて、音声度平滑化機能と非音声度平滑化機能を有するところの
    音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声と非音声の度合い検出方法。
  5. 請求項4に記述の、音声度平滑化機能と非音声度平滑化機能が持つ平滑化の応答速度に関して、
    信号が小さいときは平滑化の応答速度を遅くすべく、信号の大きさに応じて平滑化の度合いを制御する機能を有するところの、音声度評価機能と非音声度評価機能をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの音声信号と非音声の度合い検出方法。
  6. 請求項4に記述の、音声度平滑化機能と非音声度平滑化機能に関し、
    信号処理しようとする信号の、設計上の入力信号の最大振幅の絶対値を Rmax とし、
    実測によるところの一単位時間内の最大振幅を Wmax とし、
    Rmax と Wmax のいずれかを基準にするところの、特定の値を Dmin とし、
    Dmin は音声非音声の判定を必要としない小さな信号の振幅の絶対値であるとし、
    振幅が Dmin を超えない入力信号を検出した場合に関し、
    入力信号が Dmin を超えない時間が Tmin を超えた場合、その一単位時間の音声度平滑化機能と非音声度平滑化機能を休止する機能を平滑化休止機能とし、
    平滑化休止機能は、入力信号の振幅が Dmin を上回った時点で休止を解除し、平滑化機能を再開させるものとし、
    Dmin を決定する手順と、Tmin の値 は設計的に決定されるものとし、
    請求項4に記述の、音声度平滑化機能と非音声度平滑化機能に加えて、音声非音声検出休止機能を有するところの、音声度評価値と非音声度評価値をもって入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声信号と非音声の度合い検出方法。






















JP2018093666A 2018-05-15 2018-05-15 音声と非音声の度合いの検出方法 Active JP6539829B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018093666A JP6539829B1 (ja) 2018-05-15 2018-05-15 音声と非音声の度合いの検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018093666A JP6539829B1 (ja) 2018-05-15 2018-05-15 音声と非音声の度合いの検出方法

Publications (2)

Publication Number Publication Date
JP6539829B1 JP6539829B1 (ja) 2019-07-10
JP2019200259A true JP2019200259A (ja) 2019-11-21

Family

ID=67212084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018093666A Active JP6539829B1 (ja) 2018-05-15 2018-05-15 音声と非音声の度合いの検出方法

Country Status (1)

Country Link
JP (1) JP6539829B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327601B (zh) * 2021-05-26 2024-02-13 清华大学 有害语音的识别方法、装置、计算机设备和存储介质
CN114242116A (zh) * 2022-01-05 2022-03-25 成都锦江电子系统工程有限公司 一种语音的话音与非话音的综合判决方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023776A (ja) * 2000-07-13 2002-01-25 Univ Kinki ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法
JP2005091732A (ja) * 2003-09-17 2005-04-07 Univ Kinki ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法
JP2009217063A (ja) * 2008-03-11 2009-09-24 Toyota Motor Corp 信号分離装置及び信号分離方法
JP2010054954A (ja) * 2008-08-29 2010-03-11 Toyota Motor Corp 音声強調装置及び音声強調方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023776A (ja) * 2000-07-13 2002-01-25 Univ Kinki ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法
JP2005091732A (ja) * 2003-09-17 2005-04-07 Univ Kinki ブラインド信号分離で求めた分割スペクトルの振幅分布の形状に基づく目的音声の復元方法
JP2009217063A (ja) * 2008-03-11 2009-09-24 Toyota Motor Corp 信号分離装置及び信号分離方法
JP2010054954A (ja) * 2008-08-29 2010-03-11 Toyota Motor Corp 音声強調装置及び音声強調方法

Also Published As

Publication number Publication date
JP6539829B1 (ja) 2019-07-10

Similar Documents

Publication Publication Date Title
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
JP6896135B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6325640B2 (ja) 等化器コントローラおよび制御方法
JP2014508460A (ja) セマンティック・オーディオ・トラック・ミキサー
US20170047094A1 (en) Audio information processing
JP4885812B2 (ja) 音楽検出装置
US6673995B2 (en) Musical signal processing apparatus
JP6539829B1 (ja) 音声と非音声の度合いの検出方法
EP3860156A1 (en) Information processing device, method, and program
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
JP4275054B2 (ja) 音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180515

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180515

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190429

R150 Certificate of patent or registration of utility model

Ref document number: 6539829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150