JP6539829B1

JP6539829B1 - 音声と非音声の度合いの検出方法

Info

Publication number: JP6539829B1
Application number: JP2018093666A
Authority: JP
Inventors: 角元　純一; 純一角元; 村上　裕一; 裕一村上
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2019-07-10
Anticipated expiration: 2038-05-15
Also published as: JP2019200259A

Abstract

【課題】音声と音楽を識別する方法を提供する。【解決手段】一単位時間内の、特定の振幅の範囲と、その信号が振幅範囲にある時間の総計を測定する。全振幅を細分化し、振幅が個々の振幅範囲に入る時間の頻度分布から、振幅と頻度の関係を検証し、その特徴から、信号の性質が完全な音楽から完全なアナウンスまでの間のどの位置にあるかを判定する。【選択図】図１

Description

請求項で定義した用語と記号は明細書においても同様とする。
音響信号の振幅分布
音声信号の統計的性質について
音楽信号の統計的性質について
環境騒音や自然音の統計性質について
平滑化信号処理

ニュースや解説番組の音声を、楽曲やその他の信号と識別する手法の実状に関し、
前述の、特開 2002-366189 音楽と音声の識別検出方式はカーオーディオやテレビ放送の再生信号の音質制御として2002年から2018年現在まで、そのアルゴリズムをDSPに組み込んで商品に使用している実績がある。
しかしながら、この方法には、これまで、複数回の改良を実施したものの、CPUの資源消費の許容限界もあって、下記のような場面での音質の完成度は満足できるレベルに達していないのが現状である。
天気予報番組の場合、BGMがアナウンスに合成されていることが多い。
ニュース番組の場合、取材する場所の環境騒音が入っていることが多い。
ドラマ番組の場合、環境音やBGMが合成されているのが一般的である。
実況中継や報道番組の場合、実況場所や取材場所の観客騒音や環境騒音が入っている。
など、音声とその他の信号が合成されていて、その合成比率も場面によって異なる。
この方法はアナウンスの無音時間の検出を基本としていることから、楽曲や騒音や雑音などの、小さいが切れ目のない信号が混じっている場合、音声が主体の信号であっても、音声である度合いがどの程度なのかの判定が難しい。

特開 2002-366189 音楽と音声の識別検出方式
無音時間の頻度を検出することで、音声と音楽を識別する方法に関する。
特開2010-152015 特許4439579
音質補正装置、音質補正方法及び音質補正用プログラム
特開平05-297883 音響信号処理装置および音響信号処理方法と音響信号判定装置
上記２件は、信号が音声であるかと音楽であるかを判定した結果を受けて音質を決定する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特開平8-179791 音の可視化方法および装置
信号のスペクトル分析や、スペクトルのピーク値の周波数や強度の安定度や調和成分を検証することで、信号の性質を表示する方法に関する。音楽か、音声かを判定する具体的手法に関するものではない。
特表2010-530989 特許5395066
音声時間検出及び音声信号分類のための方法及び装置
信号のスペクトル分析とスペクトルの相関分析によるスペクトルの特徴による、音声時間の検出方法に関する
特開2011-85824 音響識別装置、その処理方法及びプログラム
信号のスペクトル分析によるスペクトルの特徴による、音声と音楽の判別方法に関する。
特開平7-64598 音声信号弁別装置およびオーディオ装置
音響信号をスペクトル分析し、周波数帯による強度の特徴の比較による音声と音楽の判別方法に関する
特開平8-179791、
特表2010-530989（特許5395066）、
特開2011-85824、
特開平7-64598、
上記4件は、信号のスペクトル分析やとスペクトルの相関分析によって、スペクトルの強度分布の特徴を捉える方法について、多数出願されているが、スペクトルの特徴だけで、それが音声であるか音楽であるか、それらの合成比率を判定するには曖昧な領域が存在し、その曖昧さをどのように検出するかの課題がある。

本案の着目点であるところの、請求項１に記述の入力信号の振幅の頻度について、PC上で実測できるGUIを試作し、代表的な信号について音声と非音声の合成比率を変えることで、振幅分布の変化の傾向を確認した結果を図１に示す。図1のグラフは、音声と音楽の合成信号について、合成比率を変えた信号からそれぞれの信号について10カ所ないし20カ所を無作為に選び、それぞれ 1秒の一単位時間について、縦軸を振幅、横軸をそれぞれの振幅範囲にある時間の総和としてプロットしたものである。横軸は振幅の頻度であるが、振幅の確率密度としても解釈できる。
縦軸はその時間内の最大信号が100%、横軸は1秒の一単位時間が100% である。
図１は、音声と音楽の合成比率によって振幅頻度がどのように変化するかを検証するために測定したものであって、合成比率を変えることによる曲線の特徴が目視で確認できる程度に規則性をもっていることを示している。
（ａ）はニュース放送とＢＧＭ向きの標準的な楽曲の、
（ｂ）はニュース放送と市街地の環境騒音の、
（ｃ）は女性の解説放送と急峻な変動がある金属弦ギターによるフラメンコ楽曲
の、それぞれ合成比率を変えての振幅に対応する頻度の測定結果である。音声も楽曲も騒音も、音源の種類はいくらでも存在するので、そこに完全な普遍性を見いだすことは難しいが、少なくとも日常的に耳にする音の信号では図１に示すグラフから、ある程度の共通性を見いだすことができる。
従って、カーオーディオやＴＶのセットに組み込むための音声と音楽を判定する機能は、商品の本質である主機能に差し支えのないCPUの資源消費の範囲で、最大限の効果を出さなければならない。
大量のデータベースにアクセスすることなくローカルで閉じているところの、リアルタイム性に勝れた簡素な信号処理方法でなければならない。簡素とは、時間軸の信号を周波数軸上の信号に変換する行程が必要な手法や、きめ細かくケースバイケースの統計処理を必要とする手法に比べ、大幅に簡素であることを意味する。

図１の（ａ）と（ｂ）と（ｃ）の、振幅が 15% 以下の小さい範囲でのグラフの傾きに着目すると、音声と非音声の合成比率と強い関係があることが確認できる。グラフは、音声の成分が大きい場合、振幅が 0 の付近で水平に近く、変曲点は顕著でない。
非音声の成分が大きい場合、頻度が 0の付近で垂直に近く、変曲点が顕著である。
本案は、図１の振幅対頻度曲線の特徴に着目するところの、音声から非音声までの成分の比率に対応した評価を数値で得る方法に関する。

音響信号の音声度と非音声度を数値で評価する方法。
完全な音声から完全な非音声に至る中間部を連続的で、かつ、安定した数値で結果を出す方法。
多様で、変化が頻繁で、曖昧な信号に対し、数値で評価した音声と非音声の度合いでもって、敏感な聴覚にとって違和感のない音質に制御する方法。
以上は、課題の一般的で抽象的な表現である。
そして、上記の課題には下記の二つの必要条件がある。
重要なことの第１は、
できる限り少ない、計算処理資源の消費で、上記の結果を出すことである。一例として、44.1kHz のサンプリング周波数で 5MIPS 程度を目安とする計算処理であれば、CPU資源消費に与える影響は大きくない。
重要なことの第２は、
完全な音声から完全な音楽まで連続的で安定した傾向として数値で表現できなければならない。
音声と非音声の中間点が出力数値の最大値と最小値の中間点にあることは必修である。特開 2002-366189 音楽と音声の識別検出方式は出願当時から実用に供され現在も実機に使われている手法ではあるが、 5MIPS は満足されているものの、音声と非音声の中間領域で、音質が完全ではない。実状は、最大最小の範囲が広すぎることから、条件論理演算によって範囲に強力な制限がかけられている。完全な音声と完全な非音声に関しては問題ないが、強力な範囲制限が出力するところの広い中間範囲の数値と聴感が受ける自然感との間に乖離があって、信号の種類に依存して替わり目に不自然さを感じるケースが少なくない。
人の感性が最終評価結果となることから全計算行程を一義的に決定することは適切ではなく、設計者の判断や、商品の性格によって選択できる融通性も持ち合わせていなければならない。
基準点を安定にしなければならない、という課題は、何をもって最大値と最小値にするかにある。入力信号が音響信号であることから大きさの変化、種類の多様さその範囲が極めて広いことに原因するところの難しさがある。

第１に、振幅頻度の性質を利用する。
一単位時間内の頻度の測定は、スペクトル分析による方法と比べ CPU資源の消費が大幅に少ない。
第２に、振幅頻度を利用する場合、計算が容易で、かつ、簡素である。
振幅頻度の場合、一次差分、必要であれば二次差分、の計算が簡素であって、時間に対する変化の傾向分析に要するCPU資源の消費が小さくて済む。
第３に、振幅の頻度とその一次差分の測定結果を可変係数群との組み合わせによる乗算と加算のネットワークを通すことで、多様な入力信号と最適な聴感の関係を満足する係数群を見いだすことができる。聴感にとって最適な状態とは、数値としてのリファレンスではなく、人の感性と意思決定によるものであることから、計算手順もさることながら、多種多様な信号について聴感で確認しながら計算式に仕組まれる係数や定数を調節的に決定する。さらに機械的な手法として、多種多様な信号と聴感が求める結果との関係を学習させることで係数や定数の最適値を決定する。本案の手法は、計算処理構造と係数群の選択が設計の意思や目的にゆだねられなければならない課題に対し極めて有効である。

第１に、完全な音声から完全な非音声に至る中間の範囲で、連続的に数値で結果を出すことができる。
第２に、数値化の根拠を明確にすることができる。
第３に、多様性のある聴覚の判断に対し、計算結果に自由度を持たせることができる。
計算構造と係数群と定数群を設計的に決定する方法に関し、
実験的に決定する方法だけでなく、多数のサンプルとそれぞれの評価結果により学習的に決定する方法も選択できる。
第４に、少ないCPU資源消費で計算処理できる。

音声信号と非音声信号の合成比率を変えて測定したサンプル信号の振幅頻度振幅頻度の数値データの一例各種音響信号サンプルの振幅頻度図１、図２、図３の振幅頻度をPC上で測定するところの一括処理用のGUI画面請求項１、２、３、４、５、６、を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理用を想定したGUI画面図５に示すGUIによる音声信号と非音声信号の合成比率を変えた信号の評価結果図５に示すGUIによる、各種サンプル信号の評価結果図６、図７、の結果を得るための、図５のGUIに代入した計算手順の一例

音声と音楽の度合いを判別し最適な音質を再生するＴＶ用スピーカシステムとカーオーディオシステム。

（１）再生信号の種類に応じた最適な音質の制御プログラム。
（２）アナウンス信号に対し、加齢に伴う聴覚劣化を補う自動高明瞭化プログラム。

図１は、音声信号と非音声信号の合成比率を変えて測定した、サンプル信号の振幅頻度である。本案の可能性を検証するために測定したものである。
縦軸は振幅、横軸は頻度である。
（ａ）は、ニュースと通常の楽曲、（ｂ）は、ニュースと環境ノイズ、
（ｃ）は、ニュースとギターとカスタネットの楽曲のそれぞれについて、
ニュース信号に掛かる係数を k とし、楽曲または環境ノイズに掛かる係数を 1-k として、k=0,2,4,5,6,8,10 と変化させた場合の合成信号について測定した振幅頻度である。いずれも、ｋの値が１に近づくに伴い、振幅が 15% から 25% の付近で曲線が直角に近くなり、振幅が 5% から 10% の付近で振幅頻度が急激に大きくなる。大雑把な評価では、振幅が 0% の付近の傾斜と振幅が 30% の付近の値の比率によって、音声度か非音声度かの判別結果の数値表示が可能であることを推測できる。

図２は、振幅頻度の数値表示の一例である。振幅の分割数は 20 の場合である。振幅の分割数と一単位時間の時間は設計的に適正値を選択決定する。振幅の最大値を 100% とし、一単位時間の全時間を 100% とする。
S1、S2、、、Sn は供試信号の種類である。
D01 は最低値 THD から 5% までの閾値の間の振幅頻度を示す。D02 から D20 は D01 と同様に、振幅の最大値の 1/20 きざみの閾値を示し、S1、S2、、、Sn の縦の欄は、それぞれの振幅頻度を示す。

図３は、各種音響信号のサンプルの振幅頻度測定結果である。
縦軸は振幅、横軸は頻度である。
（ａ）は解説、
（ｂ）はニュース
（ｃ）はニュース
（ｄ）は解説とBGMの合成
（ｅ）は雑談
（ｆ）はギターによるフラメンコとカスタネット
（ｇ）はギターによるフラメンコ
（ｈ）は楽器演奏とボーカル
（ｉ）はアカペラ
信号である。
（ａ），（ｂ）、（ｃ）は、ほぼ純粋のスピーチ信号であって、グラフは振幅が 10% の付近で急激に折れ曲がっている。
（ｄ）、（ｅ）は純粋のスピーチと楽曲と環境騒音の合成信号であり、振幅が 10% の付近での曲がりは純粋のアナウンスよりも緩く曲がっている。
（ｆ）、（ｇ）は楽器演奏であるが、歯切れの良い演奏であることから楽曲でも音声に近い性質を持つが、振幅が 10% の付近は緩く曲がっていて、振幅が 5% の付近での振幅頻度は純粋のスピーチ信号よりも大幅に小さい。
（ｈ）、（ｉ）はボーカルが主体の楽曲である。いずれも、振幅が 10% の付近の曲がりはほとんどなく、振幅が 5% の付近では振幅頻度は小さい。
（ａ）から（ｉ）までのグラフは、図１で確認できるところの、k=1 から k=0 までのグラフの特徴と類似である。

図４は、図１、図２、図３の振幅頻度をPC上で測定する一括処理用のGUI画面である。（ａ）は操作画面である。音響信号のファイルのドラッグアンドドロップで、（ｂ）のグラフを表示する。1 の黒色の横のバーは音響信号全体の時間軸を示す。2 の左 S がスタートポイント、右の E はエンドポイントである。中間の白色バーを左右に動かすことで、そのポイント付近の一単位時間の振幅頻度が（ｂ）の窓にグラフで表示される。
縦軸は信号の振幅であって、100% はサンフ゜ル信号の全区間の振幅の最大値に対応する。横軸は振幅頻度である。グラフの基になるデータはファイルとして保存できる。複数のデータファイルをグラフの画面にドラッグアンドドロップすることで全てのデータを重ねて表示できる。
このGUIを使うことによって、多種多様で多数の音響信号についての結果を目視での比較評価ができることから、傾向を直感的に認識し、その傾向の客観的な分析へと、筋道をつけることができる。

図５は、請求項１を実証するための、PC上で動作し、評価結果を表示するリアルタイム処理を想定したGUIの画面を示す。
図５のGUIの場合、振幅の最大値は供試された信号の全区間の最大値が 100% であることに対し、図６のGUIはリアルタイム処理を想定した信号処理となっていることから、縦軸の最大値は設計値としての最大値、即ち 2^15＝32768 が 100% となっている。
（ａ）は、得られた一単位時間ごとの振幅頻度のデータを計算処理し、音声度と非音声度をグラフ表示するための計算手順の編集画面である。計算手順をファイルとして保存し、かつ読み出し、編集することができるので、目的とする結果を得るための複数の計算手順を比較検討することができる。音響信号を（ｂ）の画面にドラッグアンドドロップすることでリアルタイム処理を想定した計算手順によって計算処理し、結果を（ｃ）の画面にグラフ表示する。
1 は音響信号を再生した場合と同様な動作で、振幅の最大値を一定の値に保つコンプレッサーのパラメータ設定機能である。アタックタイムとレリースタイムとレリース動作を止める信号レベルを設定できる。
2 は、一単位時間の計算処理のパラメータ設定機能である。振幅の閾値の分解能と一単位の時間と信号処理結果の更新を休止する信号レベルを設定できる。
3 は音声度と非音声度の最終結果と中間結果をグラフ表示するための計算処理手順の編集窓である。
4 はグラフ表示の横軸の分解能、
5 は計算過程の中間変数と結果の数値表示
6 はグラフ表示窓
7 はグラフ中のカーソル位置のグラフの縦軸の値である。
記載の計算手順の全ては一例である。
この設定例での、全振幅範囲の分割数は 30 である。従ってそれぞれの閾値間の頻度は Di, i=1,2,……30 である。
計算式に関する詳細は図８で説明する。

図６は、図５に示すGUIによる、音声信号と非音声信号の合成比率を変えた場合の音声度非音声度の計算結果である。それぞれの一単位時間ごとの計算結果であって、時系列的な平滑処理はされていない。y は音声度の最終結果、x と z は中間結果である。
縦軸は振幅、横軸は頻度である。

図７は、図５に示すGUIによる、各種サンプル信号の音声度非音声度の計算結果である。一単位時間ごとに算出された評価結果をもとに、時系列的な平滑処理を施したものである。図7の平滑処理は傾向を確認するために見やすくする程度であって、聴覚によって違和感のないレベルにまでは平滑化してはいない。どのような平滑化とするかについては設計的に決定するところなので、詳細説明を省略する。
（ａ）、（ｂ）、（ｃ）はニュース
（ｄ）は解説
（ｅ）は雑談
（ｆ）はドラマセリフ
（ｇ）はBGMがある解説
（ｈ）はBGMがある商品案内
（ｉ）はBGMがある天気予報
（ｊ）はラジオ体操
（ｋ）は背景がひどくざわざわしている雑談
（l）、（ｍ）はアカペラの楽曲
（ｎ）、（ｏ）、（ｐ）、（ｑ）はボーカル楽曲
の信号である。図中 y の曲線が音声度合いの強さを表す。
縦軸は振幅、横軸は頻度である。
音声度非音声度の計算式を図８に示す。

図８は、図６、図７の結果を得るための、図５のGUIに代入した計算手順の一例である。
１行目の計算式 M=(1000/30)*Wax/32768 は、
測定中の一単位時間の振幅の最大値 Wmax を、入力信号の設計値の最大値であるところの、 2^5 即ち 32768 に対する百分率の値に変換し、中間変数 M に代入する。
24ビット固定小数点の場合の最大値は 2^23 である。
浮動小数点の場合の最大値は有効数字と桁数で表現される。

２行目から２２行目までの [M>Di] A=Dx, x=,10,11,,,,,30 は測定した最大振幅 M がどの閾値の範囲にあるかを見いだし、その約1/3 の閾値に対応する振幅頻度 Dx を中間変数 G に代入する行程である。入力信号はコンプレッションされている場合が一般的である。コンプレッサーは最大値と追従速度のパラメータを持っているが、実際の正確な最大値がどのレベルにあるかは定かではないので、計算処理による検証によって実際の振幅の最大値がどの閾値の範囲にあるかを割り出す必要がある。
最大振幅がどの閾値の範囲にあるかを割り出す方法は設計的に決定される。
A は中間変数である。

２３行目のｘ＝A は A の値のグラフ表示の指示である。
２４行目の A=A+1 は、Aの値が 0 である場合、その後の計算行程での除算ができなくなる可能性を排除するために１を加えたものである。この場合の定数 1 は、
評価の範囲を適正にするための値であって、この値は設計的に決定される。

２５行目の B=5*abs(D2-D1) は閾値が小さい区間の振幅頻度の傾斜を求める計算式である。計算結果がグラフに見やすい範囲となるよう 5 なる係数を乗じている。この場合の係数 5 は請求項１に記述の KK2 に相当するその他の KKi の値は 0 であり、最も簡素な評価計算式の一例である。
B は中間変数である。

２６行目の z＝B はこのGUIが変数 z をグラフ表示するので、中間変数 B をグラフ表示する代入式である。
即ち、
x は振幅が最大の 1/3 付近の振幅頻度、
z は振幅が最小付近の振幅頻度の傾斜、即ち、振幅頻度一次差分値を表示する。

２７行目の C=10*B/A は最大振幅の付近に対する最小振幅の付近の振幅頻度の比を求める計算式である。C の値が大きくなると信号の音声度合いの傾向が強く、逆に小さくなると、非音声度合いの傾向が強くなる。10 は一単位時間の評価結果の数値をグラフ上に見やすい高さにするための係数である。

２８行目の D=0.95*D+0.05*C は時系列的に連続して得られる一単位時間の評価結果を時系列的にらかにするための平滑化処理である。平滑化の結果の 0.95倍に新たな一単位時間の 0.05倍を加える。定数 0.95 と 0.05 は平滑化パラメータの一例であって、この計算手順と、パラメータも設計的に決定される。２８行目の計算手順は時系列で変動する数値を滑らかする手法の内、最も単純な方法の一例である。
２９行目の E=C はこのGUIが変数 y をグラフ表示するので、入力信号の一単位時間ごとの音声度と非音声度をグラフに表すための代入式である。
３２行目の y=E はグラフ表示変数 y に E を代入する。
平滑化した数値 D を表示する場合はここで、 E=D とする。

図６と図７の結果が示すように、音声と非音声の度合いの数値化に関して内分比率に応じた評価結果であることと信号の種類に応じた評価結果が期待の範囲にあることがわかる。評価結果を出すに必要な行程は、
第1に、振幅を 20 ないし 30 程度に分割し、それぞれの閾値での頻度判定。
第２に、その頻度判定を一単位時間内ごとに実施。
第３に、頻度判定結果を基に、一単位時間内での最大振幅から最大振幅の閾値を求める。
第４に、最大振幅以下の閾値に対応する振幅頻度を求める。
第５に、振幅頻度から簡素な計算式で音声度と非音声度を数値化。
第６に、数値化された簡素な方法で音声非音声の度合いを時系列的に平滑化。
第７に、平滑化された音声非音声の度合いを音質制御信号とする。
である。

請求項１についての補足説明
例えば、信号が、サンプリング周波数が 44.1kHz の符合付き 16ビットである場合、設計レベルでの最大の大きさは 2^15=32768 である。
例えば、30段階に等しい大きさの時間で設定する場合の Ri, i=0,1,2,3,,,,,n の
それぞれのスレッショルドは、 32768/30 ごとに設定される。
振幅頻度 Di, i=1,2,3,,,,,n は振幅がRi と Ri-1 の間にあるサンプリングの個数に対応する。一単位時間が例えば 1秒の場合、サンプリング数 44100 個が頻度 100% となる。
従って、Di に対応す頻度数を Ni とすると、Di の値は 100*Ni/44100 となる。
一単位時間の中の実働状態での入力信号の実測値の最大値は不明であることから、最大振幅に最も近い Rn, n=p を探さなければならない。
実測値 Wmax がどの閾値、即ち Rpに属するか、特定する方法の一つに、(1000/30)*Wmax/32768 の小数点以下の値を切り捨てた値を p の値として算出できる。
図５のGUIでは小数点以下の値を切り捨てる機能を持っていないことから、M の値を最大値から小さい値へと順次比較し、Rp を特定し、振幅が最大値付近の Di-Di-1 を得る。
振幅が小さい付近では常に 0 ではない振幅頻度が理論的にも存在することから、D1,D2 あるいは DD1,DD2 のを使うことが有効である。
振幅が最大値の Dp-Dp-1 は値が極めて小さいことと、理論的に値が不正確であるケースが頻繁であることから、実用的には、図５の例に示すように、 t=Rp/3 なるRt など振幅頻度の曲線に変曲点が現れる付近の振幅頻度を選択することが有効である。
どの振幅の頻度をどのように利用するかは設計的に選択決定される。

音声度合いと非音声度合いの具体的な計算手順の例として次のような方法がある。
いずれも、図１の振幅頻度曲線の特徴から簡素な代数計算で判定できる手法である。

音声度合いの算出方法その１、
振幅が小さい付近の頻度が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、D1 もしくは D2 を用いる。
この場合、請求項１に記述F{} の要素として、 i が 1 または 2 の場合の Ki*Di を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。

音声度合いの算出方法その２、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向を利用する。この場合、DD1=D1-D0 や DD2=D2-D1 などの、振幅が小さい付近の振幅頻度一次差分値を用いる。
この場合、請求項１に記述F{} の要素として、 i が 1 または 2 の場合の KKi*DDi を用いる方法が最も簡単な方法の一つである。
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。
一般的には、
図１の（ａ）、（ｂ）、（ｃ）中、
k の 0 から 1 への変化に対応したグラフの曲線の特徴や、
図３の（ａ）から（ｉ）へ向かって変化するグラフの曲線の特徴から、
見て取れるように、
音声度合いが強いほど、振幅が 0 の付近で振幅頻度の一次差分値 DDi の値は正の方向に小さい傾向が顕著であって、逆に、非音声度合いが強いほど、負の方向に大きい傾向が顕著である、という性質を利用する。

音声度合いの算出方法その３、
振幅が小さい付近の振幅頻度曲線の傾斜が大きい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
振幅が最大振幅の 1/3 付近の振幅頻度が小さい場合は音声度が強く、逆の場合は非音声度が強い、という傾向と、
の双方を利用する。
この場合、Rp のポインター p が最大振幅の閾値に対応するとき、
u=Pmax/3 付近の閾値 Ru の振幅頻度 Du と
DD1=D1-D0 なる振幅頻度一次差分値を用いる。
F{} の要素として、Kt*Dt と、i が 1 の場合の KK1*DD1
を用いる方法が最も簡単な方法の一つである。
G は Fmax-F{} を用いる。

音声度合いの算出方法その４、
平面上の曲線の特徴抽出により音声度合いと非音声度合いを数値で表現する。
一次データである振幅頻度分布から、あらかじめ決められた主要部分の曲率を計算し、
複数の曲率データを、あらかじめ決定されている音声度合いと非音声度合いを算出する計算式に代入し、音声度合いと非音声度合いを数値で得る。
一般的に、
図１（ａ）、（ｂ）、（ｃ）中、K の 0 から 1 への変化に対応したグラフの曲線の特徴や、図３の（ａ）から（ｉ）に向かって変化するグラフの特徴から、k が 1 に近づくほど曲率の起伏が大きい傾向を利用する。
即ち、
k=0 の場合の曲率は、
振幅が大きい範囲では小さいが、振幅が 1/3 から 1/5 の範囲では大きく、さらに振幅が小さくなると曲率は再び小さくなる。
k=1 の場合の曲率は、
振幅が大きい範囲では小さいが、振幅が 1/3 から 1/5 の範囲では k=0 の場合に比べ大きく、
さらに振幅が小さくなると、曲率は急激に小さくなり、さらに、曲率は負の方向に大きくなり、再び小さくなる。

請求項２と請求項３についての補足説明
音声度と非音声度は相反する傾向にあることから、音声度から非音声度の総和を一定値として、一方の値を求めることで、他の一方を決定することもできる。もともと、音声度と非音声度は曖昧な評価を含んでいることから、厳密に定義することは重要ではない。
そこそこで、違和感のない結果が求められることから、音声度と非音声度の総和を一定の値として機能させることでも充分実用になる。

請求項４についての補足説明
音声度と非音声度の一次データは一単位時間ごとの変動が激しく、平滑化の行程を必要とする。図５と図８に示すところの、 E=0.95E*0.05*D は最も簡素な時系列信号の平滑化の計算式である。前回までの平滑出力の 95% に新たな結果の 5% を加えて新たな平滑化信号とする。一単位時間の約20倍の時定数を持つ平滑化に相当する。
図５と図８の場合、一単位時間が 0.3秒であることから、時定数換算で約6秒となるが、音質変化に違和感のない実用的なコンシューマ商品に組み込む場合、時定数換算で 10秒くらいが適切な選択の一つであることが実験上、確認されている。
本案の本質は音声度と非音声度の一次データを公知の方法で平滑することであって、平滑化の形式やパラメータは設計的に選択決定される。

請求項５についての補足説明
入力信号が、設計された範囲の最大値より大幅に小さい場合、検出した信号の音声度、非音声度を評価する必要がないケースがほとんどである。従って信号の大きさが小さい場合、平滑化の応答速度を遅くすることで、音声度と非音声度の判定を安定化することができる。例えば、音声信号の場合、音声信号は強度が 0 に近い頻度が多いことから、背景雑音が大きい場合、信号が小さい領域で非音声と判定する確率が増え、判定結果が不安定になる。入力信号が小さい場合、平滑化の応答速度を遅くすることで、聴感上の自然さを損なうことなく判定結果を安定させることができる。
この場合、一例として、図５と図８に示すところの、 E=0.95E*0.05*D の定数 0.95 と 0.05 の値を、測定した Wmax の値に連動させることで簡単に具現化できる。

請求項６についての補足説明
請求項６は、無音時間が長く続く信号に対し、無音時間をどのような信号処理をするか、という対処方法に関する。音声度と非音声度の制御が常時機能すると、小さな雑音や背景音にも応答し、音声信号の時間であるにもかかわらず非音声として、逆に、非音声の時間であるにもかかわらず音声として検出する機会が増えて不都合が生じる場面が多い。
信号が一定値以下の大きさの場合は音声度と非音声度の評価結果にかかわらず、平滑化の動作を休止する方法が最も簡素で有効な方法であることを実験的に確認できる。
例えば、何かの解説番組で背景に背景音があって、微少信号が長く続く場面は多い。
このような場面では非音声として応答し、非音声の音質に変わる。次に音声が入ると、
非音声の音質から始まるので全体に音質の変化の頻度が多く、違和感を感じる機会が増える。
入力信号の振幅が特定の値より小さい場合、平滑化を休止することで、判定結果の安定化を図ることができる。
請求項６は請求項５とは独立しているが、双方の機能を併用することで、なお一層、判定結果の安定化を図ることができる。
平滑化を休止する信号の大きさは設計的に決定する。

音質制御についての補足説明
音質制御は多種多様な方法がある。音質の自動制御に適した最も簡単な方法の一つは、
音声と非音声に適した、それぞれの音質に対応するところの、独立したフィルターを設けておいて、それぞれのフィルターの出力に係数器を設け、制御信号で係数を制御し、全てのフィルターの係数器の出力を合成する方法である。音声用のフィルターと非音声用のフィルターの双方の出力に係数器を設ける。そして、本案を応用する場合は、音声度の評価値の平滑化信号で音声用のフィルターの係数を制御し、非音声度の評価値の平滑化信号で非音声用の係数を制御し、双方の係数器の出力を加算信号を再生信号とする。

Ri, i=0,1,2,3,,,,n 入力信号の設計上の上限値を Rmax とするところの、
設計上の全範囲を n個に分割するための閾値
Rmax 設計上の入力信号の最大振幅の絶対値であって、Rn に等しい
Di, i=1,2,3,,,,n 一単位時間における Ri と Ri-1 の振幅範囲内の振幅頻度Wmax 実測によるところの一単位時間内の最大振幅
Rp Wmax より小さく、かつ、Wmax に最も近い閾値
Dp Rp と Rp-1 の間の振幅頻度
Ki Di, i=1,2,3,,,p の音声度評価のための係数
Hi Di, i=1,2,3,,,p の非音声度評価のための係数
Am, m=1,2,3,,,u 定数
DDj＝Dj−Dj-1, j=2,3,,,,p 振幅頻度一次差分値
振幅頻度特性の隣りあう時間の、振幅が大きい方の頻度から
振幅が小さい方の頻度を差し引いた値
KKj DDj, j=2,3,,,,p の音声度評価のための係数
HHj DDj, j=2,3,,,,p の非音声度評価のための係数
Bm, m=1,2,3,,,u 定数
Es 音声度評価値

F｛｝｛｝内の振幅頻度と係数と定数からなる音声度評価関数
G｛｝｛｝内の振幅頻度と係数と定数からなる非音声度評価関数
Es＝F｛K1*D1,K2*D2,,,,Kp*Dp,KK2*DD2,KK3*DD3,,,KKp*DDp,A1,A2,,,,Au}
音声度評価値の一般的な計算式
Em＝G｛H1*D1,H2*D2,,,,Hp*Dp,HH2*DD2,HH3*DD3,,,HHp*DDp,B1,B2,,,,Bv}
非音声度評価値の一般的な計算式
Esmax 請求項１に記述の一単位時間の音声度評価値 Es の、
設計的に決定した変動範囲の最大値
Esmax-Es 非音声度評価値

Emmax 請求項１に記述の一単位時間の非音声度評価値 Em の
設計的に決定した変動範囲の最大値
Emmax-Em 音声度評価値

Dmin 音声非音声の判定を必要としない小さな信号の振幅の絶対値
Tmin 入力信号が Dmin を超えない時間が Tmin を超えた場合、
その一単位時間の音声度平滑化機能と非音声度平滑化機能を
休止するための待ち時間

図１
横軸 Probability 振幅頻度
縦軸 AMP 振幅
K 1 から 0 まで変化する係数
News*k ニュース信号に係数 k を乗じた信号
Average-Music*(1-k) 平均的な音楽信号に係数 (1-k) を乗じた信号
Environment-Noise(1-k) 環境ノイズ信号に係数 (1-k) を乗じた信号
Crisp-Guitar-Music(1-k) 歯切れの良いギター音楽信号に係数 (1-k) を乗じた信号

図２
Class Di i=01,02,03,,,,,20 振幅を 20分割した場合の振幅頻度のデータ名称
Amphitude Range[%] THD,005,010,,,,,100 最大振幅を 100% とする各閾値
S1,S2,,,,Sn 縦軸の数値サンプル信号と各閾値に対応する振幅頻度

図３
Speech 音声度合いが強い傾向
Non-Speech 非音声度合いが強い傾向
Commentary 解説、
News ニュース
Commentary+BGM 解説とBGMの合成
Talk 雑談
Furamenco-Guitar & Castanet ギターによるフラメンコとカスタネット
Furamenco-Guitar ギターによるフラメンコ
Music & vocal 楽器演奏とボーカル
A Cappella アカペラ

図４
1 ドラッグアンドドロップされた信号のスタートからエンドまでの時間軸を示す。
2 中央の白いツマミは振幅頻度を検証する時間位置を表示
Probabihity 振幅頻度
AMP 振幅

図５
1 入力信号のコンプレッサーのパラメータ入力部
2 一単位時間の時間長、振幅頻度測定の分解能、信号処理を休止する振幅の設定
3 計算処理の手順を編集する窓
4 表示グラフの横幅の設定
5 計算過程の各変数の数値表示窓
6 グラフ表示窓
7 y は音声度のグラフ

図６
x 最大振幅の 1/3 付近の振幅頻度
z 小さい振幅の振幅頻度の傾斜
y 音声度非音声度の一単位時間ごとの計算結果
(1) （音声信号強度）:（非音声信号強度）＝0:10 の場合
(2) （音声信号強度）:（非音声信号強度）＝2:8 の場合
(3) （音声信号強度）:（非音声信号強度）＝4:6 の場合
(4) （音声信号強度）:（非音声信号強度）＝5:5 の場合
(5) （音声信号強度）:（非音声信号強度）＝6:4 の場合
(6) （音声信号強度）:（非音声信号強度）＝8:2 の場合
(7) （音声信号強度）:（非音声信号強度）＝10:0 の場合

図７
x 振幅が大きい付近の振幅頻度の傾斜
z 振幅が小さい付近の振幅頻度の傾斜
y x/z
(a)、(b)、(c) ニュース
(d) 解説
(e) 雑談
(f) ドラマセリフ
(g) BGMがある解説
(h) BGMがある商品案内
(i) BGMがある天気予報
(j) ラジオ体操
(k) 背景がひどくざわざわしている雑談
(l)、(m) アカペラの楽曲
(n)、(o)、(p)、(q) ボーカル楽曲

図８
M 中間変数
Wmax 一単位時間の最大振幅
Di, i=4,5,6,7,8,9,10 閾値 Ri と Ri-1 の間の振幅頻度
A,B,C,D 中間変数
x 最大振幅の約1/3 付近の振幅頻度のグラフ表示
z 振幅が小さい付近の振幅頻度の傾斜のグラフ表示
y 音声度の計算結果

Claims

頻度とは、音響信号の振幅が特定の時間内における、
特定の二つの閾値の間に存在する時間の総和、または
特定の二つの閾値の間に存在するサンプリング数の総和
であるとし、
ＸＸ機能とは、ＸＸなる機能の、原因に作用し結果を満足する手法とし、
設計的にとは、一般的に定義された機能について、その機能を満足するところの全ての範囲の中から、特定の用途に合わせるべく、その機能が持つ変動範囲を制御するパラメータを選択または調節により決定する工程であるとし、
人の声であって、公共のメディアを介して内容が正確に伝わる必要のある信号、例を挙げれば、ニュースや解説や講義を代表とする信号を音声信号とし、
楽器演奏とボーカルの任意の組み合わせからなる信号を音楽信号とし、
その他の信号、例を挙げれば雑音や自然の音や効果音や都市騒音などを自然音信号とし、
音楽信号と自然音信号を非音声信号とし、
音声信号と非音声信号との任意の混成比率からなる信号を入力信号とし、
入力信号の振幅の絶対値を振幅とし、
0.1秒から 3秒を目安にするところの、
音声信号と非音声信号を識別するに必要かつ充分な時間の一単位を一単位時間とし、
一単位時間の長さは設計的に決定されるものとし、
一単位時間を 100% とし、
入力信号の設計上の上限値を Rmax とするところの、設計上の全範囲を n個に分割するための閾値を
Ri, i=0,1,2,3,,,,n
とし、
Rmax は Rn に等しいものとし、
その分割数と区域を分割するための閾値は設計的に決定されるものとし、
一単位時間における Ri と Ri-1 の振幅範囲内に、入力信号が存在する時間の総和を
振幅 Ri の振幅頻度 Di, i=1,2,3,,,,n とし、
振幅頻度 Di, i=1,2,3,,,,n を得る機能を振幅頻度測定機能とし、
一単位時間内の入力信号の最大振幅、または、最大振幅と判定した振幅を一単位時間内最大振幅とし、
一単位時間内最大振幅を Wmax とし、
Wmax より小さく、かつ、Wmax に最も近い閾値 Ri を Rp とし、
Rp と Rp-1 の間の振幅頻度を Dp とし、
Rp を特定する機能を最大振幅検出機能とし、
Rp を特定する具体的手順については設計的に選択決定されるものとし、
Ki を Di, i=1,2,3,,,p の係数とし、
Hi を Di, i=1,2,3,,,p の係数とし、
Am, m=1,2,3,,,u を定数とし、
振幅頻度特性の隣りあう振幅範囲の、振幅が大きい方の頻度から振幅が小さい方の頻度を差し引いた値を振幅頻度一次差分値とし、
振幅頻度一次差分値群を、
DDj＝Dj−Dj-1, j=2,3,,,,p とし、
KKj を DDj, j=2,3,,,,p の係数とし、
HHj を DDj, j=2,3,,,,p の係数とし、
Bm, m=1,2,3,,,u を定数とし、
Es を、入力信号の音声度合いの評価値であり、それを音声度評価値とし、
Em を入力信号非音声の度合いの評価値であり、それを非音声度評価値とし、
F｛｝を｛｝内の振幅頻度と係数と定数からなる音声度評価関数とし、
G｛｝を｛｝内の振幅頻度と係数と定数からなる非音声度評価関数とし、
音声度評価関数と非音声度評価関数の、
｛｝内は振幅頻度と係数と定数からなる演算式で表現されているものとし、
それらの演算式とは、
加減乗除演算と
三角関数と指数関数と対数関数と
最大値と最小値と絶対値と小数点以下切り捨てと条件判断の演算処理とのいずれも公知とその組み合わせからなるものとし、
演算の具体的手順は設計的に選択決定されるものとし、
F、G 共に｛｝内の要素群は
i=1,2,3,,,,,p とするところの ki*Di
j=2,3,,,,p とするところの kkj*DDj
m=1,2,3,,,,u とするところの Am
i=1,2,3,,,,,p とするところの Hi*Di
j=2,3,,,,p とするところの HHj*DDj
m=1,2,3,,,,v とするところの Bm
からなるものとし、
全ての Di と DDj の内、どの値をどのように反映させるかは、
振幅が小さい付近の、
振幅頻度が大きい場合は音声度が強い、
振幅頻度が小さい場合は非音声度が強い、
振幅頻度の一次差分値が正の方向に小さい場合は音声度が強い、
振幅頻度の一次差分値が負の方向に大きい場合は非音声度が強い、
という傾向を利用すべく、
係数 Ki と KKj と Hi と HHj と Am と Bm の値の選択により設計的に決定されるものとし、
このことは、いずれの係数も、いずれの定数についても 0 を含む政府のいずれの値をも取り得ることを意味するものとし、
Es＝F｛K1*D1,K2*D2,,,,Kp*Dp,KK2*DD2,KK3*DD3,,,KKp*DDp,A1,A2,,,,Au}
として計算処理されるところの Es を音声度評価値とし、
Em＝G｛H1*D1,H2*D2,,,,Hp*Dp,HH2*DD2,HH3*DD3,,,HHp*DDp,B1,B2,,,,Bv}
として計算処理されるところの Em を非音声度評価値とし、

音声度評価値と非音声度評価値を得る機能を音声非音声度評価機能とし、
いずれも公知の振幅頻度測定機能と最大振幅検出機能と音声非音声度評価機能とを有することを特徴とするところの、
音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声と非音声の度合い検出方法。
請求項１に記述の一単位時間の音声度評価値 Es の、設計的に決定した変動範囲の最大値を Esmax とし、
音声度評価値 Es に加えて、
Esmax から Es を差し引いた値 Esmax-Es を非音声度評価値とするところの、
音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声信号と非音声の度合い検出方法。
請求項１に記述の一単位時間の非音声度評価値 Em の設計的に決定した変動範囲の最大値を Emmax とし、
非音声度評価値 Em に加えて、
Emmax から Em を差し引いた値 Emmax-Em を音声度評価値とするところの、
音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声と非音声の度合い検出方法。
請求項１と請求項２と請求項３に記述の、
時系列上に連続して算出する一単位時間ごとの音声度評価値と非音声度評価値を時系列的に平滑化する機能を、それぞれ、音声度平滑化機能と非音声度平滑化機能とし、
音声度平滑化機能と非音声度平滑化機能の応答速度は設計的に決定されるものとし、
設計的に決定された応答速度とは、一単位時間毎に大きく変動する音声度評価値と非音声度評価値が人の聴覚に違和感を与えない程度に滑らかに応答するべく設計的に調節決定された平滑化の度合いに対応する応答速度であるものとし、
音声度平滑化機能の出力を音声度制御信号とし、
非音声度平滑化機能の出力を非音声度制御信号とし、
音声度制御信号を、音声信号の明瞭度を上げる信号処理機能の制御信号とし、
明瞭度とは、音声の内容の聞き取り安やの度合いであるものとし、
非音声度制御信号を非音声信号の再生音の豊かさや臨場感を強くする信号処理機能の制御信号とし、
豊かさや臨場感とは、音源に近づいて感じる音質であって、主として低音強調と高音強調を作用させた音質の感覚的表現であるものとし、
請求項１の音声度評価機能と非音声度評価機能に加えて、音声度平滑化機能と非音声度平滑化機能を有するところの
音声度評価値と非音声度評価値をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声と非音声の度合い検出方法。
請求項４に記述の、音声度平滑化機能と非音声度平滑化機能が持つ平滑化の応答速度に関して、
信号が小さいときは平滑化の応答速度を遅くすべく、信号の大きさに応じて平滑化の度合いを制御する機能を有するところの、音声度評価機能と非音声度評価機能をもって、入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの音声信号と非音声の度合い検出方法。
請求項４に記述の、音声度平滑化機能と非音声度平滑化機能に関し、
信号処理しようとする信号の、設計上の入力信号の最大振幅の絶対値を Rmax とし、
実測によるところの一単位時間内の最大振幅を Wmax とし、
Rmax と Wmax のいずれかを基準にするところの、特定の値を Dmin とし、
Dmin は音声非音声の判定を必要としない小さな信号の振幅の絶対値であるとし、
振幅が Dmin を超えない入力信号を検出した場合に関し、
入力信号が Dmin を超えない時間が Tmin を超えた場合、その一単位時間の音声度平滑化機能と非音声度平滑化機能を休止する機能を平滑化休止機能とし、
平滑化休止機能は、入力信号の振幅が Dmin を上回った時点で休止を解除し、平滑化機能を再開させるものとし、
Dmin を決定する手順と、Tmin の値は設計的に決定されるものとし、
請求項４に記述の、音声度平滑化機能と非音声度平滑化機能に加えて、音声非音声検出休止機能を有するところの、音声度評価値と非音声度評価値をもって入力信号の音声から非音声に至る度合いの連続的な数値表現に供するところの一単位時間内の音声信号と非音声の度合い検出方法。