JP6841095B2 - 音響解析方法および音響解析装置 - Google Patents

音響解析方法および音響解析装置 Download PDF

Info

Publication number
JP6841095B2
JP6841095B2 JP2017044432A JP2017044432A JP6841095B2 JP 6841095 B2 JP6841095 B2 JP 6841095B2 JP 2017044432 A JP2017044432 A JP 2017044432A JP 2017044432 A JP2017044432 A JP 2017044432A JP 6841095 B2 JP6841095 B2 JP 6841095B2
Authority
JP
Japan
Prior art keywords
sound piece
signal
sound
correlation
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017044432A
Other languages
English (en)
Other versions
JP2018146901A (ja
Inventor
陽 前澤
陽 前澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017044432A priority Critical patent/JP6841095B2/ja
Publication of JP2018146901A publication Critical patent/JP2018146901A/ja
Application granted granted Critical
Publication of JP6841095B2 publication Critical patent/JP6841095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音を表す音響信号を解析する技術に関する。
事前に用意された複数の音片を時間軸上で相互に配列することにより多様な音響信号を合成する音響処理技術(例えば録音編集方式の音声合成技術)が従来から提案されている。例えば特許文献1には、事前に録音された音片と規則合成処理で生成された音声とを相互に結合することで、合成音声を生成する技術が開示されている。
特開2006−145691号公報
音響信号の合成に適用された複数の音片の時系列を、合成後の音響信号から推定することが要求される場面がある。例えば、電車等の交通機関の案内音声を合成する場面では、合成後の音響信号を構成する複数の音片を推定することで、案内音声の発話内容に応じた各種の情報を利用者に提供するサービスが実現される。以上の事情を考慮して、本発明は、音響信号を構成する複数の音片の時系列を当該音響信号から推定することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音響解析方法は、N個の音片信号の各々と音響信号とを対比することで、前記音響信号を構成する複数の音片信号の時系列を推定する。また、本発明の好適な態様に係る音響解析装置は、N個の音片信号の各々と音響信号とを対比することで、前記音響信号を構成する複数の音片信号の時系列を推定する解析処理部を具備する。
本発明の第1実施形態における音響解析装置の構成図である。 音響信号と複数の音片信号との関係を示す説明図である。 音響信号と音片信号との相互相関の説明図である。 推定処理部の動作の説明図である。 音響解析装置の動作を例示するフローチャートである。 第3実施形態における情報提供装置の構成図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100の構成図である。音響解析装置100は、音声を表す音響信号Sを解析する信号処理装置であり、制御装置12と記憶装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の各種の情報処理装置が音響解析装置100として利用され得る。
制御装置12は、例えばCPU(Central Processing Unit)等の処理回路で構成され、音響解析装置100の動作を統括的に制御する。記憶装置14は、制御装置12が実行するプログラムと制御装置12が使用する各種のデータとを記憶する。例えば磁気記録媒体および半導体記録媒体等の公知の記録媒体が記憶装置14として利用され得る。相互に別体で構成された同種または異種の複数の記録媒体の組合せを記憶装置14として利用することも可能である。
第1実施形態の記憶装置14は、音響信号Sを記憶する。図2に例示される通り、音響信号Sは、複数の音片信号Q(Q〜Q)を時系列に配列して相互に接続することで事前に生成された時間領域の信号である。音片信号Qは、言語音を構成する部分的な音声(以下「音片」という)の波形を表す信号である。1個の音片は、例えば単語,文節,語句等の分節単位を発音した音声である。図2には、電車の到来を利用者に案内する「まもなく1番線に電車が参ります」という音声を表す音響信号Sが例示されている。図2に例示される通り、音響信号Sは、「まもなく」という音片を表す音片信号Qと、「1番線に」という音片を表す音片信号Qと、「電車が参ります」という音片を表す音片信号Qとで構成される。各音片信号Qの時間長は相違し得る。
以上の説明から理解される通り、例えば事前に録音された音片を表す複数の音片信号Qを接続する録音編集方式の音声合成技術により音響信号Sは事前に生成される。複数の音片信号Qの配列(総数,組合せ,順番)を変更することで、多様な発話内容を表す音響信号Sが生成される。音響信号Sを構成する複数の音片信号Qの配列は未知である。第1実施形態の音響解析装置100は、音響信号Sを構成する複数の音片信号Qの時系列を推定する。
第1実施形態の記憶装置14は、相異なる音片を表す複数(N個)の音片信号Qを記憶する。N個の音片信号Qの各々には相異なる番号(以下「音片番号」という)が付与される。音片番号n(n=1〜N)は、音片信号Qを識別するための識別情報である。記憶装置14に記憶されたN個の音片信号Qは、音響信号Sの解析に使用される。すなわち、第1実施形態の音響解析装置100は、記憶装置14に記憶されたN個の音片信号Qの各々と音響信号Sとを相互に対比することで、音響信号Sを構成する複数の音片信号Qの時系列を推定する。
制御装置12は、記憶装置14に記憶されたプログラムを実行することで、音響信号Sから複数の音片信号Qの時系列を推定するための解析処理部20として機能する。なお、制御装置12の機能を複数の装置に分散した構成、または、制御装置12の機能の少なくとも一部を専用の電子回路が実現する構成も採用され得る。
解析処理部20は、記憶装置14に記憶されたN個の音片信号Qの各々と音響信号Sとを対比することで、音響信号Sを構成する複数の音片信号Qの時系列を推定する。図1に例示される通り、第1実施形態の解析処理部20は、相関解析部22と推定処理部24とを含んで構成される。
相関解析部22は、記憶装置14に記憶されたN個の音片信号Qの各々について、当該音片信号Qと音響信号Sとの相互相関Ct,nを単位期間(フレーム)毎に算定する。記号tは、音響信号Sを時間軸上で区分した複数(T個)の単位期間のうち任意の1個の単位期間を示す変数である(t=1〜T)。具体的には、音片番号nの音片信号Qと音響信号Sとの相互相関Ct,nは、以下の数式(1)で表現される。
Figure 0006841095
数式(1)の記号Xは、音響信号Sのうち第t番目の単位期間における周波数スペクトルである。また、数式(1)の記号Dn,tは、音片番号nの音片信号Qのうち第t番目の単位期間における周波数スペクトルである。周波数スペクトルXおよび周波数スペクトルDn,tの各々は、周波数軸上の相異なる周波数(周波数ビン)に対応する複数の数値の系列で表現され、例えば短時間フーリエ変換等の公知の周波数解析により算定される。
数式(1)の記号Lは、音片番号nの音片信号Qの時間長である。また、数式(1)の記号 ̄は複素共役を意味し、数式(1)の記号*は要素毎の積を意味する。数式(1)の記号F−1は、逆離散フーリエ変換である。
以上の説明から理解される通り、音響信号Sに対する音片番号nの音片信号Qの時間軸上の位置を変化させた場合に、音片信号Qと音響信号Sとの間で波形が類似するほど、当該音片信号Qの末尾に相当する時点tの相互相関Ct,nは大きい数値となる。すなわち、図3に例示される通り、音響信号Sのうち相互相関Ct,nが極大となる時点tに末尾が一致するように音片信号Qを配置した状態で、音響信号Sの波形と音片信号Qの波形とが類似する。音響信号Sのうち相互相関Ct,nが極大となる時点tから逆方向(時間を遡及する方向)の時間長Lにわたる区間が、音片番号nの音片信号Qの波形に類似する、とも換言され得る。以上の説明から理解される通り、第1実施形態の相関解析部22は、N個の音片信号Qの各々と音響信号Sとを対比する要素として表現される。
図4に例示される通り、時間軸上で相互に接続された複数の音片信号Qの時系列(以下「音片系列」という)Zを想定する。図4には、3個の音片信号Q〜Qのうちの2個の組合せで構成された2通りの音片系列Z(Z12,Z23)が便宜的に図示されている。また、3個の音片信号Q〜Qの各々について、当該音片信号Qと音響信号Sとの間で算定された相互相関Ct,n(Ct,1,Ct,2,Ct,3)が図4には併記されている。
いま、図4に例示される通り、音片系列Zを構成する各音片信号Qの末尾の時点における当該音片信号Qと音響信号Sとの相互相関Ct,nを、音片系列Zを構成する複数の音片信号Qについて累積した数値(以下「累積相互相関」という)Rを検討する。
例えば、音片信号Qに音片信号Qを後続させた音片系列Z12については、相互相関Cta,1と相互相関Ctb,2との合計値が累積相互相関R12として算定される。相互相関Cta,1は、音片信号Qと音響信号Sとの相互相関C1,1〜CT,1のうち、音片系列Z12における音片信号Qの末尾の時点tに対応する数値である。他方、相互相関Ctb,2は、音片信号Qと音響信号Sとの相互相関C1,2〜CT,2のうち、音片系列Z12における音片信号Qの末尾の時点tに対応する数値である。
また、音片信号Qに音片信号Qを後続させた音片系列Z23については、相互相関Ctc,2と相互相関Ctd,3との合計値が累積相互相関R23として算定される。相互相関Ctc,2は、音片信号Qと音響信号Sとの相互相関C1,2〜CT,2のうち音片系列Z23における音片信号Qの末尾の時点tに対応する数値である。相互相関Ctd,3は、音片信号Qと音響信号Sとの相互相関C1,3〜CT,3のうち音片系列Z23における音片信号Qの末尾の時点tに対応する数値である。
図4では、音響信号Sが実際には音片信号Qと音片信号Qとで構成される場合(すなわち音片系列Z12が正解である場合)が想定されている。したがって、音片系列Z12における音片信号Qの末尾の時点tにおける相互相関Cta,1と音片信号Qの末尾の時点tにおける相互相関Ctb,2とは大きい数値(最大値1に近い数値)となる。すなわち、累積相互相関R12は大きい数値となる。他方、音片系列Z23における音片信号Qの末尾の時点tにおける相互相関Ctc,2と音片信号Qの末尾の時点tにおける相互相関Ctd,3とは小さい数値となる。すなわち、累積相互相関R23は小さい数値となる。
以上の説明から理解される通り、音響信号Sを構成する複数の音片信号Qの組合せに音片系列Zが近いほど、当該音片系列Zについて算定される累積相互相関Rは大きい数値となる。したがって、音片系列Zの適否を評価するための指標として累積相互相関Rを利用可能である。すなわち、音片系列Zの累積相互相関Rが大きいほど、音響信号Sを構成する複数の音片信号Qの組合せとして当該音片系列Zが適正であると評価できる。以上の傾向を背景として、推定処理部24は、累積相互相関Rが最大化されるように音片系列Z(複数の音片信号Qの時系列)を推定する。
ところで、累積相互相関Rを最大化する音片系列Zを推定する方法としては、複数の音片信号Qを配列する全通りの順列(音片系列Z)について累積相互相関Rを算定し、累積相互相関Rが最大となる音片系列Zを選択する方法も想定される。しかし、以上の方法では演算量が膨大となる可能性がある。そこで、第1実施形態の推定処理部24は、推定処理を効率化し得る動的計画法を利用して、累積相互相関Rを最大化する音片系列Zを探索する。推定処理部24の具体的な動作を以下に詳述する。
音響信号Sの時点tに音片番号nの音片信号Qの末尾が位置すると仮定すると、当該時点tにおける累積相互相関Rt,nは、以下の数式(2)で表現される。数式(2)の累積相互相関Rt,nは、N個の音片信号Qの各々について算定される。
Figure 0006841095

数式(2)のうち右辺の第1項は、時点tから音片番号nの音片信号Qの時間長Lだけ遡及した時点(t−L)について算定されたN個の累積相互相関Rt−Ln,1〜Rt−Ln,Nの最大値(max)である。推定処理部24は、現在の時点tについて相関解析部22が算定した相互相関Ct,nを当該最大値に加算することで、累積相互相関Rt,nを算定する。
また、数式(2)におけるRt−Ln,mを最大化させる音片信号Qの音片番号It,nは、以下の数式(3)で表現される。
Figure 0006841095
各音片番号nについて音響信号Sの末尾までの累積相互相関R1,n〜RT,nを算定すると、推定処理部24は、音響信号Sの末尾(t=t=T)におけるN個の累積相互相関RT,1〜RT,Nの最大値に対応する音片信号Qの音片番号nを選択する。すなわち、音片番号nは以下の数式(4)で表現される。
Figure 0006841095
数式(4)の音片番号nは、音響信号Sの最後に位置する音片信号Qの音片番号nである。音片番号nの音片信号Qの直前に位置すべき音片信号Qの音片番号nは、数式(3)から理解される通り、音片番号It0,n0であり、当該直前の音片信号Qの末尾の時点tは、時点tから第n番目の音片信号Qの時間長Ln0だけ遡及した時点(t−Ln0)である。以上の説明から理解される通り、音響信号Sの末尾から逆方向に音片信号Qを辿る処理(バックトラック)は、以下の数式(5)および数式(6)の漸化式で表現される。
Figure 0006841095

Figure 0006841095
推定処理部24は、数式(5)および数式(6)で表現されるバックトラックを、音響信号Sの始点に到達するまで反復する。以上の手順で探索した音片番号nの系列{n,nI−1,…,n,n}により、音響信号Sを構成する複数の音片信号Qの時系列(音片系列Z)が表現される。
図5は、第1実施形態の制御装置12が音片系列Zを推定する動作(以下「音響解析処理」という)のフローチャートである。例えば利用者からの指示を契機として音響解析処理が開始される。音響解析処理を開始すると、相関解析部22は、記憶装置14に記憶されたN個の音片信号Qの各々について、当該音片信号Qと音響信号Sとの相互相関Ct,nを単位期間(フレーム)毎に算定する(S1)。相互相関Ct,nの算定が完了すると、推定処理部24は、累積相互相関Rを最大化する音片系列Zを、前述の動的計画法により推定する(S2)。
以上に説明した通り、第1実施形態では、N個の音片信号Qの各々と音響信号Sとを対比することで、音響信号Sを構成する複数の音片信号Qの時系列を推定することが可能である。第1実施形態では特に、各音片信号Qの末尾の時点tにおける相互相関Ct,nを複数の音片信号Qの時系列にわたり累積した数値(累積相互相関R)が最大化されるように、複数の音片信号Qの時系列(音片系列Z)が推定される。したがって、各音片信号Qと音響信号Sとの波形の類似性という観点から、音響信号Sを構成する複数の音片信号Qの時系列を高精度に推定できるという利点がある。また、第1実施形態では、動的計画法により音片系列Zが推定される。したがって、例えば複数の音片信号Qを配列する全通りの順列について累積相互相関Rを算定したうえで、累積相互相関Rが最大となる音片系列Zを選択する方法と比較して、制御装置12による演算量を削減することが可能である。ただし、複数の音片信号Qの全通りの順列について累積相互相関Rを算定したうえで最大値を探索する方法を採用してもよい。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、複数の音片信号Qが時間軸上に重複も隙間もなく配列されることで音響信号Sが構成されるから、相前後する2個の音片信号Qの末尾の間隔(時点ti−1と時点tとの間隔)は音片信号Qの時間長Lに一致する。しかし、実際には、相前後する2個の音片信号Qが相互に重複または離間した状態で配列され得る。すなわち、相前後する2個の音片信号Qの末尾の間隔(時点ti−1と時点tとの間隔)は、音片信号Qの時間長Lとは僅かに相違した時間長である可能性がある。以上の事情を考慮して、第2実施形態では、相前後する2個の音片信号Qの末尾の間隔に誤差εを加味したうえで、音響信号Sを構成する複数の音片信号Qの時系列(音片系列Z)を推定する。
具体的には、第2実施形態では、第1実施形態の数式(2)が以下の数式(2a)に置換される。
Figure 0006841095

すなわち、数式(2a)における右辺の第1項は、時点tから音片番号nの音片信号Qの時間長Lだけ遡及した時点(t−L)を中心として幅2Eの範囲内(t−L±E)におけるN個の累積相互相関Rt−Ln+ε,1〜Rt−Ln+ε,Nの最大値(max)である。定数Eは所定の正数である。数式(2a)における累積相互相関Rt−Ln+ε,mを最大化させる音片信号Qの音片番号It,nは、以下の数式(3a)で表現される。すなわち、第1実施形態の数式(3)が第2実施形態では数式(3a)に置換される。
Figure 0006841095
また、累積相互相関Rt−Ln+ε,mを最大化させる誤差εは、以下の数式(7)で表現される。
Figure 0006841095
第2実施形態の推定処理部24が実行するバックトラックは、第1実施形態の数式(6)に数式(7)の誤差Jt,nを導入した以下の数式(6a)で表現される。
Figure 0006841095

数式(6a)から理解される通り、推定処理部24は、時点ti−1に対して音片信号Qの時間長Lni−1だけ遡及した時点から更に誤差Jti−1,ni−1だけずれた時点を時間軸上の逆方向に辿る。すなわち、推定処理部24は、第1実施形態と同様の数式(5)と誤差Jt,nを含む数式(6a)とで表現されるバックトラックにより、音片番号nの系列{n,nI−1,…,n,n}(音響信号Sを構成する複数の音片信号Qの時系列)を推定する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、各音片信号Qの時間長Lに誤差εが加味されるから、相前後する2個の音片信号Qが相互に重複または離間している場合でも、音響信号Sを構成する複数の音片信号Qの時系列を高精度に推定できるという利点がある。
<第3実施形態>
図6は、第1実施形態または第2実施形態の音響解析装置100を利用した情報提供装置200の構成図である。図6に例示される通り、第3実施形態の情報提供装置200は、制御装置32と記憶装置34と収音装置36と放音装置38とを具備するコンピュータシステムで実現される。なお、情報提供装置200は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現され得る。
制御装置32は、例えばCPU等の処理回路で構成され、情報提供装置200の動作を統括的に制御する。記憶装置34は、制御装置32が実行するプログラムと制御装置32が使用する各種のデータとを記憶する。例えば磁気記録媒体および半導体記録媒体等の公知の記録媒体が記憶装置34として利用され得る。第3実施形態の記憶装置34は、前述の各形態で例示したN個の音片信号Qを記憶する。
収音装置36は、交通施設または商業施設等の各種の施設で発音または放送された案内用の音声(以下「案内音声」という)Gを収音することで、当該案内音声Gを表す音響信号Sを生成する。音響信号Sが表す案内音声Gは、複数の音片の時系列である。放音装置38は、制御装置32による制御のもとで音を再生する。
制御装置32は、記憶装置34に記憶されたプログラムを実行することで、第1実施形態または第2実施形態で例示した解析処理部20に加えて、変調処理部42および混合処理部44として機能する。なお、制御装置32の機能を複数の装置に分散した構成、または、制御装置32の機能の少なくとも一部を専用の電子回路が実現する構成も採用され得る。解析処理部20は、第1実施形態または第2実施形態で例示した構成および動作により、収音装置36が生成した音響信号Sから音片系列Zを推定する。すなわち、第3実施形態の情報提供装置200は、第1実施形態または第2実施形態の音響解析装置100を含んで構成される。したがって、第3実施形態においても第1実施形態または第2実施形態と同様の効果が実現される。
変調処理部42は、解析処理部20が推定した音片系列Zに応じた変調信号Mを生成する。変調信号Mは、音片系列Zに応じた配信情報Bを音響成分として含む信号である。配信情報Bは、例えば音片系列Z自体または当該音片系列Zを識別するための識別情報である。変調処理部42は、例えば所定の周波数の正弦波等の搬送波を配信情報Bにより変調する周波数変調、または、拡散符号を利用した配信情報Bの拡散変調等の変調処理により変調信号Mを生成する。配信情報Bの音響成分の周波数帯域は、例えば、放音装置38による再生が可能な周波数帯域であり、かつ、利用者が通常の環境で聴取する音の周波数帯域を上回る範囲(例えば18kHz以上かつ20kHz以下)に包含される。
混合処理部44は、収音装置36から供給される音響信号Sと変調処理部42が生成した変調信号Mとを混合(例えば加算)することで音響信号Yを生成する。放音装置38は、音響信号Yが表す音を放音する。すなわち、音響信号Sが表す案内音声Gと変調信号Mが表す配信情報Bの音響成分とが放音装置38から再生される。以上の説明から理解される通り、第1実施形態の放音装置38は、案内音声Gを再生する音響機器として機能するほか、空気振動としての音波を伝送媒体とした音響通信で配信情報Bを送信する送信機としても機能する。
図6の端末装置300は、例えば携帯電話機またはスマートフォン等の情報端末である。なお、例えば、電光掲示板または電子看板(例えばデジタルサイネージ)等の案内用の表示端末を端末装置300として利用することも可能である。第3実施形態の端末装置300は、情報提供装置200による再生音から配信情報Bを復調し、当該配信情報Bに対応する関連情報を出力装置(例えば表示装置または放音装置)から出力する。案内音声Gの音響信号Sから生成された配信情報Bが示す関連情報は、当該案内音声Gに関連する情報(例えば案内音声Gを表す文字列やその翻訳文)である。以上の説明から理解される通り、端末装置300の利用者は、情報提供装置200が再生する案内音声Gを聴取するほか、当該案内音声Gに対応する関連情報を端末装置300により確認することが可能である。
なお、以上の説明では、配信情報Bを音響通信により端末装置300に送信したが、配信情報Bを送信するための通信方式は以上の例示に限定されない。例えば、電磁波を伝送媒体として利用した無線通信(典型的には近距離無線通信)により配信情報Bを端末装置300に送信することも可能である。また、関連情報を配信情報Bとして端末装置300に送信することも可能である。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)音響信号Sのサンプル値を所定の比率で間引いたうえで各音片信号Qと対比してもよい。以上の構成によれば、制御装置12の演算量を削減することが可能である。
(2)数式(3)または数式(3a)の音片番号It,nと数式(7)の誤差Jt,nとは、音響信号Sの全区間にわたり保持する必要があるものの、推定処理部24が時点tの累積相互相関Rt,nを算定する段階では、時点(t−Lmax−ε)よりも過去の累積相互相関Rは不要である。時間長Lmaxは、N個の音片信号Qの時間長Lの最大値である。以上の説明から理解される通り、任意の時点tでは、{(Lmax+E)×N}個の累積相互相関Rを記憶装置14に保持すれば足りる。
(3)前述の各形態では、音声を表す音響信号Sを例示したが、音声以外の音(例えば楽音)を表す音響信号Sについても、前述の各形態と同様の方法により、当該音響信号Sを構成する複数の音片信号Qの時系列を推定することが可能である。したがって、各音片信号Qが表す音も音声には限定されない。例えば、相異なる楽曲から抽出された音片を表す複数の音片信号Qで構成される音響信号Sを解析することで、音響信号Sの素材として利用された音片(さらには楽曲名)を特定することが可能である。
(4)第1実施形態および第2実施形態では、記憶装置14に記憶された音響信号Sを解析したが、第3実施形態での例示からも理解される通り、収音装置による収音で生成された音響信号Sを解析することも可能である。
(5)前述の各形態に係る音響解析装置100は、各形態での例示の通り、制御装置12とプログラムとの協働により実現される。前述の各形態に係るプログラムは、制御装置12(コンピュータの例示)に、N個の音片信号Qの各々と音響信号Sとを対比することで、音響信号Sを構成する複数の音片信号Qの時系列(音片系列Z)を推定する音響解析処理を実行させる。
以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(6)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
本発明の好適な態様(態様1)に係る音響解析方法は、N個の音片信号の各々と音響信号とを対比することで、前記音響信号を構成する複数の音片信号の時系列を推定する。以上の構成によれば、N個の音片信号の各々と音響信号とを対比することで、音響信号を構成する複数の音片信号の時系列を推定することが可能である。
<態様2>
態様1の好適例(態様2)において、前記複数の音片信号の時系列の推定は、前記N個の音片信号の各々について、当該音片信号と前記音響信号との相互相関を算定する相関解析と、前記N個の音片信号から選択した前記複数の音片信号の時系列を推定する推定処理とを含み、前記推定処理においては、時間軸上に配列された2以上の音片信号の末尾の時点における当該音片信号と前記音響信号との相互相関を、前記2以上の音片信号について累積した累積相互相関が最大化されるように、前記複数の音片信号の時系列を推定する。以上の態様では、各音片信号の末尾の時点における相互相関を複数の音片信号の時系列にわたり累積した累積相互相関が最大化されるように、複数の音片信号の時系列が推定される。したがって、各音片信号と音響信号との波形の類似性という観点から、音響信号を構成する複数の音片信号Qの時系列を高精度に推定できるという利点がある。
<態様3>
本発明の好適な態様(態様3)に係る音響解析装置は、N個の音片信号の各々と音響信号とを対比することで、前記音響信号を構成する複数の音片信号の時系列を推定する解析処理部を具備する。以上の構成によれば、N個の音片信号の各々と音響信号とを対比することで、音響信号を構成する複数の音片信号の時系列を推定することが可能である。
100…音響解析装置、200…情報提供装置、300…端末装置、12,32…制御装置、14,34…記憶装置、20…解析処理部、22…相関解析部、24…推定処理部、36…収音装置、38…放音装置、42…変調処理部、44…混合処理部。

Claims (2)

  1. N個の音片信号の各々と音響信号とを対比することで、前記音響信号を構成する複数の音片信号の時系列を推定する、コンピュータシステムにより実現される音響解析方法であって、
    前記複数の音片信号の時系列の推定は、
    前記N個の音片信号の各々について、当該音片信号と前記音響信号との相互相関を算定する相関解析と、
    前記N個の音片信号から選択した前記複数の音片信号の時系列を推定する推定処理とを含み、
    前記推定処理においては、時間軸上に配列された2以上の音片信号の末尾の時点における当該音片信号と前記音響信号との相互相関を、前記2以上の音片信号について累積した累積相互相関が最大化されるように、前記複数の音片信号の時系列を推定する
    音響解析方法。
  2. N個の音片信号の各々と音響信号とを対比することで、前記音響信号を構成する複数の音片信号の時系列を推定する解析処理部、を具備する音響解析装置であって、
    前記解析処理部は、
    前記N個の音片信号の各々について、当該音片信号と前記音響信号との相互相関を算定する相関解析部と、
    前記N個の音片信号から選択した前記複数の音片信号の時系列を推定する推定処理部とを含み、
    前記推定処理部は、時間軸上に配列された2以上の音片信号の末尾の時点における当該音片信号と前記音響信号との相互相関を、前記2以上の音片信号について累積した累積相互相関が最大化されるように、前記複数の音片信号の時系列を推定する
    音響解析装置。
JP2017044432A 2017-03-08 2017-03-08 音響解析方法および音響解析装置 Active JP6841095B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017044432A JP6841095B2 (ja) 2017-03-08 2017-03-08 音響解析方法および音響解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017044432A JP6841095B2 (ja) 2017-03-08 2017-03-08 音響解析方法および音響解析装置

Publications (2)

Publication Number Publication Date
JP2018146901A JP2018146901A (ja) 2018-09-20
JP6841095B2 true JP6841095B2 (ja) 2021-03-10

Family

ID=63591990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017044432A Active JP6841095B2 (ja) 2017-03-08 2017-03-08 音響解析方法および音響解析装置

Country Status (1)

Country Link
JP (1) JP6841095B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61258297A (ja) * 1985-05-11 1986-11-15 日本電気株式会社 音声合成器の故障診断装置
JP4156252B2 (ja) * 2002-03-06 2008-09-24 大日本印刷株式会社 音響信号の符号化方法
US20100036657A1 (en) * 2006-11-20 2010-02-11 Mitsunori Morisaki Speech estimation system, speech estimation method, and speech estimation program

Also Published As

Publication number Publication date
JP2018146901A (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
AU2015297648B2 (en) Terminal device, information providing system, information presentation method, and information providing method
JP5141542B2 (ja) 雑音検出装置及び雑音検出方法
AU2015297647B2 (en) Information management system and information management method
Maher Evaluation of a method for separating digitized duet signals
JP2020021101A (ja) 情報提供方法、端末装置の動作方法、情報提供システム、端末装置およびプログラム
CN106840209A (zh) 用于测试导航应用的方法和装置
CN107463700A (zh) 用于获取信息的方法、装置及设备
US20200152162A1 (en) Musical analysis method, music analysis device, and program
CN110324726A (zh) 模型生成、视频处理方法、装置、电子设备及存储介质
CN110324657A (zh) 模型生成、视频处理方法、装置、电子设备及存储介质
KR101813704B1 (ko) 사용자 음색 분석 장치 및 음색 분석 방법
WO2018005202A1 (en) Audio augmented reality system
JP6841095B2 (ja) 音響解析方法および音響解析装置
JP2010097084A (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
CN104882146A (zh) 音频推广信息的处理方法及装置
KR101382356B1 (ko) 오디오파일의 위변조 검출장치
Zhu et al. Streaming audio packet loss concealment based on sinusoidal frequency estimation in MDCT domain
JP6614395B2 (ja) 情報提供方法および情報提供装置
JP5611393B2 (ja) 遅延時間測定装置、遅延時間測定方法及びプログラム
CN113453135A (zh) 智能音箱优化方法及测试方法、装置、设备和存储介质
JP2015197941A (ja) サンプリング周波数推定装置
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
CN107727270A (zh) 一种环境温度的检测方法及装置
JP7159674B2 (ja) 情報処理装置および情報処理方法
JP7099241B2 (ja) 情報取得装置および情報取得方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210201

R151 Written notification of patent or utility model registration

Ref document number: 6841095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151