JP2005283634A - 信号処理装置および方法 - Google Patents

信号処理装置および方法 Download PDF

Info

Publication number
JP2005283634A
JP2005283634A JP2004093166A JP2004093166A JP2005283634A JP 2005283634 A JP2005283634 A JP 2005283634A JP 2004093166 A JP2004093166 A JP 2004093166A JP 2004093166 A JP2004093166 A JP 2004093166A JP 2005283634 A JP2005283634 A JP 2005283634A
Authority
JP
Japan
Prior art keywords
state
speech
signal sequence
signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004093166A
Other languages
English (en)
Other versions
JP4587160B2 (ja
Inventor
Fuiritsupu Gaanaa
フィリップ ガーナー
Toshiaki Fukada
俊明 深田
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004093166A priority Critical patent/JP4587160B2/ja
Priority to US11/082,931 priority patent/US7756707B2/en
Publication of JP2005283634A publication Critical patent/JP2005283634A/ja
Application granted granted Critical
Publication of JP4587160B2 publication Critical patent/JP4587160B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 頑健な信号の端点検出を行うことができる信号処理装置および方法を提供すること。
【解決手段】 まず、フレーム内の信号の存在を検出し、その後、その検出結果を過去のフレームに対する検出結果を用いてスムージングするためのフィルタ(91)を、現フレームの検出結果に適用する。そして、そのフィルタ(91)の出力を所定のしきい値と比較し、その比較結果に基づいて現フレームの信号系列の状態を判定する(90)。
【選択図】 図8

Description

本発明は、信号処理装置および方法に関し、特に、音響信号などの信号系列の状態を判定する信号処理装置および方法に関する。
たとえば音声処理の分野では、音声区間を検出する技術が多くの場面で必要とされる。音声区間の検出は一般に、VAD(Voice Activity Detection)と呼ばれている。また、とりわけ音声認識の分野では、単語等の意味のあるひとかたまりの音声部分の始点および終点(端点)を検出する端点検出の技術が重要である。
図1に、VADおよび端点検出を含む音声認識の処理例を示す。同図において、VAD22は、音声認識(ASR)部24における音声認識処理で背景雑音を音声として認識してしまうことを防止する役割を果たす。すなわち、VAD22の機能は、雑音を単語として変換してしまう誤りを起こさないようにすることである。加えて、VAD22を設けることにより、一般的に多くの計算機資源を利用する音声認識システムにおいて、システム全体の処理能力をよりうまく管理することが可能になる。例えば、音声により携帯機器などの制御を可能にするのである。具体的には、VADは、利用者が発声していない区間と、利用者がコマンドを指示している区間と区別する。この結果、装置は、音声認識を行っていないときは他の機能に専念し、他方、利用者が発声している時は音声認識(ASR)に専念するように制御することが可能になる。
また、VAD22および音声認識部24の前段に設けられる前処理部21を、図示の如く共通のものとすることができる。そして、本例においては、音声端点検出部23が、VADの信号を利用して、発声の始端および終端と、単語間のポーズとの区別を行う。これは、音声認識部24では、すべての単語間で間隙のない音声を受け取る必要があるからである。
このような音声区間の検出および端点検出の技術に関しては非常に多くの従来技術が存在するので、以下では、近年の代表的な従来技術に限って説明する。
米国特許第4,696,039号(特許文献1)で提案されている端点検出方法は、本発明の方法に比較的近いものである。ただし、本発明が特許文献1の方法と大きく異なる重要な点は、特許文献1では音声から無音への遷移をカウンタを用いて判断していることである。このカウンタ値が所定値になるのを待つことで確実に無音に遷移したと判断するので、その判断は、実際に無音に遷移した時点から所定時間遅れてされることになる。これに対して、本発明では、状態遷移を判断するのにそのようなカウンタを用いることはない。
米国特許第6,249,757号(特許文献2)に開示されているVAD/始端点検出は、本発明と類似の方法により統合フィルタ(integrating filter)を用いている。しかし、この特許文献2では、2つのフィルタを用いており、また、そのフィルタは音声信号に直接掛けられており、VAD尺度あるいは閾値処理された信号に掛けたものではない。
この他、固定された時間長を計ることにより動作する状態系を用いるものもある。米国特許第6,453,285号(特許文献3)は、状態系を含んだVADの設計について記載している。この状態系は、いくつかの要因に基づいて状態を変えるが、その多くは固定された時間長に基づくものである。米国特許第4,281,218号(特許文献4)は、フレーム数を数えることにより動作する状態系の初期の例である。また、米国特許第5,579,431号(特許文献5)もVADにより動作する状態系について記載している。しかし、その状態遷移もまた、時間長の計測に基づくものである。さらに、米国特許第6,480,823号(特許文献6)は比較的最近の文献で、多くの閾値を含んだシステムを記載しているが、それらの閾値はエネルギー信号を用いたものである。
また、非特許文献1にも、状態系および閾値の系列についての記載がある。しかし、この状態系もまた、固定された時間長を基にしたものである。
米国特許第4,696,039号 米国特許第6,249,757号 米国特許第6,453,285号 米国特許第4,281,218号 米国特許第5,579,431号 米国特許第6,480,823号 Li Zheng, Tsai and Zhou, "Robust endpoint detection and energy normalization for real-time speech and speaker recognition", IEEE transactions on speech and audio processing, Vol. 10, No. 3, March 2002.
上記の先行技術における状態系に基づいた端点検出方法は、音声の始終端を決定するためにフレームを数えることを必要としている。しかしながら、このような端点検出方法は以下の点で不利な点を抱えている。
マイクロホンを横切るように吹く風の音や足音といった突発性雑音は、通常大きなエネルギーを有するので、VADにより音声であると誤判定される場合が多い。この場合、このような雑音に対するVADの判定結果は、音声と非音声とを短い周期で振動することになる。しかし、実際の音声信号は、無音フレームがいくつか連続した後に有音フレームが連続するのが通常であり、このような実際の状態遷移に応じた2値(音声/非音声)の判別を行うようにしなければ精度のよい端点検出は望めない。その点で、従来のフレームを数える方法は非常に不利である。
また従来技術では、無音フレーム数をカウントして音声の終端を判別する場合において、そのカウント中にわずかに孤立した音声を検出したためにカウンタがリセットされてしまい、そのために有音から無音に遷移したことを認定するのに遅れが生じてしまう場合があるという問題もある。
本発明は、このような従来技術の問題点に対処すべくなされたものであり、頑健な信号の端点検出を行うことができる信号処理装置および方法を提供することを目的とする。
上記した課題は、本発明の信号処理装置および方法によって解決される。本発明の信号処理装置および方法においてはまず、フレーム内の信号の存在を検出する。その後、その検出結果を過去のフレームに対する検出結果を用いてスムージングするためのフィルタリングを行う。そして、そのフィルタの出力を所定のしきい値と比較し、その比較結果に基づいて前記信号系列の状態を判定する。
本発明によれば、頑健な信号の端点検出が実現される。
<用語についての注釈>
まず、本明細書で使用する用語について定義しておく。
(1)本明細書における「音声区間検出(VAD)」とは、1フレームもしくは1サンプル毎に行われる処理であって、1フレームもしくは1サンプル毎に音声の存否を示す情報を生成する処理をいう。
(2)本明細書における「端点検出」とは、単語もしく音声として有意な部分の発声の始点および終点を、VADの結果を用いて検出する処理をいう。
(3)「無音」の用語は「非音声」と同じ意味で用いる。よって、この「無音」は、“silence”のみならず“noise(雑音)”を含みうることに留意されたい。本明細書においては、「雑音」、「無音」、ならびに「非音声」は、相互に交換可能なものとして記述している。
また、以下ではいくつかの数式を示して本発明の信号検出処理を説明するが、一般に信号のベクトル表現についてはスカラ値と区別するためにボールド体で表示するところ、以下の説明ではそのように区別する表示態様とはなっていないことに留意されたい。したがって、信号がベクトルを意味するときは「ベクトル」の文字を表示するが、当業者にとってスカラ値との区別が容易であるときは省略する場合もある。
<実施形態におけるコンピュータシステムの構成>
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
さて、本発明は、一般的なコンピュータシステムで実現することができるものである。もちろん、専用のハードウェアロジックにより実現することもできるが、ここではコンピュータシステムで実現するものとする。
図2は、本実施形態に係るコンピュータシステムの構成を示す図である。図示のように、本コンピュータシステムは、システム全体の制御をつかさどるCPU1、ブートプログラム等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
HDD4はハードディスク装置であって、ここにOSのほか、音声認識プログラム、ならびにその音声認識プログラムに呼び出されて動作する端点検出プログラムが格納されている。もっとも、このコンピュータシステムが別の機器に組み込まれるなどの場合、これらのプログラムはHDDではなくROM2に格納しておくことも可能である。VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することでCRT6に表示させることができる。7および8は、入力デバイスとしてのキーボードおよびマウスである。また、9は音声を入力するためのマイクロフォン、10はマイクロフォン9からの信号をディジタル信号に変換するA/Dコンバータである。
<端点検出プログラムの機能構成>
図3は、端点検出プログラムの機能構成を示すブロック図である。以下では、この機能ブロック図の概要を説明し、その後ブロックの処理毎に詳細な説明を加えることにする。
42は、入力した時間軸信号(例えば音声に雑音が混入した信号)の特徴抽出を行うモジュールで、入力信号を所定時間長のフレームに分割するフレーム処理モジュール32およびフレーム信号の特徴量をメル化するメル化処理モジュール34を含む。36は、背景雑音を表す信号の定常な状態を追跡する雑音追跡モジュールである。38は、雑音追跡モジュール36の処理によって追跡された背景雑音に基づいて入力信号に対する所定の音声区間検出尺度を計算する音声区間検出尺度計算モジュール(以下、「VADモジュール」という。)である。ここで、計算された音声区間検出尺度は、次のしきい値比較モジュールに渡されるほか、雑音追跡モジュール36にもフィードバックされる。これは、雑音追跡モジュール36に現在の信号が音声であるか非音声であるかを指示するためである。これにより、より正確な雑音追跡が可能になる。
40は、VADモジュール38より入力した音声区間検出尺度をしきい値と比較することで各フレームにおける音声の存否を判定するしきい値比較モジュールである。音声区間検出尺度については後述するが、例えば、音声区間検出尺度は非音声よりも音声と判定されるフレームに高い値が与えられる。その場合、音声区間検出尺度がしきい値以上であればそのフレームは音声である判断され、逆に、音声区間検出尺度があるしきい値よりも低いときはそのフレームは非音声であると判断されることになる。そして、44は、しきい値比較モジュール40による判定結果に基づいて音声の端点を検出する端点検出モジュールである。
(特徴抽出モジュール42)
マイクロフォン9より入力された音響信号(音声および背景雑音が含まれうる)は、A/Dコンバータ10によって例えば11.025kHzでサンプリングされ、フレーム処理モジュール32により、例えば256サンプルからなるフレームに分割される。このフレームは例えば110サンプル毎に生成される。これにより、これらのフレームは、隣接するフレームとオーバーラップすることになる。この構成によれば、100フレームでおよそ1秒となる。
各フレームは、ハミング窓処理の後、ハートレー変換処理が行われ、同じ周波数に対応するハートレー変換の2つの出力結果は2乗和がとられ、ぺリオドグラム(periodgram)が形成される。ぺリオドグラムは一般に、パワースペクトル密度(PSD:Power Spectral Density)として知られている。256サンプルのフレームでは、PSDは128個の値(bin)からなる。
ここではこのように瞬時信号の尺度としてPSDを用いるが、このかわりに、単位時間当たりの零交差回数、信号の大きさ(エネルギー)もしくはパワー、あるいは、フーリエ変換などの周波数表現を用いてもよい。
PSDは、メル化処理モジュール34によって、メル帯域の値(bin)を用いてそのサイズが縮小される(例えば32点)。メル化処理モジュール34は、等間隔に線形変換された周波数特性を聴覚特性尺度(メル尺度)の空間に変換する。メル化された各点の値は、PSDが窓をオーバーラップさせて形成されているため、大きな相関ができる。本実施形態においては、このように生成された32個のメル尺度信号を音声区間検出の特徴量として使用する。音声認識の分野では、メルによる表現は一般的に用いられている。メルスペクトルを対数化処理を行った後、コサイン変換を施すことによりメルケプストラムに変換する、という処理を行うのがその典型的な使われ方である。しかし、この音声区間検出処理では、直接メル化した値を用いる。このように本実施形態では、メル尺度信号を特徴量として用いるが、その他の尺度による特徴量を用いてもよい。
(雑音追跡モジュール36)
メル尺度信号は、雑音追跡モジュール36および音声区間検出尺度計算モジュール(以下、「VADモジュール」という。)38に入力される。雑音追跡モジュール36は、入力されたメル尺度信号において、緩やかに変動する背景雑音を追跡する。
音声区間検出尺度については後ほど詳細に説明するが、本発明は音声区間検出尺度として尤度比を用いる。フレームfにおける尤度比Lfは例えば次式で定義される。
Figure 2005283634
上式において、s2 fはフレームfにおいて観測された32次元の特徴{s1 2, s2 2, ..., sS 2}で構成されるベクトルである。分子はフレームf が音声として検出される確からしさを示す尤度、分母はフレームfが雑音として検出される確からしさを示す尤度を表している。なお、本明細書で記述される全ての式において、直接スペクトルマグニチュードのベクトルsf={s1, s2, ..., sS}をスペクトル尺度として用いることも可能ではあるが、ここでは、特に断らない限り、PSDから計算した特徴ベクトルである2乗として表す。
雑音追跡モジュール36による雑音の追跡は、典型的には、次の単一極フィルタ型の式で表される。
Figure 2005283634
だだし、μfは、フレームfにおける32次元の雑音推定ベクトルであり、ρμは雑音更新フィルタ成分の特徴量の極であって最低更新値の意味を持つ。
本実施形態の雑音追跡は、次式で定義される。
Figure 2005283634
なお、スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合には、尤度比は次式で表される。
Figure 2005283634
上記したとおり、Lfはフレームfにおける尤度比である。ここで、Lfを0に近づけると、この雑音追跡は上記した数2の単一極フィルタ型の式となることが分かる。この場合、極は最小追跡率として機能する。一方、Lfの値を大きく(1よりも更に大きく)すると、次式に近づくことが理解されよう。
Figure 2005283634
このように、本実施形態における雑音成分の抽出には、過去のフレームにおける雑音成分の特徴量と、その過去のフレームにおける尤度比とに基づいて雑音を追跡する処理が含まれる。
(VADモジュール38:音声区間検出尺度の計算)
本発明は音声区間検出尺度として数1に示した尤度比を用いることは先述したとおりである。以下では、この尤度比の算出する3つの手法を示す。
(1)最尤法(ML:Maximum Likelihood method)
最尤法(ML:Maximum Likelihood method)は、例えば次式により表される。これは例えば、Jongseo Sohnらによる“A Voice Activity Detector employing soft decision based noise spectrum adaptation.”(Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, p. 365-368, May 1998)にも開示されている。
Figure 2005283634
Figure 2005283634
よって、
Figure 2005283634
ここで、 kは特徴ベクトルのインデックスであり、Sは特徴ベクトルの特徴(ベクトル要素)の個数(本実施形態では32)である。また、μkは、フレームfにおける雑音推定ベクトルμfのk番目の要素を表し、λkはベクトルλf (後述する)のk番目の要素を表し、また、s2 kは、ベクトルs2 fのk番目の要素を表している。なお、この算出手順を図示すると、図4のようになる。
この最尤法を用いた音声区間検出尺度の計算では、ベクトル λfのk番目の要素の値λkを求める必要がある。このλfは、フレームfにおける音声の分散(スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合は、標準偏差)の推定値で、同図中、音声分散推定50により求められる。本実施形態では、次式で表されるスペクトルサブトラクション法によりλfを求める。
Figure 2005283634
ただし、αおよびβは適当な固定値であり、本実施形態ではそれぞれ、例えば、α=1.1、β=0.3である。
(2)最大事後確率法(MAP:Maximum a-posteriori method)
ところで、上記(1)の最尤法を用いた計算方法では、ベクトルλfの計算が必要とされる。この計算には、スペクトルサブトラクション法や、判定結果により導出する推定("decision directed" estimation)のような処理を必要とする。そこで、最尤法を用いるかわりに最大事後確率法(MAP:Maximum a-posteriori method)を用いることもできる。MAPによる方法では、ベクトルλfの計算を避けることができるという利点がある。この計算手順を図示すると、図5のようになる。この場合では、61で示される雑音尤度計算は、上記の最尤法の場合(図4の52で示される雑音尤度計算)と同様であるが、音声尤度計算は上記の最尤法と異なり、次式により計算する。
Figure 2005283634
ただし、ωは、実験的に決まる事前の信号対雑音比(SNR)であり、γ(*, *)は、低域不完全(lower incomplete)ガンマ関数である。この結果、尤度比は次式で表されることになる。
Figure 2005283634
本実施形態では、ω=100とした。なお、スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合には、尤度比は次式で表される。
Figure 2005283634
(3)差分特徴最尤法(Differential feature ML method)
ところで、上記した2つの計算法は、特徴量を直接用いる方法に基づいている。これと異なる方法として、(時間ドメインではなく)特徴量ドメインにおいて、音声区間検出計算を行う前にローパスフィルタを施す方法がある。特徴量がスペクトルの場合には、下記の2つの利点が生まれる。
(a)オフセット(DC)が除去される。つまり、広帯域にわたる雑音成分が除かれることを意味する。これは、手を叩いた音や堅いもの同士が衝突した音などの、短時間の広帯域雑音(インパルス)に対して実質的に有効である。これらの音は、雑音追跡の速度より非常に速い速度である。
(b)また、メル化する処理の導入により生じる、相関を除くことができる。
典型的なローパスフィルタは、次の再帰式により表される。
x’k = xk−xk+1
ここで、スペクトルの場合には、 xk=s2 kである。
本実施形態では例えば、次のように打ち切りを行っている。通常のフィルタでは、ベクトルx’を生成することになる。
x’1 = x1−x2
x’2 = x2−x3
・・・
x’S-1 = xS-1−xS
その結果、ベクトルはS−1の要素からなることになる。本実施形態で用いた打ち切りフィルタでは、一つおきの値を用い、その結果、ベクトルはS/2の要素からなっている。
x’1 = x1−x2
x’2 = x3−x4
・・・
x’S/2 = xS-1−xS
図6は、この計算手順を示す図である。この場合において、72で計算される音声尤度と73で計算される雑音尤度との比(尤度比)は、両スペクトルの要素のどちらが大きいのかに依存する。すなわち、s2 2k-1>s2 2kの場合、音声尤度P(s2 f|speech)および雑音尤度P(s2 f|noise)はそれぞれ次式で表される。
Figure 2005283634
Figure 2005283634
しかし、 s2 2k>s2 2k-1の場合には、音声尤度P(s2 f|speech)および雑音尤度P(s2 f|noise)はそれぞれ次式で表される。
Figure 2005283634
Figure 2005283634
したがって、尤度比は次のように表される。
Figure 2005283634
なお、スペクトルパワーs2のかわりにスペクトルマグニチュードsを用いる場合には、尤度比は次式で表される。
Figure 2005283634
上述の全てのLfの計算は、次式のとおり定式化される。
Figure 2005283634
しかし、一般的には、Lfは様々な相関があるので、これらを掛け合わせると非常に大きな値になる。そこで、次式のように、Lkを1/(κS)乗することにより、これを抑える。
Figure 2005283634
これを対数尤度で表現すると、次式のようになる。
Figure 2005283634
この場合では、κS=1のとき、各々の要素の尤度の幾何学的な平均を求めていることに相当する。本実施形態においては、対数の形式を用いており、κSは場合に応じて最適化を行う。ここでは、概ね0.5〜2の間の値をとる。
このようにして計算される尤度比は、しきい値比較モジュール40に渡されて、しきい値との比較結果に基づいて各フレームの音声/非音声が判別される。
なお、本発明は上述の音声/非音声を判別する処理に限定されるものではなくその他の方法を採用してもよいが、上記の手法は、各フレームの音声/非音声を判別する処理として好適な具体例である。上述のように、音声区間検出尺度として尤度比を用いることで、さまざまな種類の背景雑音に対して耐性のある音声区間検出を行うことができる。とりわけ、尤度比の算出に最大事後確率法(MAP)を導入することで、推定されるSNRに対するVADの調整が容易になる。これにより、レベルの低い音声に高レベルの雑音が混入しても音声を精度よく検出することができる。また、差分特徴最尤法を用いれば、周波数全域にわたりパワーがほぼ等しい雑音(例えば、足音のような振動音や風や息のような聞き分けにくい音を含む。)に対してもロバストな性能が得られる。
(端点検出モジュール44)
図8は、端点検出モジュール44の詳細な機能構成を示すブロック図である。図示のように、端点検出モジュール44は、状態遷移判定モジュール90、状態フィルタ91、およびフレームインデックス(frame index)保持部92を含む構成である。
状態遷移判定モジュール90は、図9に示すような状態遷移図に従い状態を判定し、その特定の状態遷移が生じたときのフレームインデックスをフレームインデックス保持部92に保持する。図9に示すように、状態は、非音声状態“SILENCE”80および音声状態“SPEECH”82の2状態だけではなく、非音声状態から音声状態に向かう中間の状態を示す準音声状態“POSSIBLE SPEECH”81、および、音声状態から非音声状態に向かう中間の状態を示す準非音声状態“POSSIBLE SILENCE”83を有している。
状態遷移判定モジュール90による状態遷移の判定方法については後述するが、その判定結果は次のようにフレームインデックス保持部92に保持される。まず、初期状態を図9における“SILENCE”80とする。この状態において、84に示されるように、“POSSIBLE SPEECH”81に状態が遷移した場合、フレームインデックス保持部92に現在のフレームインデックスが保持される。続いて、状態が、86に示されるように、“POSSIBLE SPEECH”81から“SPEECH”82に遷移すると、保持されているフレームインデックスが音声の始端点として出力される。
さらに状態が、87に示すように、“SPEECH”82から“POSSIBLE SILENCE”83に遷移した場合には、そのときのフレームインデックスが保持される。続いて、状態が、89に示されるように、“POSSIBLE SILENCE”83から“SILENCE”に遷移すると、保持されているフレームインデックスが音声の終端点として出力される。
端点検出モジュール44では、このような状態遷移機構に基づいて状態遷移を判定し、これにより端点を検出する。
以下、状態遷移判定モジュール90による状態の判定方法について説明するが、本発明の判定方法を説明する前に、従来の状態判定方法を説明しておく。
従来は、例えば、特定の状態遷移があったときに、VADにより「音声」と判断されたフレームまたは「非音声」と判断されたフレームの数をカウントし、そのカウント値に基づいて次の状態遷移が生じたかどうかを判断していた。図11を参照して具体的に説明する。なお、この従来例も図9に示した状態遷移機構を用いるものとする。
図11において、(A)は端点検出の対象である入力信号、(B)はVAD処理による音声区間検出尺度、(C)は(B)の音声区間検出尺度のしきい値比較による音声/非音声の判別結果、そして(D)は状態判定結果を示している。
“SILENCE”80から“POSSIBLE SPEECH”81への状態遷移84、および、“POSSIBLE SILENCE”83から“SPEECH”82への状態遷移88はそれぞれ、直前のフレームが「非音声」と判別され現フレームが「音声」と判別された場合に、直ちに生じる。図11のf1、f3、f6、f8がこれに該当するケースである。
同様に、“SPEECH”82から“POSSIBLE SILENCE”83への状態遷移87は、直前のフレームが「音声」と判別され現フレームが「非音声」と判別された場合に、直ちに生じる。図11のf5、f7、f9がこれに該当するケースである。
一方、“POSSIBLE SPEECH”81から“SILENCE”80もしくは“SPEECH”82への状態遷移85,86、ならびに、“POSSIBLE SILENCE”83から“SILENCE”80への状態遷移89については、慎重に判断される。例えば、f1のような“SILENCE”80から“POSSIBLE SPEECH”81に状態が遷移した時点から所定フレーム数(例えば12)の間に、「音声」と判断されたフレームの数がカウントされる。この間にカウント値が所定数(例えば8)に達すれば、状態は“SPEECH”82に遷移したと判断される。逆に、この所定フレーム数の間に上記カウント値が所定数に達しなければ、状態は“SILENCE”80に戻る。f2では、カウント値が所定数に達しなかったため状態が“SILENCE”に戻ったことが示されている。状態が“SILENCE”に戻った時点でカウント値はリセットされる。
3では、“SILENCE”80の状態において、現フレームが「音声」と判別されたことによって、再び“POSSIBLE SPEECH”81に状態が遷移し、これにより所定フレーム数の間でVADによって「音声」と判断されたフレームのカウントが開始される。そして、f4で、カウント値が所定数に達したため、ここで状態は“SPEECH”に遷移したと判断される。この“SPEECH”に遷移した時点でカウント値はリセットされる。
また、“SPEECH”82から“POSSIBLE SILENCE”83に状態が遷移した時点からVADによって「非音声」と判断されたフレームが連続する数がカウントされる。この連続数を示すカウント値が所定数(例えば10)に達すれば、状態は“SILENCE”80に遷移したと判断される。ここで、この上記カウント値が所定数に達する前にVADによって「音声」と判断されたフレームが検出されたときは、状態は“SPEECH”82に戻る。“SPEECH”に遷移したので、この時点でカウント値はリセットされる。
従来の状態判定方法は上記のようなものであるが、この手法の欠点が図11のf8〜f10の期間およびf3〜fの期間に現れている。たとえば、f8に示されているように、突発的または孤立的な音声によって、状態は“SPEECH”82となり、その後まもなく、f9で状態は“POSSIBLE SILENCE”83に戻っているが、この間にカウンタ値はリセットされているので、VADによって「非音声」と判断されたフレームの連続数のカウントはやり直しとなる。そのために、状態が“SILENCE”80に遷移したと判断されるのに遅れが生じてしまう(f9〜f10)。また、f3〜fの期間についても、上記したとおり、f3の時点からVADによって「音声」と判断されたフレームの数のカウントを開始し、固定されたカウント値になったところで状態が“SPEECH”82に遷移した判断されるので、実際にはその判断は遅れたものとなってしまうケースが多い。
これに対し、本発明では、状態フィルタ91のフィルタ出力のしきい値比較に基づいて各フレームの状態を判定する。以下、本実施形態による処理を具体的に説明する。
この端点検出モジュール44には、音声/非音声の判別結果がしきい値比較モジュール40より入力される。ここで、判別結果「音声」を1、「非音声」を0とする。しきい値比較モジュール40より入力された現フレームの判別結果は、状態フィルタ91において、例えば次式で表されるようなフィルタによってフィルタリングされる。
f = ρVf-1+(1−ρ)Xf
ただし、fはフレームインデックス、Vfはフレームfのフィルタ出力、Xfはフレームfのフィルタ入力(すなわち、フレームfの音声/非音声の判別結果)、ρはフィルタの極に当たる一定値である。フィルタの極に当たるρはフィルタの特徴を決定するものである。本実施形態では、典型的には、この値は0.99に設定されている。また、Vfの初期値には0を与えている(Vf=0)。上式から分かるように、このフィルタは、フィルタ出力をフィードバックする形式のフィルタであって、1フレーム手前のフィルタ出力Vf-1と現フレームの新たな入力Xf(音声/非音声の判別結果)との重み付け加算となっている。このフィルタによれば、現フレームの2値(音声/非音声)の判別情報が、過去のフレームに対する2値(音声/非音声)の判別情報を用いてスムージングされることが理解されよう。図10の(D)に、このフィルタ出力を示す。なお、同図の(A)〜(C)は、図11の(A)〜(C)と同じものである。
本実施形態における状態遷移判定モジュール90による状態の判定は次のように行われる。現在の状態が“SILENCE”80から開始すると仮定する。この状態は通常、しきい値比較モジュール40による音声/非音声の判定結果は「非音声」を示す。この状態において、“POSSIBLE SPEECH”81への状態遷移84は、現フレームがしきい値比較モジュール40によって「音声」と判別されたことによって生じる(例えば、図10のf11)。この点は上記の従来例と同様である。
つぎに、“POSSIBLE SPEECH”81から“SPEECH”82への遷移86は、状態フィルタ91のフィルタ出力が第1のしきい値TSを超えたときに生じる(図10のf13)。一方、“POSSIBLE SPEECH”81から“SILENCE”80への遷移85は、状態フィルタ91のフィルタ出力が第2のしきい値TN(TN<TS)を下回ったときに生じる(図10のf12)。本実施形態においては、TS=0.5、TN=0.075に設定している。
状態が音声から非音声に向かって遷移する場合は、つぎのように判定される。“SPEECH”82では通常、しきい値比較モジュール40による音声/非音声の判定結果は「音声」を示す。この状態において、“POSSIBLE SILENCE”81への状態遷移87は、現フレームがしきい値比較モジュール40によって「非音声」と判別されたことによって直ちに生じる。
つぎに、“POSSIBLE SILENCE”87から“SILENCE”80への遷移89は、状態フィルタ91のフィルタ出力が第2のしきい値TNを下回ったときに生じる(図10のf14)。一方、“POSSIBLE SILENCE”87から“SPEECH”82への遷移87は、現フレームがしきい値比較モジュール40によって「音声」と判別されたことによって直ちに生じる。
また、状態遷移判定モジュール90は、状態フィルタ91のフィルタ出力Vfを次のように制御する。まず、“POSSIBLE SPEECH”81から“SPEECH”82に状態が遷移したときは、フィルタ出力Vfを1に設定する(図10(D)のf13を参照。)。一方、“POSSIBLE SILENCE”87から“SILENCE”80に状態が遷移したときは、フィルタ出力Vfを0に設定する(図10(D)のf12、f14を参照。)。
このように、本実施形態では、各フレームの状態(音声/非音声判別結果)をスムージングする状態フィルタ91を導入し、この状態フィルタ91の出力に対するしきい値判定に基づいて各フレームの状態を判定する。本実施形態では、状態フィルタ91の出力が第1のしきい値TSを超えたときに“SPEECH”状態と判断され、状態フィルタ91の出力が第2のしきい値TNを下回ったときに、“SILENCE”状態と判断される。このように本実施形態では従来例のようにVADによって「音声」と判断されたフレームまたは「非音声」と判断されたフレームをカウントしそのカウント値が所定値に達したかどうかによって状態遷移を判断することはしないので、この状態遷移の判断の遅れを大幅に小さくすることができる。これにより高精度な端点検出が実現される。
<端点検出処理の詳細>
図7は、本実施形態における端点検出処理を示すフローチャートである。このフローチャートに対応するプログラムはHDD4に記憶されている端点検出プログラムに含まれ、RAM3にロードされた後、CPU1によって実行されるものである。
この処理はS1を初期ステップとして開始し、ステップS2でフレームインデックス(frame index)を0に設定し、ステップS3で、現在のフレームインデックスに対応するフレームを読み込む。
次に、ステップS4で、フレームインデックスが0(初期フレーム)か否かを判断する。ここで、フレームインデックスが0のときはステップS10に進み、音声区間検出尺度としての尤度比を0に設定し、その後、ステップS11で、その初期フレームの値を雑音推定値に設定してステップS12に進む。
一方、ステップS4で、フレームインデックスが0でないと判断された場合には、ステップS5に進み、上述した方法で音声の分散の推定を行う。次に、ステップS6で、フレームインデックスが所定値(例えば10)未満であるか否かを判断する。ここで、フレームインデックスが10未満の場合にはステップS8に進み、尤度比=0を維持する。他方、フレームインデックスが所定値以上の場合にはステップS7に進み、音声区間検出尺度としての尤度比を計算する。次に、ステップS9で、ステップS7またはS8で決定された尤度比を用いて雑音推定の更新を行う。このような処理により、雑音推定を信頼性のある値と仮定することが可能になる。
次に、ステップS12で、しきい値比較モジュール40によって、尤度比を所定のしきい値と比較して、2値(音声/非音声を示す値)を生成する。MAPを用いる場合には、しきい値は例えば0であり、他の場合には例えば2.5である。
次に、ステップS13で、端点検出モジュール44によって、前述したような音声の端点検出が行われる。
そして、ステップS14でフレームインデックスをインクリメントしてステップS3に戻り、次のフレームについて処理を繰り返す。
<他の実施形態>
上述した実施形態は、音声認識などの音声に関わる内容で説明したが、本発明は例えば、機械などの音や動物の音などの音声以外の音響信号にも適用することが可能である。また、ソナーや動物の音などのように、人には聞くことができないような領域の音響情報にも利用できるものである。さらに、レーダーや無線信号などの電磁波などの信号にも適用が可能である。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
従来のVADおよび端点検出を含む音声認識の処理例を示す機能ブロック図である。 本発明の実施形態に係るコンピュータシステムの構成を示す図である。 本発明の実施形態における端点検出プログラムの機能構成を示すブロック図である。 最尤法を用いた音声区間検出尺度の計算手順を示す図である。 最大事後確率法を用いた音声区間検出尺度の計算手順を示す図である。 差分特徴最尤法を用いた音声区間検出尺度の計算手順を示す図である。 実施形態における信号検出処理を示すフローチャートである。 実施形態における端点検出モジュールの詳細な機能構成を示すブロック図である。 実施形態における状態遷移図の一例を示す図である。 実施形態における状態遷移判定処理を説明するための図である。 従来の状態遷移判定処理を説明するための図である。

Claims (16)

  1. 入力した信号系列を所定時間長のフレームに分割し、フレームごとに前記信号系列の状態を判定する信号処理装置であって、
    フレーム内の信号の存在を検出する検出手段と、
    前記検出手段による検出結果を過去のフレームに対する前記検出手段による検出結果を用いてスムージングするフィルタと、
    前記フィルタの出力を所定のしきい値と比較し、その比較結果に基づいて前記信号系列の状態を判定する状態判定手段と、
    を有することを特徴とする信号処理装置。
  2. 前記信号系列が音響信号系列であることを特徴とする請求項1に記載の信号処理装置。
  3. 前記音響信号系列が音声信号系列であることを特徴とする請求項2に記載の信号処理装置。
  4. 前記音声信号系列の状態は、音声状態、非音声状態、非音声状態から音声状態に向かう中間の状態を示す準音声状態、音声状態から非音声状態に向かう中間の状態を示す準非音声状態、の4状態を有することを特徴とする請求項3に記載の信号処理装置。
  5. 前記所定しきい値は、準音声状態と音声状態とを判別するための第1のしきい値と、準音声状態もしくは準非音声状態と非音声状態とを判別するための第2のしきい値とを含み、
    前記状態判定手段は、前記フィルタの出力が前記第1のしきい値を超えたときに、前記信号系列の状態が音声状態に遷移したと判定し、前記フィルタの出力が前記第2のしきい値を下回ったときに、前記信号系列の状態が非音声状態に遷移したと判定する
    ことを特徴とする請求項4に記載の信号処理装置。
  6. 前記状態判定手段は更に、
    前記信号系列の現在の状態が音声状態である場合において前記検出手段により音声の存在が検出されなかったときは、前記信号系列の状態が準非音声状態に遷移したと判定し、
    前記信号系列の現在の状態が準非音声状態である場合において前記検出手段により音声の存在が検出されたときは、前記信号系列の状態が音声状態に遷移したと判定する
    ことを特徴とする請求項5に記載の信号処理装置。
  7. 前記状態判定手段は更に、
    前記信号系列の現在の状態が非音声状態である場合において前記検出手段により音声の存在が検出されたときは、前記信号系列の状態が準音声状態に遷移したと判定する
    ことを特徴とする請求項5または6に記載の信号処理装置。
  8. 入力した信号系列を所定時間長のフレームに分割し、フレームごとに前記信号系列の状態を判定する信号処理方法であって、
    (a)フレーム内の信号の存在を検出するステップと、
    (b)上記ステップ(a)での検出結果を過去のフレームに対する上記ステップ(a)での検出結果を用いてスムージングするためのフィルタリングを行うステップと、
    (c)上記ステップ(b)の出力を所定のしきい値と比較し、その比較結果に基づいて前記信号系列の状態を判定するステップと、
    を有することを特徴とする信号処理方法。
  9. 前記信号系列が音響信号系列であることを特徴とする請求項8に記載の信号処理方法。
  10. 前記音響信号系列が音声信号系列であることを特徴とする請求項9に記載の信号処理方法。
  11. 前記音声信号系列の状態は、音声状態、非音声状態、非音声状態から音声状態に向かう中間の状態を示す準音声状態、音声状態から非音声状態に向かう中間の状態を示す準非音声状態、の4状態を有することを特徴とする請求項10に記載の信号処理方法。
  12. 前記所定しきい値は、準音声状態と音声状態とを判別するための第1のしきい値と、準音声状態もしくは準非音声状態と非音声状態とを判別するための第2のしきい値とを含み、
    上記ステップ(c)では、上記ステップ(b)の出力が前記第1のしきい値を超えたときに、前記信号系列の状態が音声状態に遷移したと判定し、上記ステップ(b)の出力が前記第2のしきい値を下回ったときに、前記信号系列の状態が非音声状態に遷移したと判定する
    ことを特徴とする請求項11に記載の信号処理方法。
  13. 上記ステップ(c)は更に、
    前記信号系列の現在の状態が音声状態である場合において上記ステップ(a)により音声の存在が検出されなかったときは、前記信号系列の状態が準非音声状態に遷移したと判定し、
    前記信号系列の現在の状態が準非音声状態である場合において上記ステップ(a)により音声の存在が検出されたときは、前記信号系列の状態が音声状態に遷移したと判定する
    ことを特徴とする請求項12に記載の信号処理方法。
  14. 上記ステップ(c)は更に、
    前記信号系列の現在の状態が非音声状態である場合において上記ステップ(a)により音声の存在が検出されたときは、前記信号系列の状態が準音声状態に遷移したと判定する
    ことを特徴とする請求項12または13に記載の信号処理方法。
  15. 入力した信号系列を所定時間長のフレームに分割し、フレームごとに前記信号系列の状態を判定する信号処理方法をコンピュータによって実現するためのプログラムであって、
    (a)フレーム内の信号の存在を検出するステップのコードと、
    (b)上記ステップ(a)での検出結果を過去のフレームに対する上記ステップ(a)での検出結果を用いてスムージングするためのフィルタリングを行うステップのコードと、
    (c)上記ステップ(b)の出力を所定のしきい値と比較し、その比較結果に基づいて前記信号系列の状態を判定するステップのコードと、
    を含むことを特徴とするプログラム。
  16. 請求項15に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2004093166A 2004-03-26 2004-03-26 信号処理装置および方法 Expired - Fee Related JP4587160B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004093166A JP4587160B2 (ja) 2004-03-26 2004-03-26 信号処理装置および方法
US11/082,931 US7756707B2 (en) 2004-03-26 2005-03-18 Signal processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004093166A JP4587160B2 (ja) 2004-03-26 2004-03-26 信号処理装置および方法

Publications (2)

Publication Number Publication Date
JP2005283634A true JP2005283634A (ja) 2005-10-13
JP4587160B2 JP4587160B2 (ja) 2010-11-24

Family

ID=34991214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004093166A Expired - Fee Related JP4587160B2 (ja) 2004-03-26 2004-03-26 信号処理装置および方法

Country Status (2)

Country Link
US (1) US7756707B2 (ja)
JP (1) JP4587160B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
CN105976810A (zh) * 2016-04-28 2016-09-28 Tcl集团股份有限公司 一种检测语音有效话语段端点的方法和装置
JP7498231B2 (ja) 2022-08-25 2024-06-11 Necパーソナルコンピュータ株式会社 情報処理装置、音声認識支援方法、及び音声認識支援プログラム

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
JP4810343B2 (ja) * 2006-07-20 2011-11-09 キヤノン株式会社 音声処理装置およびその制御方法
JP2008048076A (ja) * 2006-08-11 2008-02-28 Canon Inc 音声処理装置およびその制御方法
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
WO2012083555A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10817787B1 (en) * 2012-08-11 2020-10-27 Guangsheng Zhang Methods for building an intelligent computing device based on linguistic analysis
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
CN104700830B (zh) * 2013-12-06 2018-07-24 中国移动通信集团公司 一种语音端点检测方法及装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10229686B2 (en) * 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
EP3240303B1 (en) * 2014-12-24 2020-04-08 Hytera Communications Corp., Ltd. Sound feedback detection method and device
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10854192B1 (en) * 2016-03-30 2020-12-01 Amazon Technologies, Inc. Domain specific endpointing
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11158311B1 (en) 2017-08-14 2021-10-26 Guangsheng Zhang System and methods for machine understanding of human intentions
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108665889B (zh) * 2018-04-20 2021-09-28 百度在线网络技术(北京)有限公司 语音信号端点检测方法、装置、设备及存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN108806707B (zh) * 2018-06-11 2020-05-12 百度在线网络技术(北京)有限公司 语音处理方法、装置、设备及存储介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN112955951A (zh) * 2018-11-15 2021-06-11 深圳市欢太科技有限公司 语音端点检测方法、装置、存储介质及电子设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60209799A (ja) * 1984-02-29 1985-10-22 日本電気株式会社 音声検出器の出力保持回路
JPH05224686A (ja) * 1992-02-12 1993-09-03 Matsushita Electric Ind Co Ltd 有音無音判定方法およびその装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4696039A (en) 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
ATA78889A (de) * 1989-04-04 1994-02-15 Siemens Ag Oesterreich Schnurlos-telefonsystem mit mobilteilen und feststationen
US5579431A (en) 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3548230B2 (ja) 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3559588B2 (ja) 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3530591B2 (ja) 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
JP3581401B2 (ja) 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3459712B2 (ja) 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
JPH09258771A (ja) 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
JPH1097276A (ja) 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
JPH10161692A (ja) 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
JPH10254486A (ja) 1997-03-13 1998-09-25 Canon Inc 音声認識装置および方法
JP3962445B2 (ja) 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
US6453285B1 (en) 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
JP3697121B2 (ja) 1998-10-15 2005-09-21 キヤノン株式会社 太陽光発電装置およびその制御方法
US6249757B1 (en) 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
JP2002539528A (ja) 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6985492B1 (en) * 1999-04-13 2006-01-10 Broadcom Corporation Voice gateway with voice synchronization
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP4632384B2 (ja) 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP2001282279A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP2001282278A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
JP2002132287A (ja) 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
WO2002054744A1 (en) * 2000-12-29 2002-07-11 Nokia Corporation Audio signal quality enhancement in a digital network
US20030158735A1 (en) 2002-02-15 2003-08-21 Canon Kabushiki Kaisha Information processing apparatus and method with speech synthesis function
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60209799A (ja) * 1984-02-29 1985-10-22 日本電気株式会社 音声検出器の出力保持回路
JPH05224686A (ja) * 1992-02-12 1993-09-03 Matsushita Electric Ind Co Ltd 有音無音判定方法およびその装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
CN105976810A (zh) * 2016-04-28 2016-09-28 Tcl集团股份有限公司 一种检测语音有效话语段端点的方法和装置
CN105976810B (zh) * 2016-04-28 2020-08-14 Tcl科技集团股份有限公司 一种检测语音有效话语段端点的方法和装置
JP7498231B2 (ja) 2022-08-25 2024-06-11 Necパーソナルコンピュータ株式会社 情報処理装置、音声認識支援方法、及び音声認識支援プログラム

Also Published As

Publication number Publication date
US20050216261A1 (en) 2005-09-29
US7756707B2 (en) 2010-07-13
JP4587160B2 (ja) 2010-11-24

Similar Documents

Publication Publication Date Title
JP4587160B2 (ja) 信号処理装置および方法
JP4497911B2 (ja) 信号検出装置および方法、ならびにプログラム
US8874440B2 (en) Apparatus and method for detecting speech
JP3726448B2 (ja) 認識対象音声検出方法およびその装置
JP2011158918A (ja) クリーン信号確率変数の推定値を識別する方法
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
US20060053003A1 (en) Acoustic interval detection method and device
US20060206321A1 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
JP2005522074A (ja) 話者識別に基づくビデオのインデックスシステムおよび方法
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JPH0121519B2 (ja)
US20130208903A1 (en) Reverberation estimator
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
EP2328143A1 (en) Human voice distinguishing method and device
US6704671B1 (en) System and method of identifying the onset of a sonic event
JP6071944B2 (ja) 話者速度変換システムおよびその方法ならびに速度変換装置
Huijbregts et al. Filtering the unknown: Speech activity detection in heterogeneous video collections
JP4413175B2 (ja) 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
Lin et al. A Novel Normalization Method for Autocorrelation Function for Pitch Detection and for Speech Activity Detection.
JP6257537B2 (ja) 顕著度推定方法、顕著度推定装置、プログラム
JP2003271189A (ja) 話者方向検出回路及びその検出方法
JP2017211513A (ja) 音声認識装置、その方法、及びプログラム
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
JP2009229583A (ja) 信号検出方法及び装置
JP2734526B2 (ja) ピッチ抽出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100831

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees