JP2002236494A - 音声区間判別装置、音声認識装置、プログラム及び記録媒体 - Google Patents

音声区間判別装置、音声認識装置、プログラム及び記録媒体

Info

Publication number
JP2002236494A
JP2002236494A JP2001034049A JP2001034049A JP2002236494A JP 2002236494 A JP2002236494 A JP 2002236494A JP 2001034049 A JP2001034049 A JP 2001034049A JP 2001034049 A JP2001034049 A JP 2001034049A JP 2002236494 A JP2002236494 A JP 2002236494A
Authority
JP
Japan
Prior art keywords
voice
section
speaker
standard pattern
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001034049A
Other languages
English (en)
Inventor
Makoto Sakai
誠 坂井
Norihide Kitaoka
教英 北岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2001034049A priority Critical patent/JP2002236494A/ja
Publication of JP2002236494A publication Critical patent/JP2002236494A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 複数話者が並行して発声することで各話者の
音声区間に重複が生じた場合であっても、各話者の音声
区間を適切に判別する。 【解決手段】 パターン記憶部14に、特定の男性話者
の音声を識別するための男性モデル14a、特定の女性
話者の音声を識別するための女性モデル14b、男性話
者と女性話者との混合音声を識別するための混合モデル
14c、無音区間を識別するための無音モデル14dの
4つの統計モデル14a〜14dを記憶しておく。マッ
チング部13は、統計モデル14a〜14dとして予め
作成された標準パターンと音響分析部12から送られき
た音響特徴量との類似度計算し、この類似度に基づき、
フレーム判定部15が、統計モデル14a〜14dの中
からフレーム毎に最も確からしいモデルを選択する。こ
の選択結果に基づいて、男性話者、女性話者のそれぞれ
の音声区間が、音声区間判別部17によって判別され
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声を
認識する音声認識技術に関し、特に、入力音声信号中の
音声区間を適切に判別する技術に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】より正
確な音声認識を行うために、音声が入力された区間(以
下「音声区間」という。)を判別することは、極めて重
要である。従来、このような音声区間は、音声のパワー
やゼロクロスなどによる判定法を用いて判別していた。
【0003】しかしながら、このような従来の判定法
は、話者が単一の場合を想定したものであり、実際に音
声認識を行う状況下では、複数の話者が並行して発声す
ることがあり得る。例えば、時系列に並んだ4つの時点
t1,t2,t3,t4がある場合、ある話者Aが時点
t1から時点t3までの区間(以下、時点αから時点β
の区間を、区間[α,β]と記述する。)に発声し、別
の話者Bが区間[t2,t4]に発声するような場合が
考えられる。このとき、従来の手法で音声区間を判別し
ようとすると、区間[t1,t4]が音声区間と判断さ
れてしまうことになり、話者毎の音声区間を切り出すこ
とができない。
【0004】なお、複数話者を対象にした音声認識技術
として、発話の交代を含むアルゴリズムについては、村
井則之,小林哲則:”MLLRによる話者適応と統計的
発話交代モデルを用いた複数話者対話音声の認識”,信
学技報SP2000-14(2000-6) に研究成果が発表されてい
る。ただし、この技術も話者Aと話者Bとが交互に発声
することを前提としたものであり、両者の音声区間が重
複する場合には適用できない。
【0005】本発明は、上述した問題点を解決するため
になされたものであり、複数話者による発声により各話
者の音声区間に重複が生じた場合であっても、各話者の
音声区間を判別することを目的とし、より正確な音声認
識に寄与する。
【0006】
【課題を解決するための手段及び発明の効果】本発明の
音声区間判別装置では、外部から入力された入力音声に
複数の話者の音声が混在し得るという前提の下、単一話
者の音声及び複数話者の混合音声に対応する標準パター
ンを用意した。例えば二人の話者Aと話者Bの音声が混
在する可能性がある場合、話者A,Bのそれぞれの音声
に対応する標準パターンと、話者A,Bの混合音声に対
応する標準パターンとを用意する。三人の話者A,B,
Cの音声が混在する場合には、その組み合わせを考えて
混合音声の標準パターンを用意する。全ての組み合わせ
を考えた場合には、話者Aと話者Bとの混合音声に対応
する標準パターン、話者Bと話者Cとの混合音声に対応
する標準パターン、話者Cと話者Aとの混合音声に対応
する標準パターン、及び話者Aと話者Bと話者Cとの混
合音声に対応する標準パターンを用意することになる。
なお、ここでいう標準パターンは、話者を区別するため
のパターンであり、音声認識に用いられる標準パターン
とは異なる。
【0007】そして、この標準パターンと音響分析手段
にて求められる所定周期毎の音響特徴量とのマッチング
を行い、いずれの標準パターンに類似しているかを所定
周期毎に判定して、各話者の音声区間を判別する。な
お、所定周期は、音声区間を適切な精度で切り出せる程
度の比較的短い周期とすればよい。
【0008】つまり、話者毎の音声に対応する標準パタ
ーンを用意して話者を区別すると共に、話者の音声の組
み合わせに対応する標準パターンを用意することで、音
声区間の重複箇所を判断するのである。これによって、
各話者の音声区間に重複が生じた場合であっても、各話
者の音声区間を判別することができ、より正確な音声認
識に寄与できる。
【0009】例えば、4つの時点t1,t2,t3,t
4が時系列に並んでいる場合、ある話者Aが区間[t
1,t3]に発声し、別の話者Bが区間[t2,t4]
に発声したような場合、区間[t1,t2]は話者Aの
音声区間、区間[t2,t3]は両方の話者A,Bの音
声区間、区間[t3,t4]は話者Bの音声区間として
判定されることになり、話者Aの音声区間を[t1,t
3]、話者Bの音声区間を[t2,t4]という具合
に、それぞれの音声区間を判別することができる。
【0010】なお、上述した標準パターンは、統計モデ
ルとして予め作成されるものとすることが考えられる
(請求項2)。統計モデルの一例として、隠れマルコフ
モデルが挙げられる(請求項3)。このような統計モデ
ルは、特定の単語を話者に発声させ、その入力音声に基
づいて作成することができる。
【0011】そして、複数話者の混合音声に対応する標
準パターンの統計モデルは、複数の話者の混合音声を基
に作成してもよいが、単一話者の音声に対応する標準パ
ターンの統計モデルを合成して作成するとよい(請求項
4)。例えば隠れマルコフモデルであれば、周知のPM
C法を用いて合成するという具合である。これによって
混合音声に対応する統計モデルを簡単に作成できる。
【0012】ところで、マッチング手段は、音声認識に
おけるパターンマッチングと同様の方法でマッチングを
行うものとすることが考えられる。例えば、所定周期毎
の尤度を算出するという具合である(請求項5)。尤度
には、いわゆる対数尤度を用いることが考えられる。さ
らに、音声区間がある程度連続した区間となることを考
えると、尤度の時間方向のばらつきを抑える意味で、判
定手段は、マッチング手段にて算出された尤度に対し時
間方向の移動平均処理であるスムージング処理を実行し
て、いずれの標準パターンに類似しているかを判定する
ようにするとよい(請求項6)。
【0013】なお、標準パターン記憶手段には、さら
に、無音区間に対応する標準パターンを記憶しておくと
よい(請求項7)。音声区間と同様に無音区間を判断で
き、音声区間の判別精度が向上するためである。また、
複数の話者の音声が混在するだけでなく、例えば車両に
搭載される装置に本発明を適用する場合など、エンジン
音やオーディオ機器から出力される音といった話者周囲
の音が入力音声に混じることが考えられる。
【0014】そこで、標準パターン記憶手段は、入力音
声に話者周囲の音である周囲音が混在し得る前提の下、
さらに、その周囲音及びその周囲音と話者音声との混合
音に対応する標準パターンを記憶する構成を採用するこ
とが考えられる(請求項8)。このようにすれば、話者
の音声以外の周囲音だけの区間を判断したり、音声とそ
れ以外の周囲音が混在する区間を判断したりでき、結果
的に音声区間の判別精度のさらなる向上が図られる。
【0015】以上のようにして話者毎の音声区間が正確
に判別できれば、この音声区間を対象として音声認識を
行うことで認識精度を向上させることができる。本発明
は、上述した構成に加え、このような音声認識を行う音
声認識手段をさらに備えた音声認識装置の発明としても
実現できる。
【0016】音声認識手段による認識手法は、従来と同
様、音声認識用の標準パターンとのマッチング処理を行
うことによって、最も近いと思われる認識対象語の推定
を行うものとすることが考えられる。このとき、音声認
識用の標準パターンも話者毎に用意しておくことが望ま
しい。認識精度の向上につながるからである。また、音
声認識手段が複数話者の音声のそれぞれについて音声認
識を行うことにより、並行して入力された各音声の認識
が可能になる。
【0017】なお、このような音声区間判別装置や音声
認識装置をコンピュータシステムにて実現する機能は、
その一部をコンピュータ側で起動するプログラムとして
備えることができる。このようなプログラムの場合、例
えば、FD、MO、DVD、CD−ROM、ハードディ
スク等のコンピュータ読み取り可能な記録媒体に記録
し、必要に応じてコンピュータにロードして起動するこ
とにより用いることができる。この他、ROMやバック
アップRAMをコンピュータ読み取り可能な記録媒体と
してプログラムを記録しておき、このROMあるいはバ
ックアップRAMをコンピュータに組み込んで用いても
よい。
【0018】
【発明の実施の形態】以下、本発明を具体化した実施例
を図面を参照して説明する。図1は、実施例の音声認識
装置10の概略構成を示すブロック図である。本音声認
識装置10は、マイクロフォン20を介して入力された
音声を認識し、その認識結果を、アプリケーション用装
置としての対話制御部30へ出力するものである。
【0019】音声認識装置10は、フィルタ処理などの
前処理を行う音響前処理部11と、「音響分析手段」と
しての音響分析部12と、「マッチング手段」としての
マッチング部13と、「標準パターン記憶手段」として
のパターン記憶部14と、「判定手段」としてのフレー
ム判定部15と、「音声区間判別手段」としての音声区
間判別部16と、「音声認識手段」としての音声認識部
17と、認識結果出力部18とを備えている。
【0020】マイクロフォン20を介して入力されたア
ナログ音声信号には、音響前処理部11によって前処理
が施される。音響分析部12は、音響前処理部11にて
前処理されたアナログ音声信号を例えば12KHzのサ
ンプリング周波数でデジタル信号に変換し、その変換し
た信号をオーバーラップさせながら所定の切り出し間隔
で順次所定の長さのフレーム毎に切り出す。そして、フ
レーム毎の入力音声信号に対してフーリエ変換を行なう
ことによって入力音声信号のスペクトラムを求め、さら
にスペクトラムの振幅の2乗を計算してパワースペクト
ラムを求める。そして、そのパワースペクトラムに対し
て逆フーリエ変換を施して自己相関係数を求め、この自
己相関係数を用いてLPC分析を行い、LPC係数を計
算する。LPC分析は音声信号処理の分野では一般的な
分析手法であり、例えば、古井「ディジタル音声処理」
(東海大学出版会)などに詳しく説明されている。そし
てさらに、LPC係数を基に、フレーム毎のスペクトル
上の特徴パラメータとしてのLPCケプストラム係数を
計算する。
【0021】マッチング部13は、統計モデル14a,
14b,14c,14dとして予め作成された標準パタ
ーン(特徴パラメータ系列)と、音響分析部12から送
られきたLPCケプストラム係数の時系列との間でフレ
ーム単位の類似度計算を行う。この類似度は、対数尤度
として算出される。対数尤度は、標準パターンとの一致
度合いを示すものであり、LPCケプストラム係数の時
系列が4つの統計モデル14a〜14dのいずれに類似
しているかを相対的に示す指標となる。
【0022】なお、上述した統計モデル14a〜14d
を記憶しているのがパターン記憶部14である。パター
ン記憶部14には、男性モデル14a、女性モデル14
b、混合モデル14c、無音モデル14dの4つの統計
モデル14a〜14dが記憶されている。これらの統計
モデル14a〜14dは、隠れマルコフモデル(HM
M)として実現されている。男性モデル14aは、音声
認識装置10を利用しようとする男性話者に予め定めら
れた複数の単語を発声させ、その音声入力データから作
成すればよい。同様に、女性モデル14bは、音声認識
装置10を利用しようとする女性話者に予め定められた
複数の単語を発声させ、その音声入力データから作成す
ればよい。なお、「男性話者」及び「女性話者」は、特
定の人物を示すものとし、男性の話者あるいは女性の話
者を総称するものではない。そして、混合モデル14c
は、男性モデル14aと女性モデル14bを合成して作
成する。この合成は周知のPMC法を用いて実現でき
る。無音モデル14は、音声区間に対する無音区間を判
断するための標準パターンをモデル化したものである。
【0023】すなわち、上述したマッチング部13は、
入力音声信号に対する、男性モデル14a、女性モデル
14b、混合モデル14c及び無音モデル14dのそれ
ぞれの対数尤度を、フレーム毎に算出することになる。
フレーム判定部15は、マッチング部13にて算出され
た対数尤度のスムージング処理を実行し、その後、各フ
レームにおいて、4つの統計モデル14a〜14dの中
の最も確からしいモデルを「1」、それ以外のモデルを
「0」として、4つの統計モデル14a〜14dの中の
一つを選択していく。なお、スムージング処理は、時間
方向の移動平均処理である。
【0024】音声区間判別部16は、フレーム判定部1
5によるモデルの選択結果に基づいて、男性話者、女性
話者のそれぞれの音声区間を判別する。音声認識部17
は、音声区間判別部16にて判別された音声区間に基づ
いた音声認識を行う。ここでの音声認識は、従来より用
いられている手法で行えばよい。例えば、認識対象語彙
に対応した音声認識用の標準パターンを、上述したパタ
ーン記憶部14に記憶しておき、この標準パターンとの
類似を判断することによって、類似度が高い上位所定数
の語彙(最も高い1つの語彙だけでもよい。)を認識結
果にするという具合である。そして、この認識結果は、
認識結果出力部18によって、上述したように対話制御
部30へ出力される。なお、音声認識用の標準パターン
は、男性話者、女性話者のそれぞれに対応させて用意す
ることが望ましい。
【0025】このように4つの統計モデル14a〜14
dを用意することによって、男性話者、女性話者のそれ
ぞれの音声区間を、一連の入力音声信号の中で判別する
ことが、本音声認識装置10の特徴部分である。この特
徴部分に対する理解を容易にするために、次にデータ処
理を具体的に説明する。
【0026】図2は、入力音声信号の音声波形を概略的
に示した説明図である。入力音声信号は、区間[T0,
T5]で入力されており、区間[T1,T3]が男性話
者の音声区間、区間[T2,T4]が女性話者の音声区
間となっている。このような入力音声信号に対し時間的
に十分に小さなフレーム単位で、音響分析部12にてL
PCケプストラム係数が計算される。このフレームの周
期は、適切な話者識別が可能となるように適宜設定され
る。
【0027】図3は、マッチング部13にてフレーム単
位で算出された対数尤度を、入力音声信号に対応させて
示したものである。(a)は男性モデル14aとのマッ
チングによるものであり、(b)は女性モデル14bと
のマッチングによるものであり、同様に、(c)は混合
モデル14c、(d)は無音モデル14dとのマッチン
グによるものである。
【0028】このような対数尤度に対し、フレーム判定
部15は、スムージング処理を行い、上述したように統
計モデル14a〜14dの中で最も確からしいモデルを
「1」、それ以外のモデルを「0」として、フレーム単
位でモデル選択を行う。この選択状態を示せば、図4に
示すように、区間[S1,S2]では男性モデル14a
が選択され(「1」となり)、区間[S3,S4]では
混合モデル14cが選択され、区間[S5,S6]では
女性モデル14bが選択されるという具合になる。な
お、残りの区間は無音モデル14dが選択される。
【0029】フレーム判定部15による選択結果から、
男性話者及び女性話者によるそれぞれの音声区間が連続
しているという前提に立てば、図4に示すように、音声
区間判別部16は、区間[S1,S4]を男性話者の音
声区間として判別し、区間[S3,S6]を女性話者の
音声区間として判別する。これは図2に示した入力音声
信号の男性話者の音声区間[T1,T3]、女性話者の
音声区間[T2,T4]にほぼ一致したものになる。
【0030】そして、音声認識部17は、それぞれの音
声区間[S1,S4]、[S3,S6]を対象とした音
声認識を行うことにより、男性話者の発話語及び女性話
者の発話語をそれぞれ認識する。次に、本実施例の音声
認識装置10の発揮する効果を説明する。
【0031】本実施例の音声認識装置10では、パター
ン記憶部14に、男性モデル14a、女性モデル14
b、混合モデル14c、無音モデル14dの4つの統計
モデル14a〜14dを用意した。これは、話者毎の音
声に対応する標準パターンの統計モデル14a,14b
を用意して話者を区別すると共に、話者の混合音声に対
応する標準パターンの統計モデル14cを用意すること
で、音声区間の重複箇所を判断するためである。これに
よって、男性話者と女性話者の音声区間に重複が生じた
場合であっても、各話者の音声区間を判別することがで
き、より正確な音声認識に寄与できる。
【0032】このとき、統計モデル14a〜14dの類
似度合いとしてマッチング部13にてフレーム単位で算
出される対数尤度は、フレーム判定部15によって、ス
ムージングされる。これによって対数尤度のばらつきを
抑えることができ、より適切な音声区間の判別が可能に
なる。
【0033】また、本実施例では、統計モデル14a〜
14dを隠れマルコフモデルとして実現しており、混合
モデル14cは、男性モデル14aと女性モデル14b
とをPMC法によって合成して作成した。これによっ
て、混合モデル14cが簡単に作成され、結果的に、統
計モデル14a〜14dの作成時間の短縮が図られる。
【0034】さらにまた、本実施例では、パターン記憶
部14に、無音区間を識別するための標準パターンを無
音モデル14dとして記憶している。これによって、無
音区間を判別でき、その結果として、音声区間の判別精
度が向上する。また、本実施例では、判別された音声区
間を対象にした音声認識を行うため、複数話者により並
行して入力された複数音声の認識が可能になる。
【0035】以上、本発明はこのような実施例に何等限
定されるものではなく、本発明の主旨を逸脱しない範囲
において種々なる形態で実施し得る。上記実施例は男性
話者と女性話者の二人の話者を対象にした構成であった
が、三人以上の話者を対象にすることも同様にできる。
その場合、話者A,話者B,話者Cのそれぞれの音声に
対応する3つの統計モデルと、話者AとB、話者Bと
C、話者CとA、話者AとBとCという4つの混合音声
に対応する統計モデルを用意すればよい。
【0036】また、上記実施例の音声認識装置10を、
例えば車両に搭載する場合、エンジン音やオーディオ機
器から出力される音といった話者周囲の音(周囲音)が
入力音声に混じることが考えられる。そこでさらに、話
者に対応させて統計モデルを追加する場合と同様に、例
えば周囲音に対応する統計モデルを追加することが考え
られる。つまり、この場合は、周囲音を識別するための
統計モデルと、話者音声と周囲音との混合音に対応する
統計モデルとを追加するのである。このようにすれば、
話者の音声以外の周囲音だけの区間を判断したり、音声
とそれ以外の周囲音が混在する区間を判断したりでき、
結果的に音声区間の判別精度のさらなる向上が図られ
る。
【図面の簡単な説明】
【図1】実施例の音声認識装置を機能ブロックで示す説
明図である。
【図2】具体例としての入力音声波形を示す説明図であ
る。
【図3】統計モデル毎に算出された対数尤度を示す説明
図である。
【図4】フレーム毎に統計モデルが選択された様子を示
す説明図である。
【符号の説明】 10…音声認識装置 11…音響前処理部 12…音響分析部 13…マッチング部 14…パターン記憶部 14a…男性モデル 14b…女性モデル 14c…混合モデル 14d…無音モデル 15…フレーム判定部 16…音声区間判別部 17…音声認識部 18…認識結果出力部 20…マイクロフォン 30…対話制御部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】外部から入力された音声を所定周期で音響
    的に分析し、当該分析結果を基に音響特徴量を求める音
    響分析手段と、 前記入力音声に複数の話者の音声が混在し得る前提の
    下、単一話者の音声及び、複数話者の混合音声に対応す
    る標準パターンを記憶する標準パターン記憶手段と、 前記標準パターン記憶手段に記憶された標準パターン
    と、前記音響分析手段にて求められた音響特徴量とのマ
    ッチングを行うマッチング手段と、 前記マッチング手段による処理結果に基づき、前記入力
    音声がいずれの標準パターンに類似しているかを前記所
    定周期毎に判定する判定手段と、 前記判定手段による判定結果に基づき、前記各話者の音
    声区間を判別する音声区間判別手段とを備えていること
    を特徴とする音声区間判別装置。
  2. 【請求項2】請求項1に記載の音声区間判別装置におい
    て、 前記標準パターン記憶手段に記憶された標準パターン
    は、統計モデルとして予め作成されたものであることを
    特徴とする音声区間判別装置。
  3. 【請求項3】請求項2に記載の音声区間判別装置におい
    て、 前記統計モデルは、隠れマルコフモデルとして実現され
    ていることを特徴とする音声区間判別装置。
  4. 【請求項4】請求項2又は3に記載の音声区間判別装置
    において、 前記複数話者の混合音声に対応する標準パターンの統計
    モデルは、前記単一話者の音声に対応する標準パターン
    の統計モデルを合成して作成したものであることを特徴
    とする音声区間判別装置。
  5. 【請求項5】請求項1〜4のいずれかに記載の音声区間
    判別装置において、 前記マッチング手段は、前記所定周期毎に前記標準パタ
    ーンの類似度合いを示す尤度を算出することを特徴とす
    る音声区間判別装置。
  6. 【請求項6】請求項5に記載の音声区間判別装置におい
    て、 前記判定手段は、前記マッチング手段にて算出された尤
    度に対し時間方向の移動平均処理であるスムージング処
    理を実行して、いずれの標準パターンに類似しているか
    を判定することを特徴とする音声区間判別装置。
  7. 【請求項7】請求項1〜6のいずれかに記載の音声区間
    判別装置において、 前記標準パターン記憶手段には、さらに、無音区間に対
    応する標準パターンが記憶されていることを特徴とする
    音声区間判別装置。
  8. 【請求項8】請求項1〜7のいずれかに記載の音声区間
    判別装置において、 前記標準パターン記憶手段は、前記入力音声に前記話者
    周囲の音である周囲音が混在し得る前提の下、さらに、
    前記周囲音及び前記周囲音と前記話者音声との混合音に
    対応する標準パターンを記憶していることを特徴とする
    音声区間判別装置。
  9. 【請求項9】請求項1〜8のいずれかに記載の音声区間
    判別装置と、 前記音声区間判別手段にて判別された音声区間を対象と
    して、音声認識を行う音声認識手段とを備えていること
    を特徴とする音声認識装置。
  10. 【請求項10】請求項1〜8のいずれかに記載の音声区
    間判別装置の前記音声分析手段、前記マッチング手段、
    前記判定手段、及び前記音声区間判別手段としてコンピ
    ュータを機能させるためのプログラム。
  11. 【請求項11】請求項9に記載の音声認識装置の前記音
    声分析手段、前記マッチング手段、前記判定手段、前記
    音声区間判別手段、及び前記音声認識手段としてコンピ
    ュータを機能させるためのプログラム。
  12. 【請求項12】請求項10又は11に記載のプログラム
    を記録したコンピュータ読み取り可能な記録媒体。
JP2001034049A 2001-02-09 2001-02-09 音声区間判別装置、音声認識装置、プログラム及び記録媒体 Pending JP2002236494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001034049A JP2002236494A (ja) 2001-02-09 2001-02-09 音声区間判別装置、音声認識装置、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001034049A JP2002236494A (ja) 2001-02-09 2001-02-09 音声区間判別装置、音声認識装置、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2002236494A true JP2002236494A (ja) 2002-08-23

Family

ID=18897714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001034049A Pending JP2002236494A (ja) 2001-02-09 2001-02-09 音声区間判別装置、音声認識装置、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2002236494A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
JP2006507530A (ja) * 2002-11-22 2006-03-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
JP2010204175A (ja) * 2009-02-27 2010-09-16 Nippon Hoso Kyokai <Nhk> 音声学習装置及びプログラム
US7974420B2 (en) 2005-05-13 2011-07-05 Panasonic Corporation Mixed audio separation apparatus
JP2012048119A (ja) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP2013057789A (ja) * 2011-09-08 2013-03-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、音響モデル生成方法、プログラム
JP2013182150A (ja) * 2012-03-02 2013-09-12 National Institute Of Information & Communication Technology 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
WO2014168022A1 (ja) * 2013-04-11 2014-10-16 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US9595261B2 (en) 2014-03-20 2017-03-14 Kabushiki Kaisha Toshiba Pattern recognition device, pattern recognition method, and computer program product

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683384A (ja) * 1992-08-31 1994-03-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声中の複数話者の発話区間自動検出同定装置
JPH06189709A (ja) * 1992-10-06 1994-07-12 Yushi Seihin Kk 機能性食塩組成物
JPH08152897A (ja) * 1994-11-30 1996-06-11 Toshiba Corp 音声編集処理装置
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683384A (ja) * 1992-08-31 1994-03-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声中の複数話者の発話区間自動検出同定装置
JPH06189709A (ja) * 1992-10-06 1994-07-12 Yushi Seihin Kk 機能性食塩組成物
JPH08152897A (ja) * 1994-11-30 1996-06-11 Toshiba Corp 音声編集処理装置
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
US7603276B2 (en) 2002-11-21 2009-10-13 Panasonic Corporation Standard-model generation for speech recognition using a reference model
JP2006507530A (ja) * 2002-11-22 2006-03-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び方法
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
US7974420B2 (en) 2005-05-13 2011-07-05 Panasonic Corporation Mixed audio separation apparatus
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4746533B2 (ja) * 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
JP5387416B2 (ja) * 2008-02-19 2014-01-15 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
JP2010204175A (ja) * 2009-02-27 2010-09-16 Nippon Hoso Kyokai <Nhk> 音声学習装置及びプログラム
JP2012048119A (ja) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP2013057789A (ja) * 2011-09-08 2013-03-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、音響モデル生成方法、プログラム
JP2013182150A (ja) * 2012-03-02 2013-09-12 National Institute Of Information & Communication Technology 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
WO2014168022A1 (ja) * 2013-04-11 2014-10-16 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JPWO2014168022A1 (ja) * 2013-04-11 2017-02-16 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US10431243B2 (en) 2013-04-11 2019-10-01 Nec Corporation Signal processing apparatus, signal processing method, signal processing program
US9595261B2 (en) 2014-03-20 2017-03-14 Kabushiki Kaisha Toshiba Pattern recognition device, pattern recognition method, and computer program product

Similar Documents

Publication Publication Date Title
Shiota et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification
US20140149117A1 (en) Method and system for identification of speech segments
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch.
JPH02242298A (ja) 声門波形に基づく話者識別装置
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
JP2002236494A (ja) 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP4323029B2 (ja) 音声処理装置およびカラオケ装置
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JPS60114900A (ja) 有音・無音判定法
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JP3493849B2 (ja) 音声認識装置
JPS6367197B2 (ja)
JP2006010739A (ja) 音声認識装置
JP2008224911A (ja) 話者認識システム
JP4576612B2 (ja) 音声認識方法および音声認識装置
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
JP2004341340A (ja) 話者認識装置
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
JPH04324499A (ja) 音声認識装置
JPH11338492A (ja) 話者認識装置
Cohen Forensic Applications of Automatic Speaker Verification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100706