JP6430318B2 - 不正音声入力判定装置、方法及びプログラム - Google Patents

不正音声入力判定装置、方法及びプログラム Download PDF

Info

Publication number
JP6430318B2
JP6430318B2 JP2015077541A JP2015077541A JP6430318B2 JP 6430318 B2 JP6430318 B2 JP 6430318B2 JP 2015077541 A JP2015077541 A JP 2015077541A JP 2015077541 A JP2015077541 A JP 2015077541A JP 6430318 B2 JP6430318 B2 JP 6430318B2
Authority
JP
Japan
Prior art keywords
signal
speech
section
vowel
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015077541A
Other languages
English (en)
Other versions
JP2016197200A (ja
Inventor
隆伸 大庭
隆伸 大庭
太一 浅見
太一 浅見
阪内 澄宇
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015077541A priority Critical patent/JP6430318B2/ja
Publication of JP2016197200A publication Critical patent/JP2016197200A/ja
Application granted granted Critical
Publication of JP6430318B2 publication Critical patent/JP6430318B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

この発明は、入力された音声が不正なものであるかを判定する技術に関する。
音声による話者認識(以下、単に話者認識と記載する。)は、照合と識別に大別される。
話者の照合は、本人確認に例えば利用される。話者の照合では、ユーザは、まずシステムに自分のユーザ名を申告する。次にシステムに音声を入力する。システムは、入力音声が本当に申告のあったユーザであるかを判定する。
一方、話者の識別は、入力音声が誰の声であるかを判定するものである。話者の識別では、事前に登録された人物の中から、最も類似した声を持つ人物が結果として返される。
照合と話者の両方を兼ね備える場合もある。この場合、非登録話者であるかどうかが判定(照合)され、さらに登録話者であれば具体的に誰かが判定される(識別)。これらを総じて話者認識と呼ぶ。
話者認識にはテキスト依存型とテキスト非依存型がある。テキスト依存型とは、認識を行う際に所定の文をユーザが読み上げる形式である。一方、テキスト非依存型は、ユーザは任意の言葉を発して良い形式である。
話者認識では音声の事前登録が必要である。登録は1発話以上行われる。利便性のため、登録発話は短く、登録回数が少ない場合でも、適切に認識が行えることが望ましい。
話者認識は、個々の入力音声から特徴量を算出し、既存の外れ値検知やクラス分類アルゴリズム等の技術を用いることで実現される。話者の照合であれば、登録話者かそれ以外かの二値を判定すればよいから、外れ値検知や二値のクラス分類アルゴリズムを用いることができる。話者の識別であれば、多値のクラス分類問題に他ならない。具体的に話者認識で用いられている技術として、例えば非特許文献1,2に記載された技術が知られている。非特許文献2では、話者認識に使用される特徴量についても説明されている。
つぎに、母音区間検出の概要について説明する。母音区間検出は、音声を入力し、その母音の判定区間を検出するものである。基本的に音声に含まれるフォルマント成分に着目し処理が行われる(例えば、非特許文献3参照。)。フォルマントとは、音声をフーリエ変換などで周波数解析をした際に、周波数の低い成分に現れるピークのことである。ピークは、複数現れ、調波性を有する。一般に複数のピークは周波数が低い方から順に第一フォルマント、第二フォルマント・・・と呼ばれる。これら複数のフォルマントの間隔、大きさ、出現した周波数の値など総じて調波構造やフォルマント構造と呼ぶ。フォルマントは母音によく現れる反面、子音には顕著に出現しないため、母音区間検出を行う上で重要な特徴となる。
実際には、子音の中でもフォルマントが抽出されるものもある(有声子音)。そのため、構造を勘案し母音区間が推定される。つまり、母音らしい調波構造を持つかを判定する処理が行われる。
そのため、音声に限らず一般の信号を母音区間検出に入力した場合、母音に類似した調波構造を持つ信号区間に対しては、母音として判定される可能性が高い。例えば、楽器の音などがこれに当たる。逆に、類似の構造を持たなければ母音と判定される可能性は低い。
小川哲司,松井知子,"話者認識で用いる機械学習",日本音響学会誌69巻7号,pp.349-356,2013. 王龍標,西田昌史,柘植覚,網野加苗,"話者認識におけるロバストネス",日本音響学会誌69巻7号,pp.357-364,2013. 辻美咲,荒井隆行,程島奈緒,"音声の母音区間に対する簡易的自動検出法 ―残響環境下における音声明瞭度の改善を目的として―", 日本音響学会秋季研究発表会講演論文集,pp.329-330, 2010/09.
ところで、話者認識は、音声の適切な入力を前提とした技術である。そのため、話者認識システムに対し、音声の適切な入力を判定する機能を具備することは有用である。特に登録時は重要である。登録音声信号が不適切であれば、正しく認識できないからである。
話者認識技術で前提としている音声は、言葉を発している音声であるが、これを厳密に定義することや、ユーザにその点を明確に示し、理解してもらうことは難しい。例えば、子音だけで構成される音声は、言葉を発していると言えるかもしないが、子音のみから話者性を適切に抽出することは困難で、現状の技術水準の話者認識システムとしては、不正な入力とみなしたい。例えば、「スススー(母音’ウ’は発音されず子音’s’だけの発声)」といったものがこれに当たる。更には、母音であっても極端に長音化したものも、技術的には幾分難しい。例えば、「あーーーーー」と数秒言い続けるようなものがこれにあたる。更には、喉を鳴らず音、舌を振動させる音や鳴らす音、息の吹きかけ・吸込み音、口笛、リップ音、咳などの音が支配的な入力も不正な入力と想定される。これらは既存の音声区間検出技術で除去することは難しい。
テキスト依存型の話者認識であれば、音声認識などの技術を利用し、テキストと実際の発話内容を比較するといったことで、入力音声の適切さを判断できる。しかし、テキスト非依存型では、その方法は自明ではない。
この発明の目的は、テキスト非依存型の音声信号処理においても、入力された音声が不正なものであるかを判定することができる不正音声入力判定装置、音声信号処理装置、方法及びプログラムを提供することである。
この発明の一態様による不正音声入力判定装置は、入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する音声区間検出部と、音声区間信号の母音区間を検出する母音区間検出部と、検出された母音区間の長さに基づいて、音声信号が不正音声であるかどうかを判断する母音区間検出結果分析部と、を備えており、母音区間検出結果分析部は、音声信号が不正音声でないと判断された場合には、音声信号又は音声区間信号を用いて話者認識の処理う信号処理部に、入力された音声信号又は音声区間信号を送信する
この発明の一態様による不正音声入力判定装置は、入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する音声区間検出部と、音声区間信号の母音区間を検出する母音区間検出部と、検出された母音区間の長さに基づいて、音声信号が不正音声であるかどうかを判断する母音区間検出結果分析部と、を備えており、母音区間検出結果分析部は、音声信号が不正音声でないと判断された場合には、音声信号又は音声区間信号を用いて話者登録の処理を行う信号処理部に、入力された音声信号又は音声区間信号を送信する。
この発明の一態様による音声信号処理装置は、上記の不正音声入力判定装置と、音声信号が不正音声でないと判断された場合には、音声信号を用いて話者認識の処理を行う信号処理部と、を備えている。
この発明の一態様による音声信号処理装置は、上記の不正音声入力判定装置と、音声信号が不正音声でないと判断された場合には、音声信号を用いて話者登録の処理を行う信号処理部と、を備えている。
テキスト非依存型の音声信号処理においても、入力された音声が不正なものであるかを判定することができる。
不正音声入力判定装置、音声信号処理装置の例を説明するためのブロック図。 不正音声入力判定方法、音声信号処理方法の例を説明するための流れ図。
[技術的背景]
本発明は、入力音声に対して母音区間検出技術を適用し、その適用結果を不正音声入力の判定に利用することを特徴の1つとする。母音区間検出では、入力音の調波構造が母音に類似してない限り、母音と判定されにくいという性質が利用される。
話者認識における不正な音声入力のうち、子音のみ音、喉を鳴らず音、舌を振動させる音や鳴らす音、息の吹きかけ・吸込み音、リップ音、咳などは、調波構造が母音とは異なる。そのため、母音区間検出で母音と判定される可能性は小さい。
実際、母音の限りなく少ない音声に対する話者認識は技術的に難しいことから、母音らしい特徴を有していない信号を、話者認識における不正な入力と見なすことは、ひとつの選択肢になりえる。
一方、話者認識における不正な音声入力のうち、母音の極端な長音化や口笛でメロディーをきざむような場合は、連続して長い区間が母音と判定される。通常の言葉は子音を挟むため、連続して長い区間が母音であることは稀であるから、検出された母音区間の長さから、不正な音声と通常の音声を区別することができる。
[実施形態]
音声信号処理装置は、不正音声入力判定装置1及び信号処理部2を例えば備えている。不正音声入力判定装置1は、音声区間検出部11、母音区間検出部13及び母音区間検出結果分析部14を例えば備えている。
<音声区間検出部11>
入力された音声信号は、不正音声入力判定装置1の音声区間検出部11に渡される。
音声区間検出部11は、入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する(ステップS11)。すなわち、音声区間検出部11は、入力された音声信号から無音部分を除去する。生成された音声区間信号は、母音区間検出部13に渡される。
有音区間の部分の抜き出しには、既存の技術を用いればよい。例えば、音声信号の大きさが所定の閾値以上の区間を有音区間の部分と判定し、音声信号の大きさが所定の閾値以上の区間を無音区間の部分と判定し、判定された有音区間の部分のみを結合することにより音声区間信号を生成することができる。
<母音区間検出部13>
母音区間検出部13は、音声区間信号の母音区間を検出する(ステップS13)。検出された母音区間についての情報である母音区間情報は、母音区間検出結果分析部14に渡される。
母音区間情報は、例えば母音区間の開始時刻と継続長である。音声区間信号の中に複数の母音区間が検出された場合には、複数の母音区間のそれぞれの母音区間情報が生成され母音区間検出結果分析部14に渡される。以下、Iを1以上の整数とし、検出された母音区間の個数をIとし、i=1,…,Iとして、検出された、i番目の母音区間の継続長をV(i)と表記する。
<母音区間検出結果分析部14>
母音区間検出結果分析部14は、検出された母音区間の長さに基づいて、音声信号が不正音声であるかどうかを判断する(ステップS14)。
母音区間検出結果分析部14の具体的な構成方法の1つは、母音区間の占める割合を求めて閾値処理にて不正音声入力の判定を行うものである。今、音声区間信号の長さをLと表記すると母音区間の占める割合Rは、
Figure 0006430318
にて算出できる。母音区間検出結果分析部14は、Rが、所定の閾値TRより小さいとき、入力された音声信号は不正音声と判断する。そうでない場合には、入力された音声信号は不正音声でないと判断する。Rは、0以上1以下の値を持つ。閾値TRは事前にシステム開発者が決定する数値であり、Rの取り得る範囲で設定される。すなわち、閾値TRは、0以上1以下の所定の値に設定される。閾値TRが大きければ、多くの音声を不正と判定することになる。
この方法は、母音に類似の調波構造を持たない不正な入力の検知を目的とした方法である。
母音区間検出結果分析部14の具体的な構成方法のもう1つは、正規化された母音区間の長さの最大値を閾値処理する方法である。正規化された母音区間の長さの最大値Mは、例えば、以下のように算出される。
Figure 0006430318
と算出する。母音区間検出結果分析部14は、Mが所定の閾値TMより大きいとき不正音声と判定する。そうでない場合には、入力された音声信号は不正音声でないと判断する。Mは0以上1以下の値を持つ。閾値TMは、事前にシステム開発者が決定する数値であり、Mの取り得る範囲で設定される。閾値TMが小さければ、多くの音声を不正と判定することになる。
この方法は、母音の極端な長音化などの不正な入力の検知を目的とした方法である。
上述の方法を2段階に適用し、どちらかで不正と判断された音声信号を不正と判断してもよい。すなわち、母音区間検出結果分析部14は、R<TR又はM>TMの場合に、入力された音声信号は不正音声と判断し、そうでない場合には、入力された音声信号は不正音声でない判断してもよい。
もちろん、上述の方法以外の方法により、母音区間検出の結果を利用して不正音声入力の判定を行ってもよい。
母音区間検出結果分析部14は、入力された音声信号は不正音声であると判断された場合には、その旨をユーザ等に通知し、入力された音声信号は不正音声でないと判断された場合には、入力された音声信号又は音声区間信号を信号処理部2に渡す。
<信号処理部2>
信号処理部2は、入力された音声信号が不正音声でないと判断された場合には、その音
声信号又は音声区間信号を用いて話者認識又は話者登録の処理を行う。
話者認識又は話者登録には、背景技術の欄や例えば非特許文献1,2に記載された既存の技術を用いればよい。
[変形例]
不正音声入力判定装置1は、雑音抑制除去部12を備えていてもよい。この場合、音声区間検出部11が生成した音声区間信号は、雑音抑制除去部12に渡される。雑音抑制除去部12は、音声区間信号の雑音を抑圧又は除去する(ステップS12)。雑音が抑圧又は除去された音声区間信号は、母音区間検出部13に渡される。母音区間検出部13は、上記と同様にして、雑音抑圧除去部12により雑音が抑圧又は除去された音声区間信号の母音区間を検出する処理を行う。
雑音の抑圧又は除去には、既存の技術を用いればよい。なお、この雑音の抑圧又は除去の処理以降に母音区間検出が適用されるため、母音区間検出の精度低下の要因となる種の雑音(例えば母音と調波構造の類似した雑音信号)を抑圧可能な雑音抑圧手法を用いてもよい。
不正音声入力判定装置、音声信号処理装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[プログラム及び記録媒体]
不正音声入力判定装置、音声信号処理装置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 不正音声入力判定装置
11 音声区間検出部
12 雑音抑制除去部
12 雑音抑圧除去部
13 母音区間検出部
14 母音区間検出結果分析部
2 信号処理部

Claims (6)

  1. 入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する音声区間検出部と、
    上記音声区間信号の母音区間を検出する母音区間検出部と、
    上記検出された母音区間の長さに基づいて、上記音声信号が不正音声であるかどうかを判断する母音区間検出結果分析部と、を含み、
    上記母音区間検出結果分析部は、上記音声信号が不正音声でないと判断された場合には、上記音声信号又は上記音声区間信号を用いて話者認識の処理う信号処理部に、上記入力された音声信号又は上記音声区間信号を送信する
    不正音声入力判定装置。
  2. 入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する音声区間検出部と、
    上記音声区間信号の母音区間を検出する母音区間検出部と、
    上記検出された母音区間の長さに基づいて、上記音声信号が不正音声であるかどうかを判断する母音区間検出結果分析部と、を含み、
    上記母音区間検出結果分析部は、上記音声信号が不正音声でないと判断された場合には、上記音声信号又は上記音声区間信号を用いて話者登録の処理う信号処理部に、上記入力された音声信号又は上記音声区間信号を送信する
    不正音声入力判定装置。
  3. 請求項1又は2の不正音声入力判定装置であって、
    上記音声区間信号の雑音を抑圧又は除去する雑音抑圧除去部を更に含み、
    上記母音区間検出部は、上記雑音抑圧除去部により雑音が抑圧又は除去された音声区間信号の母音区間を検出する、
    不正音声入力判定装置。
  4. 音声区間検出部が、入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する音声区間検出ステップと、
    母音区間検出部が、上記音声区間信号の母音区間を検出する母音区間検出ステップと、
    母音区間検出結果分析部が、上記検出された母音区間の長さに基づいて、上記音声信号が不正音声であるかどうかを判断する母音区間検出結果分析ステップと、を含み、
    上記母音区間検出結果分析ステップは、上記音声信号が不正音声でないと判断された場合には、上記音声信号又は上記音声区間信号を用いて話者認識の処理う信号処理部に、上記入力された音声信号又は上記音声区間信号を送信する
    不正音声入力判定方法。
  5. 音声区間検出部が、入力された音声信号から有音区間の部分を抜き出すことにより音声区間信号を生成する音声区間検出ステップと、
    母音区間検出部が、上記音声区間信号の母音区間を検出する母音区間検出ステップと、
    母音区間検出結果分析部が、上記検出された母音区間の長さに基づいて、上記音声信号が不正音声であるかどうかを判断する母音区間検出結果分析ステップと、を含み、
    上記母音区間検出結果分析ステップは、上記音声信号が不正音声でないと判断された場合には、上記音声信号又は上記音声区間信号を用いて話者登録の処理う信号処理部に、上記入力された音声信号又は上記音声区間信号を送信する
    不正音声入力判定方法
  6. 請求項1から3の何れかの不正音声入力判定装置の各部としてコンピュータを機能させるためのプログラム。
JP2015077541A 2015-04-06 2015-04-06 不正音声入力判定装置、方法及びプログラム Active JP6430318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015077541A JP6430318B2 (ja) 2015-04-06 2015-04-06 不正音声入力判定装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015077541A JP6430318B2 (ja) 2015-04-06 2015-04-06 不正音声入力判定装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016197200A JP2016197200A (ja) 2016-11-24
JP6430318B2 true JP6430318B2 (ja) 2018-11-28

Family

ID=57358364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015077541A Active JP6430318B2 (ja) 2015-04-06 2015-04-06 不正音声入力判定装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6430318B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
JPWO2023047893A1 (ja) * 2021-09-27 2023-03-30

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173008A (ja) * 2003-12-09 2005-06-30 Canon Inc 音声解析処理およびそれを用いた音声処理装置および媒体
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム
JP2006154484A (ja) * 2004-11-30 2006-06-15 Sony Corp 音声処理装置,音声処理方法,プログラム及び記録媒体
JP4714523B2 (ja) * 2005-07-27 2011-06-29 富士通東芝モバイルコミュニケーションズ株式会社 話者照合装置
JP4968147B2 (ja) * 2008-03-31 2012-07-04 富士通株式会社 通信端末、通信端末の音声出力調整方法
JP6370172B2 (ja) * 2014-09-02 2018-08-08 株式会社Kddiテクノロジー 通話装置、声紋登録方法およびプログラム
JP6280068B2 (ja) * 2015-03-09 2018-02-14 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム

Also Published As

Publication number Publication date
JP2016197200A (ja) 2016-11-24

Similar Documents

Publication Publication Date Title
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
Shiota et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification
Wu et al. A study on spoofing attack in state-of-the-art speaker verification: the telephone speech case
Villalba et al. Preventing replay attacks on speaker verification systems
US6411933B1 (en) Methods and apparatus for correlating biometric attributes and biometric attribute production features
US11869513B2 (en) Authenticating a user
WO2017114307A1 (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及系统
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
Shah et al. Biometric voice recognition in security system
JP2007279743A (ja) 話者認証登録及び確認方法並びに装置
Sahoo et al. Silence removal and endpoint detection of speech signal for text independent speaker identification
JP6220304B2 (ja) 音声識別装置
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
JP6280068B2 (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JP6179337B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
JP6430318B2 (ja) 不正音声入力判定装置、方法及びプログラム
Kumari et al. Comparison of LPCC and MFCC features and GMM and GMM-UBM modeling for limited data speaker verification
US20080270126A1 (en) Apparatus for Vocal-Cord Signal Recognition and Method Thereof
JP6184494B2 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
Tam et al. Improving audio captchas
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
JP2006154212A (ja) 音声評価方法および評価装置
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181031

R150 Certificate of patent or registration of utility model

Ref document number: 6430318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150