JP2000148187A

JP2000148187A - 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体

Info

Publication number: JP2000148187A
Application number: JP10327745A
Authority: JP
Inventors: Tomoko Matsui; 知子松井; Akihiro Imamura; 明弘今村; Kiyoaki Aikawa; 清明相川; Yutaka Nishino; 豊西野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-11-18
Filing date: 1998-11-18
Publication date: 2000-05-26

Abstract

(57)【要約】【課題】録音された音声が認識対象として用いられる
のを排除する。【解決手段】発声すべきテキストをユーザに指定し
（１）、ユーザが発声した音声信号から話者の個人性を
表わす特徴パラメータ列を抽出し（２）、指定テキスト
はモデル蓄積部６に与えられ、予め話者ごとに登録され
た特徴パラメータ列によりモデル化した音声モデルか
ら、本人が指定テキストを発声したと相当するモデル
と、前記特徴パラメータ列との類似度を計算し（３）、
その類似度としきい値とを比較し、しきい値以上の音声
モデルと対応する話者を、入力音声の発声者であると認
定する（４）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、入力音声を手が
かりとして予め登録された人物を同定するための装置
で、例えばインターホンの音声から訪問者は誰であるか
を認識したり、入力された音声により暗証番号の人と同
一人であることを同定したりするためなどに用いられ、
入力音声から、話者の個人性を表す特徴パラメータ列を
抽出し、上記入力音声の上記特徴パラメータ列と、あら
かじめ話者ごとに登録された上記特徴パラメータ列によ
りモデル化した音声のモデルとの類似度を求めて、入力
音声を発声した話者を認識する話者認識装置、その方
法、プログラム記録媒体に関する。

【０００２】

【従来の技術】従来においては、各話者ごとに本人が多
数のテキストを発声し、その音響的特徴パラメータ列を
モデル化して音声モデルとして蓄積しておき、ユーザか
らの音声が入力されると、その入力音響の音響的特徴パ
ラメータ列と話者ごとの音声モデルとの類似度を求め
て、類似度がしきい値以上となった音声モデルの話者
が、その音声を発声したと判定するものであった。

【０００３】このように従来の技術では、入力音声信号
のみを手がかりとして発声した人物を同定していた。そ
のため同一人の録音再生された音声と、その場合で発声
した音声とを区別できなかった。従って、再生音声か
ら、予め音声モデルを蓄積、登録した人物が同定される
可能性があった。このように録音再生音声が使用される
と、個人認証としての当該技術の信頼性が失われる。

【０００４】

【発明が解決しようとする課題】この発明の目的は、再
生音声が認識対象として用いられることを排除し、登録
された話者がその場で発声したときのみ話者認識を実行
することによって、個人認証に応用する場合の信頼性を
向上した話者認識装置、その方法及びプログラム記録媒
体を提供することにある。

【０００５】

【課題を解決するための手段】この発明では認識のたび
に、あらかじめ録音しておくことが不可能な、現時刻や
ワンタイムパスワード（周期的に変化するパスワードを
表示する機器を利用する場合）などのテキストを、話者
認識装置側から指定し、そのテキストを本人が正しく発
声した時のみ、上記入力音声を発声した話者が本人であ
ると判定する。

【０００６】

【発明の実施の形態】次に、この発明の実施例１を説明
する。この実施例１では図１に示すように、話者を認識
する段階で、発声内容指定部１で、ユーザに発声内容と
して、現時刻もしくはワンタイムパスワードを表示又は
音声により指定する。以下、その発声内容を指定テキス
トと呼ぶ。その指定テキスト、つまりどのような指定テ
キストをユーザに提供したかを示す情報が本人のモデル
蓄積部６に入力される。本人のモデル蓄積部６には、本
人が予め多数のテキストを発声し、その音声から抽出し
た本人の音響的特徴パラメータがモデル化されて格納さ
れ、テキストが指定されると、それを本人が発声した時
の音響的特徴パラメータの系列を作ることができるよう
にされている。ユーザが発声した指定テキストの認識用
音声データを特徴パラメータ抽出部２に入力する。特徴
パラメータ抽出部２で得られた特徴パラメータの時系列
は、類似度計算部３に入力される。

【０００７】類似度計算部３では、本人のモデル蓄積部
６から本人が指定テキストを発声したと相当するモデル
を呼び出し、そのモデルと認識用音声データとの類似度
を計算する。なお、本人が指定テキストを発声したと相
当するモデルは、例えば、本人の声をあらかじめ、言葉
の短い単位（／１／，／２／など）でモデル化してお
き、それを指定テキストに従って連結することにより得
られる。

【０００８】その類似度の値は、話者認識判定部４に送
られ、話者の判定を行なう。話者認識判定部４では、し
きい値蓄積部５から、その本人の声とみなせる類似度の
変動の範囲を示すしきい値を読み出して、上記の類似度
の値と比較し、その類似度の値が読み出されたしきい値
よりも大きければ本人の音声であると判定し、しきい値
よりも小さければ他人の音声であると判定する。

【０００９】次に、この発明の実施例２を説明する。こ
の実施例２では図２に示すように、話者を認識する段階
で、実施例１と同様に発声内容指定部１で、ユーザに発
声内容として、現時刻もしくはワンタイムパスワードを
指定する。その指定テキストは本人のモデル蓄積部６及
び話者判定部１１に入力される。ユーザが発声した認識
用音声データを特徴パラメータ抽出部２に入力する。特
徴パラメータ抽出部２で得られた特徴パラメータの時系
列は、類似度計算部３および音声認識部１２に入力され
る。

【００１０】類似度計算部２では、本人のモデル蓄積部
６から本人の声のモデルを呼び出し、そのモデルと認識
用音声データとの類似度を計算する。そして、その類似
度の値を話者判定部１１に送る。音声認識部１２では、
認識用音声データを音声認識し、その結果を話者判定部
１１に送る。

【００１１】話者判定部１１では、しきい値蓄積部５か
らしきい値を読み出して、上記の類似度の値と比較した
結果と、音声認識の結果を指定テキストと照合した結果
から、本人であるかどうかを判定する。つまり実施例１
ではユーザが発声した音声の内容が、指定テキストと正
確に一致しなくても、即ち少し違いがあったり、あいま
いな個所があっても、本人の音声と判定されることがあ
るが、実施例２では類似度がしきい値以上であり、かつ
発声内容も指定テキストと一致しないと、本人であると
判定されない。

【００１２】

【発明の効果】この発明では、認識のたびに、あるテキ
ストを話者認識装置側から指定し、そのテキストを本人
が正しく発声した時のみ、上記入力音声を発声した話者
が本人であると判定する。指定するテキストを、現時刻
やワンタイムパスワードなどの刻一刻（毎回）変化する
ものとすれば、本人がそのテキストを発声した音声が、
あらかじめテープレコーダなどで録音される確率は極め
て小さくなる。そのために、この発明によれば、録音音
声によって騙される危険性を効果的に回避できる。ま
た、テキストの指定がなされてからある時間内に発声し
ないと本人が発声しても、本人と同定されない。

【図面の簡単な説明】

【図１】この発明の実施例１の機能構成を示すブロック
図。

【図２】この発明の実施例２の機能構成を示すブロック
図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者相川清明東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内 (72)発明者西野豊東京都新宿区西新宿三丁目19番２号日本電信電話株式会社内Ｆターム(参考） 5D015 AA03

Claims

【特許請求の範囲】

【請求項１】入力音声信号から話者の個人性を表す特
徴パラメータ列を抽出し、前記特徴パラメータ列と、予
め話者毎に登録された話者の個人性を表す特徴パラメー
タ列との類似度に基づいて、前記入力音声を発声した話
者を認識する認識処理手段と、少なくとも２種類以上のテキストから、１種類のテキス
トをユーザに指定するテキスト指定手段と、前記指定にもとづき発声された音声を前記認識処理手段
により話者認識を実行することを特徴とする話者認識装
置。
【請求項２】入力音声信号から話者の個人性を表す特
徴パラメータ列を抽出し、前記特徴パラメータ列と、予
め話者毎に登録された話者の個人性を表す特徴パラメー
タ列との類似度を求める手段と、少なくとも２種類以上のテキストから、１種類のテキス
トをユーザに指定するテキスト指定手段と、入力音声信号を音声認識する音声認識手段と、前記音声認識の結果と前記指定テキストとの一致性と、
前記類似度とから入力音声を発声した話者を認識する話
者判定手段とを具備する話者認識装置。
【請求項３】前記テキスト指定手段は前記１種類のテ
キストとして現在時刻を指定する手段であることを特徴
とする請求項１又は２記載の話者認識装置。
【請求項４】前記テキスト指定手段は前記１種類のテ
キストとしてワンタイムパスワードを指定する手段であ
ることを特徴とする請求項１又は２記載の話者認識装
置。
【請求項５】少なくとも２種類以上のテキストから１
種類のテキストを指定して、その指定テキストをユーザ
に発声させるテキスト指定過程と、入力音声信号から話者の個人性を表す特徴パラメータ列
を抽出し、前記特徴パラメータ列と、予め話者毎に登録
された話者の個人性を表す特徴パラメータ列との類似度
に基づいて、前記入力音声を発声した話者を認識する認
識処理過程と、を有することを特徴とする話者認識方法。
【請求項６】少なくとも２種類以上のテキストから１
種類のテキストを指定してユーザにその指定テキストを
発声させるテキスト指定過程と、入力音声信号から話者の個人性を表す特徴パラメータ列
を抽出し、前記特徴パラメータ列と、予め話者毎に登録
された話者の個人性を表す特徴パラメータ列との類似度
を求める過程と、前記入力音声信号を音声認識する音声認識過程と、前記音声認識の結果と前記指定テキストとの一致性と、
前記類似度とから入力音声を発声した話者を認識する話
者判定過程とを有する話者認識方法。
【請求項７】前記テキスト指定過程は前記１種類のテ
キストとして現在時刻を用いることを特徴とする請求項
５又は６記載の話者認識方法。
【請求項８】前記テキスト指定過程は前記１種類のテ
キストとしてワンタイムパスワードを用いることを特徴
とする請求項５又は６記載の話者認識方法。
【請求項９】入力音声信号から話者の個人性を表す特
徴パラメータ列を抽出し、前記特徴パラメータ列と予め
話者毎に登録された話者の個人性を表す特徴パラメータ
列との類似度に基づいて、前記入力音声を発声した話者
を認識する認識処理過程と、少なくとも２種類以上のテキストから１種類のテキスト
をユーザに指定するテキスト指定過程と、をコンピュータが実行するプログラムを記録した記録媒
体。
【請求項１０】少なくとも２種類以上のテキストから
１種類のテキストをユーザに指定するテキスト指定過程
と、入力音声信号から話者の個人性を表す特徴パラメータ列
を抽出し、前記特徴パラメータ列と、予め話者毎に登録
された話者の個人性を表す特徴パラメータ列との類似度
を求める過程と、入力音声信号を音声認識する音声認識過程と、前記音声認識の結果と前記指定テキストとの一致性と、
前記類似度とから入力音声を発声した話者を認識する話
者判定過程とをコンピュータが実行するプログラムを記
録した記録媒体。
【請求項１１】前記テキスト指定過程が前記１種類の
テキストとして現在時刻を指定する過程であることを特
徴とする請求項９又は１０記載の記録媒体。
【請求項１２】前記テキスト指定過程が前記１種類の
テキストとしてワンタイムパスワードを指定する過程で
あることを特徴とする請求項９又は１０記載の記録媒
体。