JP2000148187A - 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 - Google Patents

話者認識方法、その方法を用いた装置及びそのプログラム記録媒体

Info

Publication number
JP2000148187A
JP2000148187A JP10327745A JP32774598A JP2000148187A JP 2000148187 A JP2000148187 A JP 2000148187A JP 10327745 A JP10327745 A JP 10327745A JP 32774598 A JP32774598 A JP 32774598A JP 2000148187 A JP2000148187 A JP 2000148187A
Authority
JP
Japan
Prior art keywords
speaker
text
parameter sequence
feature parameter
designating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10327745A
Other languages
English (en)
Inventor
Tomoko Matsui
知子 松井
Akihiro Imamura
明弘 今村
Kiyoaki Aikawa
清明 相川
Yutaka Nishino
豊 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10327745A priority Critical patent/JP2000148187A/ja
Publication of JP2000148187A publication Critical patent/JP2000148187A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 録音された音声が認識対象として用いられる
のを排除する。 【解決手段】 発声すべきテキストをユーザに指定し
(1)、ユーザが発声した音声信号から話者の個人性を
表わす特徴パラメータ列を抽出し(2)、指定テキスト
はモデル蓄積部6に与えられ、予め話者ごとに登録され
た特徴パラメータ列によりモデル化した音声モデルか
ら、本人が指定テキストを発声したと相当するモデル
と、前記特徴パラメータ列との類似度を計算し(3)、
その類似度としきい値とを比較し、しきい値以上の音声
モデルと対応する話者を、入力音声の発声者であると認
定する(4)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入力音声を手が
かりとして予め登録された人物を同定するための装置
で、例えばインターホンの音声から訪問者は誰であるか
を認識したり、入力された音声により暗証番号の人と同
一人であることを同定したりするためなどに用いられ、
入力音声から、話者の個人性を表す特徴パラメータ列を
抽出し、上記入力音声の上記特徴パラメータ列と、あら
かじめ話者ごとに登録された上記特徴パラメータ列によ
りモデル化した音声のモデルとの類似度を求めて、入力
音声を発声した話者を認識する話者認識装置、その方
法、プログラム記録媒体に関する。
【0002】
【従来の技術】従来においては、各話者ごとに本人が多
数のテキストを発声し、その音響的特徴パラメータ列を
モデル化して音声モデルとして蓄積しておき、ユーザか
らの音声が入力されると、その入力音響の音響的特徴パ
ラメータ列と話者ごとの音声モデルとの類似度を求め
て、類似度がしきい値以上となった音声モデルの話者
が、その音声を発声したと判定するものであった。
【0003】このように従来の技術では、入力音声信号
のみを手がかりとして発声した人物を同定していた。そ
のため同一人の録音再生された音声と、その場合で発声
した音声とを区別できなかった。従って、再生音声か
ら、予め音声モデルを蓄積、登録した人物が同定される
可能性があった。このように録音再生音声が使用される
と、個人認証としての当該技術の信頼性が失われる。
【0004】
【発明が解決しようとする課題】この発明の目的は、再
生音声が認識対象として用いられることを排除し、登録
された話者がその場で発声したときのみ話者認識を実行
することによって、個人認証に応用する場合の信頼性を
向上した話者認識装置、その方法及びプログラム記録媒
体を提供することにある。
【0005】
【課題を解決するための手段】この発明では認識のたび
に、あらかじめ録音しておくことが不可能な、現時刻や
ワンタイムパスワード(周期的に変化するパスワードを
表示する機器を利用する場合)などのテキストを、話者
認識装置側から指定し、そのテキストを本人が正しく発
声した時のみ、上記入力音声を発声した話者が本人であ
ると判定する。
【0006】
【発明の実施の形態】次に、この発明の実施例1を説明
する。この実施例1では図1に示すように、話者を認識
する段階で、発声内容指定部1で、ユーザに発声内容と
して、現時刻もしくはワンタイムパスワードを表示又は
音声により指定する。以下、その発声内容を指定テキス
トと呼ぶ。その指定テキスト、つまりどのような指定テ
キストをユーザに提供したかを示す情報が本人のモデル
蓄積部6に入力される。本人のモデル蓄積部6には、本
人が予め多数のテキストを発声し、その音声から抽出し
た本人の音響的特徴パラメータがモデル化されて格納さ
れ、テキストが指定されると、それを本人が発声した時
の音響的特徴パラメータの系列を作ることができるよう
にされている。ユーザが発声した指定テキストの認識用
音声データを特徴パラメータ抽出部2に入力する。特徴
パラメータ抽出部2で得られた特徴パラメータの時系列
は、類似度計算部3に入力される。
【0007】類似度計算部3では、本人のモデル蓄積部
6から本人が指定テキストを発声したと相当するモデル
を呼び出し、そのモデルと認識用音声データとの類似度
を計算する。なお、本人が指定テキストを発声したと相
当するモデルは、例えば、本人の声をあらかじめ、言葉
の短い単位(/1/,/2/など)でモデル化してお
き、それを指定テキストに従って連結することにより得
られる。
【0008】その類似度の値は、話者認識判定部4に送
られ、話者の判定を行なう。話者認識判定部4では、し
きい値蓄積部5から、その本人の声とみなせる類似度の
変動の範囲を示すしきい値を読み出して、上記の類似度
の値と比較し、その類似度の値が読み出されたしきい値
よりも大きければ本人の音声であると判定し、しきい値
よりも小さければ他人の音声であると判定する。
【0009】次に、この発明の実施例2を説明する。こ
の実施例2では図2に示すように、話者を認識する段階
で、実施例1と同様に発声内容指定部1で、ユーザに発
声内容として、現時刻もしくはワンタイムパスワードを
指定する。その指定テキストは本人のモデル蓄積部6及
び話者判定部11に入力される。ユーザが発声した認識
用音声データを特徴パラメータ抽出部2に入力する。特
徴パラメータ抽出部2で得られた特徴パラメータの時系
列は、類似度計算部3および音声認識部12に入力され
る。
【0010】類似度計算部2では、本人のモデル蓄積部
6から本人の声のモデルを呼び出し、そのモデルと認識
用音声データとの類似度を計算する。そして、その類似
度の値を話者判定部11に送る。音声認識部12では、
認識用音声データを音声認識し、その結果を話者判定部
11に送る。
【0011】話者判定部11では、しきい値蓄積部5か
らしきい値を読み出して、上記の類似度の値と比較した
結果と、音声認識の結果を指定テキストと照合した結果
から、本人であるかどうかを判定する。つまり実施例1
ではユーザが発声した音声の内容が、指定テキストと正
確に一致しなくても、即ち少し違いがあったり、あいま
いな個所があっても、本人の音声と判定されることがあ
るが、実施例2では類似度がしきい値以上であり、かつ
発声内容も指定テキストと一致しないと、本人であると
判定されない。
【0012】
【発明の効果】この発明では、認識のたびに、あるテキ
ストを話者認識装置側から指定し、そのテキストを本人
が正しく発声した時のみ、上記入力音声を発声した話者
が本人であると判定する。指定するテキストを、現時刻
やワンタイムパスワードなどの刻一刻(毎回)変化する
ものとすれば、本人がそのテキストを発声した音声が、
あらかじめテープレコーダなどで録音される確率は極め
て小さくなる。そのために、この発明によれば、録音音
声によって騙される危険性を効果的に回避できる。ま
た、テキストの指定がなされてからある時間内に発声し
ないと本人が発声しても、本人と同定されない。
【図面の簡単な説明】
【図1】この発明の実施例1の機能構成を示すブロック
図。
【図2】この発明の実施例2の機能構成を示すブロック
図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 相川 清明 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 西野 豊 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5D015 AA03

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号から話者の個人性を表す特
    徴パラメータ列を抽出し、前記特徴パラメータ列と、予
    め話者毎に登録された話者の個人性を表す特徴パラメー
    タ列との類似度に基づいて、前記入力音声を発声した話
    者を認識する認識処理手段と、 少なくとも2種類以上のテキストから、1種類のテキス
    トをユーザに指定するテキスト指定手段と、 前記指定にもとづき発声された音声を前記認識処理手段
    により話者認識を実行することを特徴とする話者認識装
    置。
  2. 【請求項2】 入力音声信号から話者の個人性を表す特
    徴パラメータ列を抽出し、前記特徴パラメータ列と、予
    め話者毎に登録された話者の個人性を表す特徴パラメー
    タ列との類似度を求める手段と、 少なくとも2種類以上のテキストから、1種類のテキス
    トをユーザに指定するテキスト指定手段と、 入力音声信号を音声認識する音声認識手段と、 前記音声認識の結果と前記指定テキストとの一致性と、
    前記類似度とから入力音声を発声した話者を認識する話
    者判定手段とを具備する話者認識装置。
  3. 【請求項3】 前記テキスト指定手段は前記1種類のテ
    キストとして現在時刻を指定する手段であることを特徴
    とする請求項1又は2記載の話者認識装置。
  4. 【請求項4】 前記テキスト指定手段は前記1種類のテ
    キストとしてワンタイムパスワードを指定する手段であ
    ることを特徴とする請求項1又は2記載の話者認識装
    置。
  5. 【請求項5】 少なくとも2種類以上のテキストから1
    種類のテキストを指定して、その指定テキストをユーザ
    に発声させるテキスト指定過程と、 入力音声信号から話者の個人性を表す特徴パラメータ列
    を抽出し、前記特徴パラメータ列と、予め話者毎に登録
    された話者の個人性を表す特徴パラメータ列との類似度
    に基づいて、前記入力音声を発声した話者を認識する認
    識処理過程と、 を有することを特徴とする話者認識方法。
  6. 【請求項6】 少なくとも2種類以上のテキストから1
    種類のテキストを指定してユーザにその指定テキストを
    発声させるテキスト指定過程と、 入力音声信号から話者の個人性を表す特徴パラメータ列
    を抽出し、前記特徴パラメータ列と、予め話者毎に登録
    された話者の個人性を表す特徴パラメータ列との類似度
    を求める過程と、 前記入力音声信号を音声認識する音声認識過程と、 前記音声認識の結果と前記指定テキストとの一致性と、
    前記類似度とから入力音声を発声した話者を認識する話
    者判定過程とを有する話者認識方法。
  7. 【請求項7】 前記テキスト指定過程は前記1種類のテ
    キストとして現在時刻を用いることを特徴とする請求項
    5又は6記載の話者認識方法。
  8. 【請求項8】 前記テキスト指定過程は前記1種類のテ
    キストとしてワンタイムパスワードを用いることを特徴
    とする請求項5又は6記載の話者認識方法。
  9. 【請求項9】 入力音声信号から話者の個人性を表す特
    徴パラメータ列を抽出し、前記特徴パラメータ列と予め
    話者毎に登録された話者の個人性を表す特徴パラメータ
    列との類似度に基づいて、前記入力音声を発声した話者
    を認識する認識処理過程と、 少なくとも2種類以上のテキストから1種類のテキスト
    をユーザに指定するテキスト指定過程と、 をコンピュータが実行するプログラムを記録した記録媒
    体。
  10. 【請求項10】 少なくとも2種類以上のテキストから
    1種類のテキストをユーザに指定するテキスト指定過程
    と、 入力音声信号から話者の個人性を表す特徴パラメータ列
    を抽出し、前記特徴パラメータ列と、予め話者毎に登録
    された話者の個人性を表す特徴パラメータ列との類似度
    を求める過程と、 入力音声信号を音声認識する音声認識過程と、 前記音声認識の結果と前記指定テキストとの一致性と、
    前記類似度とから入力音声を発声した話者を認識する話
    者判定過程とをコンピュータが実行するプログラムを記
    録した記録媒体。
  11. 【請求項11】 前記テキスト指定過程が前記1種類の
    テキストとして現在時刻を指定する過程であることを特
    徴とする請求項9又は10記載の記録媒体。
  12. 【請求項12】 前記テキスト指定過程が前記1種類の
    テキストとしてワンタイムパスワードを指定する過程で
    あることを特徴とする請求項9又は10記載の記録媒
    体。
JP10327745A 1998-11-18 1998-11-18 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 Pending JP2000148187A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10327745A JP2000148187A (ja) 1998-11-18 1998-11-18 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10327745A JP2000148187A (ja) 1998-11-18 1998-11-18 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2000148187A true JP2000148187A (ja) 2000-05-26

Family

ID=18202516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10327745A Pending JP2000148187A (ja) 1998-11-18 1998-11-18 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2000148187A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657431B2 (en) 2005-02-18 2010-02-02 Fujitsu Limited Voice authentication system
JP2017010511A (ja) * 2015-06-25 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 声紋認証方法および装置
JP2021033315A (ja) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
WO2021131102A1 (ja) * 2020-01-20 2021-07-01 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657431B2 (en) 2005-02-18 2010-02-02 Fujitsu Limited Voice authentication system
JP2017010511A (ja) * 2015-06-25 2017-01-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 声紋認証方法および装置
US9792913B2 (en) 2015-06-25 2017-10-17 Baidu Online Network Technology (Beijing) Co., Ltd. Voiceprint authentication method and apparatus
JP2021033315A (ja) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7326983B2 (ja) 2019-08-13 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
WO2021131102A1 (ja) * 2020-01-20 2021-07-01 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム
JP2021113902A (ja) * 2020-01-20 2021-08-05 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
US9672829B2 (en) Extracting and displaying key points of a video conference
JP4672003B2 (ja) 音声認証システム
Naik Speaker verification: A tutorial
JP2002514318A (ja) 録音された音声を検出するシステムおよび方法
Shah et al. Biometric voice recognition in security system
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN109065026B (zh) 一种录音控制方法及装置
CN108665901B (zh) 一种音素/音节提取方法及装置
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
KR102098956B1 (ko) 음성인식장치 및 음성인식방법
Singh et al. A critical review on automatic speaker recognition
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
JP3251460B2 (ja) 話者照合方法および装置
Balpande et al. Speaker recognition based on mel-frequency cepstral coefficients and vector quantization
JP4440414B2 (ja) 話者照合装置及び方法
Naik et al. Evaluation of a high performance speaker verification system for access Control
CN113838469A (zh) 一种身份识别方法、系统及存储介质
JP2005308950A (ja) 音声処理装置および音声処理システム
Nair et al. A reliable speaker verification system based on LPCC and DTW