JP5172973B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP5172973B2 JP5172973B2 JP2010548268A JP2010548268A JP5172973B2 JP 5172973 B2 JP5172973 B2 JP 5172973B2 JP 2010548268 A JP2010548268 A JP 2010548268A JP 2010548268 A JP2010548268 A JP 2010548268A JP 5172973 B2 JP5172973 B2 JP 5172973B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- utterance
- registered
- unit
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 claims description 36
- 230000004044 response Effects 0.000 claims description 2
- 238000013500 data storage Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005484 gravity Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Navigation (AREA)
Description
実施の形態1.
図1は、この発明の実施の形態1による登録型の音声認識装置の構成を示すブロック図である。図1において、実施の形態1による音声認識装置は、登録処理部1、標準パタン記憶部2及び認識処理部3を備える。登録処理部1は、発話を標準パタンとして登録しようとする話者(以下、登録話者と呼ぶ)から発せられた登録対象の発話(以下、登録発話と呼ぶ)を入力して標準パタンを作成する手段であり、音声入力部11、登録音声データ記憶部(記憶部)12、発話安定性検証部(安定性検証部)13及び標準パタン作成部14を備える。
図2は、図1中の登録処理部による動作の流れを示すフローチャートであり、この図に沿って登録処理部1の各構成部の動作を詳細に説明する。
装置外部からの操作等によって登録処理が開始されると、音声入力部11が、登録音声データ記憶部12に記憶されている登録音声データを初期化(登録音声データを削除)(ステップST1)し、発話回数Nをカウントするカウンタ(図1において不図示)のカウント値を0とする(ステップST2)。
(1)算出方法1
発話回数M分の同一内容を示す登録音声データが登録音声データ記憶部12に記憶されている場合、発話安定性検証部13が、発話回数M分の登録音声データについて2発話分の全ての組み合わせを求める。次に、発話安定性検証部13が、2発話分の両登録音声データの特徴量を抽出し、当該特徴量を用いた動的計画法によって当該2発話間の登録音声データの類似度を算出する。この類似度を2発話分の全ての組み合わせから求め、得られた類似度の平均値を発話回数Mの登録音声データに対する類似度とする。
(2)算出方法2
算出方法1において、類似度の平均値の代わりに、2発話分の全ての組み合わせの類似度のうち、最小となる類似度(最も類似していない発話間の類似度)を発話回数Mの登録音声データに対する類似度とする。
(3)算出方法3
2発話分の組み合わせにおける登録音声データ間の類似度を算出するにあたり、発話安定性検証部13、標準パタン作成部14及び認識処理部3が協働して、上記組み合わせのうちの1発話を仮の標準パタンとして登録し、もう1発話を入力として音声認識を行い、この認識結果として得られるスコア(尤度)を、2発話間の登録音声データの類似度として使用する。この類似度を2発話分の全ての組み合わせから求め、得られた類似度の平均値若しくは最小類似度を発話回数Mの登録音声データに対する類似度とする。
なお、K個の標準パタンを作成する代わりに、K個の登録音声データに対して音声の特徴量をそれぞれ抽出し、これらのうち平均的な特徴量を持つ登録用データを作成して標準パタンとして登録してもよい。
図3は、この発明の実施の形態2による登録型の音声認識装置の構成を示すブロック図である。図3において、実施の形態2による音声認識装置は、登録処理部1A、標準パタン記憶部2及び認識処理部3を備える。登録処理部1Aは、音声入力部11、登録音声データ記憶部12、発話安定性検証部13a、標準パタン作成部14及び再発話要求部15を備える。
図4は、図3中の登録処理部による動作の流れを示すフローチャートであり、この図に沿って登録処理部1Aの各構成部の動作を詳細に説明する。図4において、ステップST1からステップST6までの処理は、上記実施の形態1の図2で示した内容と同様であるので説明を省略する。
なお、L=Mの場合、L発話分の登録音声データの組み合わせは、ステップST7aで求めた最大の類似度をとるM発話分の登録音声データの組み合わせとなる。
Claims (4)
- 標準パタンを用いて認識対象の発話を音声認識する音声認識装置において、
複数回発話された音声を入力する音声入力部と、
前記音声入力部が入力した前記複数回発話された音声データを記憶する記憶部と、
前記記憶部から読み出した前記複数回発話された音声データ間の類似度を求め、前記類似度が第1の閾値より大きい場合に前記音声データを登録可と判定する安定性検証部と、
前記安定性検証部により登録可と判定された前記音声データを用いて前記標準パタンを作成する標準パタン作成部と、
1発話分の再発話要求を実行する再発話要求部とを備え、
前記音声入力部は、予め定めた複数回分だけ発話された音声を入力し、
前記安定性検証部は、前記記憶部から読み出した前記予め定めた複数回分の音声データに登録可となる音声データがなかった場合、前記再発話要求部に再発話要求を実行させ、当該再発話要求に応じた1発話分の音声データと前記記憶部に既に記憶された前記複数回分の音声データとの音声データ間の類似度を求め、前記音声データ間の類似度のうちの最大値が第2の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定することを特徴とする音声認識装置。 - 安定性検証部は、記憶部から読み出した複数回分の音声データに登録可となる音声データがなく、音声入力部が入力した音声の発話回数が第3の閾値に到達すると、再発話要求部に再発話要求を実行させる代わりに、発話音声の登録に失敗したとして登録判定を終了することを特徴とする請求項1記載の音声認識装置。
- 安定性検証部は、記憶部から読み出した複数回分の音声データに登録可となる音声データがなかった場合、所定数の音声データを残して前記記憶部の音声データを削除し、再発話要求に応じた1発話分の音声データと前記記憶部に残された前記所定数の音声データとの音声データ間の類似度を求め、前記音声データ間の類似度のうちの最大値が第2の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定することを特徴とする請求項1記載の音声認識装置。
- 安定性検証部は、記憶部に既に記憶されている複数回分の音声データと新たに入力された1発話分の音声データとのうち、音声データ間の類似度が最大となる音声データの組み合わせから所定数の音声データを特定して前記記憶部に残すことを特徴とする請求項3記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010548268A JP5172973B2 (ja) | 2009-01-30 | 2009-10-08 | 音声認識装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009019692 | 2009-01-30 | ||
JP2009019692 | 2009-01-30 | ||
JP2010548268A JP5172973B2 (ja) | 2009-01-30 | 2009-10-08 | 音声認識装置 |
PCT/JP2009/005244 WO2010086925A1 (ja) | 2009-01-30 | 2009-10-08 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010086925A1 JPWO2010086925A1 (ja) | 2012-07-26 |
JP5172973B2 true JP5172973B2 (ja) | 2013-03-27 |
Family
ID=42395195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010548268A Active JP5172973B2 (ja) | 2009-01-30 | 2009-10-08 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8977547B2 (ja) |
JP (1) | JP5172973B2 (ja) |
CN (1) | CN102301419B (ja) |
DE (1) | DE112009004357B4 (ja) |
WO (1) | WO2010086925A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630971B2 (en) * | 2009-11-20 | 2014-01-14 | Indian Institute Of Science | System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns |
TWI475558B (zh) * | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
JP6348903B2 (ja) * | 2013-06-10 | 2018-06-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者識別方法、話者識別装置及び情報管理方法 |
US9443508B2 (en) * | 2013-09-11 | 2016-09-13 | Texas Instruments Incorporated | User programmable voice command recognition based on sparse features |
WO2016015687A1 (zh) * | 2014-07-31 | 2016-02-04 | 腾讯科技(深圳)有限公司 | 声纹验证方法及装置 |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
CN105185379B (zh) * | 2015-06-17 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 声纹认证方法和装置 |
US10044710B2 (en) | 2016-02-22 | 2018-08-07 | Bpip Limited Liability Company | Device and method for validating a user using an intelligent voice print |
CN109074397B (zh) | 2016-05-06 | 2022-04-15 | 索尼公司 | 信息处理系统和信息处理方法 |
JP6804909B2 (ja) * | 2016-09-15 | 2020-12-23 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US9984688B2 (en) | 2016-09-28 | 2018-05-29 | Visteon Global Technologies, Inc. | Dynamically adjusting a voice recognition system |
WO2020111880A1 (en) | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | User authentication method and apparatus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02210500A (ja) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | 標準パターン登録方式 |
WO2007111197A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
US4751737A (en) | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
GB2237135A (en) | 1989-10-16 | 1991-04-24 | Logica Uk Ltd | Speaker recognition |
JPH075890A (ja) | 1993-06-16 | 1995-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置 |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
KR100241901B1 (ko) * | 1997-08-28 | 2000-02-01 | 윤종용 | 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법 |
JP3699608B2 (ja) * | 1999-04-01 | 2005-09-28 | 富士通株式会社 | 話者照合装置及び方法 |
KR100297833B1 (ko) * | 1999-07-07 | 2001-11-01 | 윤종용 | 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법 |
JP2002297181A (ja) | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
DE10313310A1 (de) * | 2003-03-25 | 2004-10-21 | Siemens Ag | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür |
WO2005013263A1 (ja) * | 2003-07-31 | 2005-02-10 | Fujitsu Limited | 音声認証システム |
CN101124623B (zh) * | 2005-02-18 | 2011-06-01 | 富士通株式会社 | 语音认证系统及语音认证方法 |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
DE102008024257A1 (de) | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
DE102008040002A1 (de) | 2008-08-27 | 2010-03-04 | Siemens Aktiengesellschaft | Verfahren zur szenariounabhängigen Sprechererkennung |
US8347247B2 (en) * | 2008-10-17 | 2013-01-01 | International Business Machines Corporation | Visualization interface of continuous waveform multi-speaker identification |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
-
2009
- 2009-10-08 CN CN2009801560332A patent/CN102301419B/zh active Active
- 2009-10-08 US US13/142,711 patent/US8977547B2/en active Active
- 2009-10-08 JP JP2010548268A patent/JP5172973B2/ja active Active
- 2009-10-08 WO PCT/JP2009/005244 patent/WO2010086925A1/ja active Application Filing
- 2009-10-08 DE DE112009004357.7T patent/DE112009004357B4/de active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02210500A (ja) * | 1989-02-10 | 1990-08-21 | Ricoh Co Ltd | 標準パターン登録方式 |
WO2007111197A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
DE112009004357B4 (de) | 2019-06-13 |
DE112009004357T5 (de) | 2012-07-12 |
US8977547B2 (en) | 2015-03-10 |
WO2010086925A1 (ja) | 2010-08-05 |
JPWO2010086925A1 (ja) | 2012-07-26 |
US20110276331A1 (en) | 2011-11-10 |
CN102301419B (zh) | 2013-06-12 |
CN102301419A (zh) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5172973B2 (ja) | 音声認識装置 | |
US9514747B1 (en) | Reducing speech recognition latency | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US8972260B2 (en) | Speech recognition using multiple language models | |
CN108780645B (zh) | 对通用背景模型和登记说话者模型进行文本转录适配的说话者验证计算机系统 | |
US20110301953A1 (en) | System and method of multi model adaptation and voice recognition | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US9613624B1 (en) | Dynamic pruning in speech recognition | |
WO2008001485A1 (fr) | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue | |
JP6980603B2 (ja) | 話者モデル作成システム、認識システム、プログラムおよび制御装置 | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
JP2020067566A (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
JP4854732B2 (ja) | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP6420198B2 (ja) | 閾値推定装置、音声合成装置、その方法及びプログラム | |
JPH11184491A (ja) | 音声認識装置 | |
JP6716513B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP6006674B2 (ja) | 音響モデル選択装置とその方法とプログラム | |
JP2012032538A (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP6571587B2 (ja) | 音声入力装置、その方法、及びプログラム | |
JP2004101963A5 (ja) | ||
JP2010197607A (ja) | 音声認識装置、音声認識方法およびプログラム | |
CN109559759B (zh) | 具备增量注册单元的电子设备及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5172973 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |