JP6711343B2 - 音声処理装置、音声処理方法及びプログラム - Google Patents
音声処理装置、音声処理方法及びプログラム Download PDFInfo
- Publication number
- JP6711343B2 JP6711343B2 JP2017233310A JP2017233310A JP6711343B2 JP 6711343 B2 JP6711343 B2 JP 6711343B2 JP 2017233310 A JP2017233310 A JP 2017233310A JP 2017233310 A JP2017233310 A JP 2017233310A JP 6711343 B2 JP6711343 B2 JP 6711343B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown
- storage
- voice
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 22
- 239000000470 constituent Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
本発明の第2の態様の音声処理装置は、既知語を記憶した第1の記憶部と、第2の記憶部と、上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御手段と、を備え、上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する。
図1は、本実施形態に係る音声処理回路10の機能構成を抽出して示すブロック図である。同図において、マイクロホン11で得たアナログの音声信号を、音声入力部12が増幅、A/D変換等の処理を施してデジタルデータ化し、得た音声データを音声認識部13へ出力する。
図2は、主として音声認識部13が実行する、音声入力に対する認識処理の内容を示すフローチャートである。処理当初に音声認識部13は、マイクロホン11、音声入力部12を介して音声データの入力があるか否かを繰返し判断することで(ステップS101)、音声データが入力されるのを待機する。
[請求項1]
既知語の音声情報を記憶した第1の記憶部と、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識手段と、
上記音声認識手段で抽出した未知語の音声情報を順次第2の記憶部に蓄積記憶する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第2の記憶部に記憶されている場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、音声処理装置。
[請求項2]
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報を順次類似度に応じて分類して第2の記憶部に蓄積記憶し、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報が複数存在する場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項1記載の音声処理装置。
[請求項3]
上記記憶制御手段は、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報を所定の条件に応じて、該当する音声情報を既知語として上記第2の記憶部に記憶する、請求項1記載の音声処理装置。
[請求項4]
上記記憶制御手段は、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報の総数に応じて、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項3記載の音声処理装置。
[請求項5]
上記記憶制御手段は、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報の数の絶対値、及び上位数の少なくとも一方に応じて、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項3記載の音声処理装置。
[請求項6]
上記記憶制御手段は、予め設定した時刻において、上記第2の記憶部に分類して記憶した音声情報のうち、同一の分類と認識した音声情報が複数存在する場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、請求項3記載の音声処理装置。
[請求項7]
上記音声認識手段は、入力する音声情報から話者を認識し、
上記記憶制御手段は、上記音声認識手段で認識した話者に応じて未知語の音声情報を蓄積記憶する、
請求項1乃至6いずれか記載の音声処理装置。
[請求項8]
既知語の音声情報を記憶した第1の記憶部を備えた音声処理装置の音声処理方法であって、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識工程と、
上記音声認識工程で抽出した未知語の音声情報を順次第2の記憶部に蓄積記憶する記憶工程を有し、
上記記憶工程は、上記音声認識工程で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第2の記憶部に記憶されている場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、音声処理方法。
[請求項9]
既知語の音声情報を記憶した第1の記憶部を備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語の音声情報を抽出する音声認識手段と、
上記音声認識手段で抽出した未知語の音声情報を順次第2の記憶部に蓄積記憶する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語の音声情報と類似な未知語の音声情報が、上記第2の記憶部に記憶されている場合、該当する音声情報を既知語として上記第1の記憶部に記憶する、プログラム。
11…マイクロホン
12…音声入力部
13…音声認識部
14…音声単語辞書部
14A…既知語記憶部
14B…未知語記憶部
Claims (10)
- 既知語を記憶した第1の記憶部と、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第1の記憶部への記憶制御を実行する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理装置。 - 既知語を記憶した第1の記憶部と、
第2の記憶部と、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御手段と、を備え、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理装置。 - 上記記憶制御手段は、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の総数が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、請求項2記載の音声処理装置。
- 上記記憶制御手段は、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の絶対値、及び上位数の少なくとも一方が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、請求項2記載の音声処理装置。
- 上記記憶制御手段は、予め設定した時刻において、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、請求項2記載の音声処理装置。
- 上記音声認識手段は、入力する音声情報から話者を認識し、
上記記憶制御手段は、上記音声認識手段で認識した話者に応じて、抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶する、
請求項2乃至5いずれか一項記載の音声処理装置。 - 既知語を記憶した第1の記憶部を備えた音声処理装置の音声処理方法であって、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識工程と、
上記第1の記憶部への記憶制御を実行する記憶制御工程を有し、
上記記憶制御工程は、上記音声認識工程で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理方法。 - 既知語を記憶した第1の記憶部と第2の記憶部とを備えた音声処理装置の音声処理方法であって、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識工程と、
上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御工程と、を有し、
上記記憶制御工程は、上記音声認識工程で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、音声処理方法。 - 既知語を記憶した第1の記憶部を備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第1の記憶部への記憶制御を実行する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類し、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、プログラム。 - 既知語を記憶した第1の記憶部と第2の記憶部とを備えた音声処理装置のコンピュータが実行するプログラムであって、上記コンピュータを、
上記第1の記憶部の記憶内容に基づき、入力された音声信号に対する音声認識処理を実行して、未知語を抽出する音声認識手段と、
上記第1の記憶部及び上記第2の記憶部への記憶制御を実行する記憶制御手段と、して機能させ、
上記記憶制御手段は、上記音声認識手段で抽出した未知語を類似度に応じて分類して順次上記第2の記憶部に記憶し、上記第2の記憶部に分類して記憶された未知語のうち、同一の分類と認識された未知語の数の情報が所定の条件となった場合、該当する未知語を既知語として上記第1の記憶部に記憶する、プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017233310A JP6711343B2 (ja) | 2017-12-05 | 2017-12-05 | 音声処理装置、音声処理方法及びプログラム |
US16/193,163 US20190172445A1 (en) | 2017-12-05 | 2018-11-16 | Voice processing apparatus |
EP18207016.9A EP3496092B1 (en) | 2017-12-05 | 2018-11-19 | Voice processing apparatus, voice processing method and program |
CN201811450539.1A CN109887495B (zh) | 2017-12-05 | 2018-11-29 | 声音处理装置、声音处理方法及记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017233310A JP6711343B2 (ja) | 2017-12-05 | 2017-12-05 | 音声処理装置、音声処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019101285A JP2019101285A (ja) | 2019-06-24 |
JP6711343B2 true JP6711343B2 (ja) | 2020-06-17 |
Family
ID=64362423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017233310A Active JP6711343B2 (ja) | 2017-12-05 | 2017-12-05 | 音声処理装置、音声処理方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190172445A1 (ja) |
EP (1) | EP3496092B1 (ja) |
JP (1) | JP6711343B2 (ja) |
CN (1) | CN109887495B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002308B (zh) * | 2020-10-30 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
JP4816409B2 (ja) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
CN101794281A (zh) * | 2009-02-04 | 2010-08-04 | 日电(中国)有限公司 | 用于对未知词进行语义分类的系统和方法 |
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
US9818400B2 (en) * | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9607618B2 (en) * | 2014-12-16 | 2017-03-28 | Nice-Systems Ltd | Out of vocabulary pattern learning |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
-
2017
- 2017-12-05 JP JP2017233310A patent/JP6711343B2/ja active Active
-
2018
- 2018-11-16 US US16/193,163 patent/US20190172445A1/en not_active Abandoned
- 2018-11-19 EP EP18207016.9A patent/EP3496092B1/en active Active
- 2018-11-29 CN CN201811450539.1A patent/CN109887495B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
EP3496092B1 (en) | 2020-12-23 |
CN109887495B (zh) | 2023-04-07 |
CN109887495A (zh) | 2019-06-14 |
EP3496092A1 (en) | 2019-06-12 |
JP2019101285A (ja) | 2019-06-24 |
US20190172445A1 (en) | 2019-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
JP2982870B2 (ja) | 話者識別方法および話者認識装置 | |
JP4728972B2 (ja) | インデキシング装置、方法及びプログラム | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP4220449B2 (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
CN112634867A (zh) | 模型训练方法、方言识别方法、装置、服务器及存储介质 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
US20200135211A1 (en) | Information processing method, information processing device, and recording medium | |
KR102019470B1 (ko) | 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템 | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
JP6711343B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
WO2021171956A1 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
JP2016143050A (ja) | 音声認識装置および音声認識方法 | |
JP7291099B2 (ja) | 音声認識方法及び装置 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP2005534065A (ja) | マンマシンインタフェースユニットの動作及び/又は制御方法 | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JPH04324499A (ja) | 音声認識装置 | |
WO2023079815A1 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
JP3841342B2 (ja) | 音声認識装置および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190213 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6711343 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |