JP2009020352A - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP2009020352A JP2009020352A JP2007183480A JP2007183480A JP2009020352A JP 2009020352 A JP2009020352 A JP 2009020352A JP 2007183480 A JP2007183480 A JP 2007183480A JP 2007183480 A JP2007183480 A JP 2007183480A JP 2009020352 A JP2009020352 A JP 2009020352A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- acoustic model
- recognition
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】位置特定部14は、音声信号Sから各発声者の方向jを特定する。話者識別部16は、音声信号Sが表わす各音声の発声者を区別する。適応モデル生成部24は、位置特定部14が適応用の音声信号S1から特定した方向jと話者識別部16が音声信号S1から区別した発声者との組合せに対応した音響モデルMを音声信号S1に応じて生成する。音声認識部26は、位置特定部14が認識用の音声信号S1から特定した方向jと話者識別部16が音声信号S2から区別した発声者との組合せに対応した音響モデルMに基づいて、音声信号S2が表わす音声に対応した文字を特定する。
【選択図】図1
Description
図1は、本発明の第1実施形態に係る音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10には入力装置42と出力装置44と放音装置46とが接続される。入力装置42は、利用者が文字を入力するための機器(例えばキーボード)である。出力装置44は、制御装置10による制御のもとに各種の画像を表示する表示機器である。なお、制御装置10が指示した画像を印刷する印刷機器も出力装置44として採用される。放音装置46は、制御装置10から供給される信号に応じた音声を放音する機器(例えばスピーカやヘッドホン)である。
区間特定部12は、記憶装置30に格納された音声信号Sのうちの所定の区間を適応用の音声信号S1として特定する。音声信号S1は、記憶装置30に格納された各音響モデルMの更新のために利用される。本形態の区間特定部12は、音声信号Sのうち始点から所定の時間(例えば5分)が経過するまでの区間を音声信号S1として抽出する。
認識処理時には、音声信号Sの全区間が始点から終点にかけて順次に認識用の音声信号S2として記憶装置30から出力される。音声信号S2は音声認識部26による音声認識の対象となる。前述の適応処理の対象となるのは、実際の音声認識の対象となる音声信号S2の部分である。位置特定部14は、適応処理時と同様の手順で、認識用の音声信号S2から各発声者の位置(方向j)を順次に特定する。
次に、本発明の第2実施形態について説明する。なお、本形態において作用や機能が第1実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
第1実施形態の認識処理では未更新の音響モデルMを初期的な内容のまま使用したが、他の音響モデルMを代替的に選択する構成も採用される。例えば、発声者の方向を優先して音響モデルMを選択する方向優先モードと、発声者を優先して音響モデルMを選択する話者優先モードとが、入力装置42に対する入力に応じて選択的に指定される構成が好適である。位置特定部14が特定した方向jと話者識別部16が特定した識別子iとの組合せに対応した音響モデルM[j,i]が未更新である場合、方向優先モードにおいては、選択部22は、方向jに対応する複数の音響モデルMのうち識別子iの発声者の音声に特徴量が最も近似する発声者の音響モデルMを選択する。各発声者の音声の類否は、例えば話者情報32に含まれる中心ベクトル間の距離に応じて決定される(距離が小さいほど類似する)。一方、話者優先モードが選択された場合、選択部22は、音響モデル群Giのうち方向jに最も近似する方向に対応した音響モデルMを選択する。以上の構成によれば、第2実施形態と同様に、未更新の音響モデルMを初期的な内容のまま認識処理に使用する第1実施形態と比較して音声認識の精度を高めることが可能である。
以上の各形態においては、音声信号S1が表わす音声を適応処理の実行前に放音する構成を例示したが、利用者に文字列TINを認知させるための方法は適宜に変更される。例えば、適応処理前の初期的な音響モデルMを利用して音声認識部26が音声信号S1の音声認識を実行し、当該文字列を出力装置44から出力する構成が採用される。未更新の音響モデルMを利用した音声認識の精度は低いから、出力装置44から出力される文字列は不正確である場合がある。したがって、利用者は、出力装置44が出力する文字列を訂正したうえで入力装置42から文字列TINとして入力する。以上の構成によれば、利用者が音声を聴取することで文字列TINの全部を認知する必要がある構成と比較して利用者の作業の負担が軽減されるという利点がある。もっとも、利用者による文字列TINの入力は本発明において必須ではない。例えば、音声信号S1のみに基づいて適応処理を実行する構成も採用される。
以上の各形態においては音声信号Sの先頭から所定の時間長の区間を適応用の音声信号S1として抽出したが、区間特定部12が音声信号S1を特定する方法は任意である。例えば、音声信号Sの全区間のうち発声者数が多い区間を区間特定部12が音声信号S1として特定してもよい。以上の態様によれば、音声信号S1の区間内の発声者数が少ない場合と比較して多数の音響モデルMが適応処理で更新されるから、音声認識部26による音声認識の精度を高めることが可能である。なお、音声信号S1が音声信号S(S2)の部分である必要は必ずしもない。すなわち、音声信号S1と音声信号S2とが別個のファイルとして記憶装置30に格納された構成も採用される。
以上の各形態においては音声入力装置60に対する発声者の方向jを特定したが、位置特定部14が発声者の位置を特定する構成も好適である。また、適応用の音声信号S1から方向jを特定する位置特定部14と認識用の音声信号S2から方向jを特定する位置特定部14とが別個に設置された構成や、音声信号S1から識別子iを特定する話者識別部16と音声信号S2から識別子iを特定する話者識別部16とが別個に設置された構成も採用される。ただし、位置特定部14や話者識別部16が適応処理時と認識処理時とで共用される以上の各形態によれば、制御装置10の構成や機能(制御装置10が実行するプログラムの内容)が簡素化されるという利点がある。
識別子iと方向jとに対応した複数(N×K個)の音響モデルMが適応処理前に記憶装置30に格納された構成は本発明において必須ではない。例えば、事前に記憶装置30に格納された音響モデルMが適応モデル生成部24の生成した音響モデルM[j,i]に更新される以上の各形態のほか、適応モデル生成部24の生成した音響モデルM[j,i]が記憶装置30に新規に格納される構成も採用される。すなわち、識別子iと方向jとの組合せに対応した音響モデルMを適応モデル生成部24が生成する構成であれば足り、当該音響モデルMが既存の音響モデルMの更新に使用されるか記憶装置30に新規に格納されるかは本発明において不問である。
Claims (7)
- 適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを前記適応用の音声信号から生成して記憶装置に格納する適応モデル生成手段と、
前記複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識手段と
を具備する音声処理装置。 - 複数の収音機器が生成した前記適応用の音声信号から各発声者の位置を特定する位置特定手段と、
前記適応用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、
前記適応モデル生成手段は、前記話者識別手段が区別した各発声者と前記位置特定手段が当該発声者について特定した位置との各組合せに対応した音響モデルを前記適応用の音声信号から生成する
請求項1の音声処理装置。 - 複数の収音機器が生成した前記認識用の音声信号から各発声者の位置を特定する位置特定手段と、
前記認識用の音声信号が表わす各音声の発声者を区別する話者識別手段とを具備し、
前記音声認識手段は、前記話者識別手段が区別した各発声者と前記位置特定手段が当該発声者について特定した位置との組合せに対応した音響モデルに基づいて文字を特定する
請求項1の音声処理装置。 - 前記適応モデル生成手段は、一の発声者と前記一の発声者の位置との組合せに対応した音響モデルを、当該位置に対応した他の発声者の音響モデルから生成する補助生成手段を含む
請求項1から請求項3の何れかの音声処理装置。 - 前記適応モデル生成手段は、一の発声者と前記一の発声者の位置との組合せに対応した音響モデルを、当該一の発声者に対応した他の位置の音響モデルから生成する補助生成手段を含む
請求項1から請求項3の何れかの音声処理装置。 - 前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段を具備し、
前記適応モデル生成手段は、前記入力手段が入力した文字と前記適応用の音声信号とに基づいて音響モデルを生成する
請求項1から請求項5の何れかの音声処理装置。 - コンピュータに、
適応用の音声信号が表わす音声の発声者と当該発声者の位置との各組合せに対応した複数の音響モデルを前記適応用の音声信号から生成して記憶装置に格納する適応モデル生成処理と、
前記複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理と
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007183480A JP4877112B2 (ja) | 2007-07-12 | 2007-07-12 | 音声処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007183480A JP4877112B2 (ja) | 2007-07-12 | 2007-07-12 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020352A true JP2009020352A (ja) | 2009-01-29 |
JP4877112B2 JP4877112B2 (ja) | 2012-02-15 |
Family
ID=40360029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007183480A Expired - Fee Related JP4877112B2 (ja) | 2007-07-12 | 2007-07-12 | 音声処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4877112B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140131956A (ko) * | 2012-03-16 | 2014-11-14 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
WO2022269760A1 (ja) * | 2021-06-22 | 2022-12-29 | ファナック株式会社 | 音声認識装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002295086A (ja) * | 2001-04-03 | 2002-10-09 | Nissan Motor Co Ltd | キーレスエントリーシステム |
JP2004117724A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2004198656A (ja) * | 2002-12-17 | 2004-07-15 | Japan Science & Technology Agency | ロボット視聴覚システム |
JP2004206063A (ja) * | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
JP2005338286A (ja) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法 |
-
2007
- 2007-07-12 JP JP2007183480A patent/JP4877112B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002295086A (ja) * | 2001-04-03 | 2002-10-09 | Nissan Motor Co Ltd | キーレスエントリーシステム |
JP2004117724A (ja) * | 2002-09-25 | 2004-04-15 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2004206063A (ja) * | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
JP2004198656A (ja) * | 2002-12-17 | 2004-07-15 | Japan Science & Technology Agency | ロボット視聴覚システム |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
JP2005338286A (ja) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | 対象音処理装置およびこれを用いた輸送機器システム、ならびに対象音処理方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140131956A (ko) * | 2012-03-16 | 2014-11-14 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
KR101641448B1 (ko) * | 2012-03-16 | 2016-07-20 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 사용자 전용 자동 음성 인식 |
US10789950B2 (en) | 2012-03-16 | 2020-09-29 | Nuance Communications, Inc. | User dedicated automatic speech recognition |
WO2022269760A1 (ja) * | 2021-06-22 | 2022-12-29 | ファナック株式会社 | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4877112B2 (ja) | 2012-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JP6118838B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
JP4942860B2 (ja) | 認識辞書作成装置、音声認識装置及び音声合成装置 | |
JP7040449B2 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
JPWO2004044887A1 (ja) | 音声認識用辞書作成装置および音声認識装置 | |
JP2023081946A (ja) | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
CN112420026A (zh) | 优化关键词检索系统 | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JPWO2007108500A1 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
JP2002062891A (ja) | 音素割当て方法 | |
JP2010078877A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN115240633A (zh) | 用于文本到语音转换的方法、装置、设备和存储介质 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
JP6580281B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
KR102699035B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
JP4877113B2 (ja) | 音響モデル処理装置およびプログラム | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4877112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |