JP5366050B2 - 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム - Google Patents
音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム Download PDFInfo
- Publication number
- JP5366050B2 JP5366050B2 JP2009094212A JP2009094212A JP5366050B2 JP 5366050 B2 JP5366050 B2 JP 5366050B2 JP 2009094212 A JP2009094212 A JP 2009094212A JP 2009094212 A JP2009094212 A JP 2009094212A JP 5366050 B2 JP5366050 B2 JP 5366050B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- speech
- language
- learning
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本実施の形態では、以下の考え方によって、国会審議音声の自動書き起こしシステム(会議録作成システム)を構築している。日本の国会では、前述したとおり、欧州議会と異なり議論は主として委員会で行なわれる。そのため、欧州議会の審議よりもインタラクティブで自発的な発話が主となる。そうした発話には、多くのフィラー、言いよどみ、繰返しなどが含まれる。人手で作成された審議録では、そのような流暢でない発話も流暢な発話に「翻訳」されている。すなわち、日本では、実際の発話内容と会議録との相違が大きい。したがって、会議録をもとに音素ラベルを作成する処理はそのままでは難しく、話し言葉特有の現象にいかに適切に対応するかが問題となる。
図1を参照して、本発明の第1の実施の形態に係る会議録作成システム30は、一般的には音声認識システムであって、審議音声コーパス40と、審議音声コーパス40に対応する会議録42とから、審議音声54を音声認識することによって書き起こし56を出力するためのものである。この実施の形態は、前記した言語モデルの統計的スタイル変換(書き言葉→話し言葉)を、音響モデルの準教師付学習に適用したものである。国会では、収録した音声データによる大規模なアーカイブが作成されている。これらの音声に対しては、人手による書き起こしは付与されていないが、整形済の会議録が利用可能である。したがって、会議録をもとに音素ラベルを自動で作成できれば、豊富な音声データがそのまま音響モデルの学習データとして利用できることになる。
図5を参照して、話し言葉/書き言葉変換モデル学習部120による変換モデル122の学習処理を実現するコンピュータプログラムは、利用者からの処理開始の指示に応答してプログラムの実行を開始し、記憶領域の確保、変数のクリアなどの初期設定を行なうステップ190と、対応付けコーパス76のファイルをオープンするステップ192と、繰返し変数iに0を代入するステップ194とを含む。
図6を参照して、ターンごとN−グラム作成部184及びN−グラム変換部188を実現するためのコンピュータプログラムは、プログラムの実行開始とともに、必要な記憶領域の確保及び初期化などの初期設定を行なうステップ210と、繰返し変数iに0を代入するステップ212と、繰返し変数iを処理対象の部分会議録72に含まれるターン数と比較することにより、全ターンの処理が終了したか否かを判定し、判定結果により制御の流れを分岐させるステップ214とを含む。
上に構造を説明した会議録作成システム30は、実質的にはコンピュータにより実現される。会議録作成システム30の全体を1台のコンピュータ上に実装することも可能である。しかし、音響モデル48及び言語モデル50は大量の審議音声コーパス40及び会議録42を使用して学習するものであるのに対し、会議録作成には審議音声コーパス40及び会議録42は不要である。したがって、両者を分離する方がメンテナンス上都合がよい。また、変換モデルの学習及び音響モデルの学習は、システムの性能に大きな影響を及ぼすため、システムのユーザではなく、システムの管理者又は行なう方が好ましい。
上に構成を説明した会議録作成システム30は以下のように動作する。会議録作成システム30の動作はいくつかのフェーズに分けられる。以下、それらフェーズを順番に説明する。
図1を参照して、最初に、既存の審議音声コーパス40及び会議録42から、コンピュータシステム250において対応付けコーパス76が作成される。手作業により、部分コーパス68が審議音声コーパス40から抽出され、対応する部分会議録72が会議録42から抽出される。部分コーパス68を再生し、手作業により審議音声の忠実な書き起こし70をターンごとに作成する。このようにして作成された書き起こし70と部分会議録72とから、これも人手による対応付けコーパス作成処理74が行なわれ、対応付けコーパス76が作成される。
対応付けコーパス76は、話し言葉スタイルの部分コーパス68の忠実な書き起こしと、整形済の(文書スタイルの)部分会議録72とが対になったものであり、本実施の形態では図4に示すような形式となっている。話し言葉/書き言葉変換モデル学習部120は、この対応付けコーパス76のうち、部分会議録72の部分について通常のN−グラムを作成する(図5、ステップ196−200)。さらに話し言葉/書き言葉変換モデル学習部120は、このN−グラムの各エントリについて、書き起こし70内の対応部分を調べ、変化しているものがあればその数をそれぞれ計数し、全て計数した時点で、各エントリに対する変化形ごとにその割合を算出することで変換モデル122を得る(ステップ204)。
以上のようにして変換モデル122が得られると、審議音声コーパス40について以下のようにして音素ラベルが付与できる。
上記のように得られた音素ラベル付音声データベース80は、話し言葉に忠実な音素ラベルが付与された音声コーパスである。したがってこの音素ラベル付音声データベース80を使用した学習を行なうことにより、話し言葉を音声認識するのに適した音響モデル48が得られる。音素ラベル付音声データベース80が話し言葉に忠実な音素ラベルを有しているため、音響モデル学習部82は通常の音響モデルの学習を行なうだけでよい。
音響モデル48の学習とは別に、言語モデル50の学習も以下のようにして行なれる。言語モデル学習部46は、通常の言語モデルの学習方法を用い、会議録42を学習データとして言語モデル58の学習を行なう。本実施の形態では、言語モデルとしてユニグラム、バイグラム及びトライグラムを用いる。
このようにしてコンピュータシステム250で得られた音響モデル48及び言語モデル50を、会議録作成用コンピュータシステム300に送信し、会議録作成用コンピュータシステム300に保存する。会議録作成用コンピュータシステム300の音声認識装置52は、新たに録音された審議音声54を、これら音響モデル48及び言語モデル50を用いて音声認識し、音声認識結果を新たな書き起こし56として出力する。
−実験条件−
上記実施の形態の考え方にしたがって構築した会議録作成システムの性能について、衆議院審議音声により評価した。
2006年及び2007年の衆議院審議音声を対象に、音素ラベル作成の実験を行なった。会議数は26、ターン数は5,170、データ量は91時間である。音響モデルは2003年及び2004年のデータ(134時間)を用いて学習したHMM(隠れマルコフモデル)のベースラインモデルである。HMMの状態数は3000、混合数は16であり、MPE学習済である。特徴量にはCMN(Cepstral Mean Normalization)及びCVN(Cepstral Variance Normalization)を適用した。音声認識は、Julius(http://julius.sourceforge.jp/)を用いて行なうが、大量のデータを処理することを想定して、サーチパラメータは軽く設定している(リアルタイムの2倍程度の時間を許容)。
上記実施の形態に係る手法により作成した音素ラベルを用いて学習データを追加し、この学習データを使用して音響モデルの学習を行なった。学習済の音響モデルを用いて以下のような音声認識実験を行なった。
40 審議音声コーパス
42 会議録
44 音声認識用音響モデル学習部
46 言語モデル学習部
48 音響モデル
50 言語モデル
52,144 音声認識装置
54 審議音声
56 書き起こし
58 言語モデル
60 言語モデル変換部
68 部分コーパス
70 書き起こし
72 部分会議録
76 対応付けコーパス
78 音素ラベリング処理部
80 音素ラベル付音声データベース
130 初期音響モデル学習部
132 初期音響モデル
136 話し言葉用N−グラム
138 ターン・音声選択部
186 ターンごとN−グラム
188 N−グラム変換部
Claims (6)
- 音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしの言語モデルを推定するための言語モデル推定手段と、
予め準備された初期音響モデルと、前記言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、前記音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、
前記音素ラベリング手段により音素ラベルが付された前記音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段とを含む、音響モデル学習装置。 - 前記言語モデル推定手段は、
前記音声データベースの発話のターンごとに対応した文書スタイルテキストから、ターンごとのN−グラム言語モデルを作成するためのN−グラム作成手段と、
前記N−グラム作成手段により作成されたターンごとのN−グラム言語モデルの各々から、前記話し言葉スタイル書き起こしの話し言葉用N−グラム言語モデルを推定するための手段とを含み、
前記音素ラベリング手段は、
前記音声データベースのターンごとに、前記話し言葉用N−グラム言語モデルのうち、対応するN−グラム言語モデルを選択するための言語モデル選択手段と、
前記音声データベースの発話のターンごとに、前記言語モデル選択手段により選択されたN−グラム言語モデルと、前記初期音響モデルとを用いて音声認識を行なって、前記音声データベースのターンごとに書き起こしとその音素ラベルとを付与するための音声認識手段とを含む、請求項1に記載の音響モデル学習装置。 - 前記音声データベースの一部の話し言葉スタイル書き起こしと、前記文書スタイルテキストのうちで当該一部に対応する部分とに基づいて作成された対応付けコーパスに基づいて、前記文書スタイルテキスト内の表現から前記話し言葉スタイル書き起こしの表現への変換を統計的に示す変換モデルを学習するための変換モデル学習手段をさらに含み、
前記言語モデル推定手段は、ターンごとのN−グラム言語モデルの各々に対し、前記変換モデルを適用することにより、前記話し言葉スタイル書き起こしのN−グラム言語モデルを推定するための手段を含む、請求項1に記載の音響モデル学習装置。 - 前記音声データベースは何らかの会議の音声を収録した審議音声コーパスであり、
前記文書スタイルテキストは、前記会議の会議録である、請求項1〜請求項3のいずれかに記載の音響モデル学習装置。 - 所定の音声データベースを学習データとして、請求項1〜請求項4のいずれかに記載の音響モデル学習装置により学習が行なわれた前記音声認識用音響モデルを記憶するための音響モデル記憶手段と、
前記音響モデル記憶手段に記憶された前記音声認識用音響モデルと、音声認識用言語モデルとを用いて、入力される発話データに対する音声認識を行なうための音声認識手段とを含む、音声認識装置。 - コンピュータを、
音声データベースを人間が書き起こし、整形して得られた文書スタイルテキストにより学習した言語モデルから、実際の発言内容に忠実な話し言葉スタイル書き起こしの言語モデルを推定するための言語モデル推定手段と、
予め準備された初期音響モデルと、前記言語モデル推定手段により推定された話し言葉スタイル書き起こしの言語モデルとを用いた音声認識により、前記音声データベースに書き起こしとその音素ラベルとを付すための音素ラベリング手段と、
前記音素ラベリング手段により音素ラベルが付された前記音声データベースを学習データとして、音声認識用音響モデルの学習又は更新を行なうための音響モデル学習手段として機能させる、音響モデル学習のためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094212A JP5366050B2 (ja) | 2009-04-08 | 2009-04-08 | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009094212A JP5366050B2 (ja) | 2009-04-08 | 2009-04-08 | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010243914A JP2010243914A (ja) | 2010-10-28 |
JP5366050B2 true JP5366050B2 (ja) | 2013-12-11 |
Family
ID=43096972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009094212A Active JP5366050B2 (ja) | 2009-04-08 | 2009-04-08 | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5366050B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2634846A4 (en) | 2010-10-29 | 2014-05-28 | Asahi Glass Co Ltd | POSITIVE ELECTRODE ACTIVE MATERIAL, POSITIVE ELECTRODE, BATTERY, AND PROCESS FOR PRODUCING LITHIUM ION SECONDARY BATTERY |
WO2015102127A1 (ko) * | 2013-12-31 | 2015-07-09 | 엘지전자 주식회사 | 음성 인식 시스템 및 방법 |
US10650803B2 (en) | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091967A (ja) * | 2000-09-14 | 2002-03-29 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体 |
JP3721397B2 (ja) * | 2001-10-22 | 2005-11-30 | 独立行政法人情報通信研究機構 | 話し言葉の書き言葉への変換装置 |
JP2004271615A (ja) * | 2003-03-05 | 2004-09-30 | Canon Inc | 情報処理装置 |
JP2007206603A (ja) * | 2006-02-06 | 2007-08-16 | Nissan Motor Co Ltd | 音響モデルの作成方法 |
JP4973352B2 (ja) * | 2007-07-13 | 2012-07-11 | ヤマハ株式会社 | 音声処理装置およびプログラム |
-
2009
- 2009-04-08 JP JP2009094212A patent/JP5366050B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010243914A (ja) | 2010-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11545142B2 (en) | Using context information with end-to-end models for speech recognition | |
Nakamura et al. | Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance | |
Huijbregts | Segmentation, diarization and speech transcription: surprise data unraveled | |
US20130090921A1 (en) | Pronunciation learning from user correction | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
Helgadóttir et al. | Building an ASR Corpus Using Althingi's Parliamentary Speeches. | |
Aksënova et al. | How might we create better benchmarks for speech recognition? | |
Lamel et al. | Speech processing for audio indexing | |
Furui | Recent progress in corpus-based spontaneous speech recognition | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
Nouza et al. | Making czech historical radio archive accessible and searchable for wide public | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP5366050B2 (ja) | 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム | |
Marasek et al. | System for automatic transcription of sessions of the Polish senate | |
Nouza et al. | Voice technology to enable sophisticated access to historical audio archive of the czech radio | |
Odriozola et al. | Basque Speecon-like and Basque SpeechDat MDB-600: speech databases for the development of ASR technology for Basque. | |
Shrawankar et al. | Speech user interface for computer based education system | |
Tarján et al. | Improved recognition of Hungarian call center conversations | |
Li et al. | Corpus and transcription system of Chinese lecture room | |
Furui et al. | Transcription and distillation of spontaneous speech | |
Qian et al. | Automatic speech recognition for automated speech scoring | |
Cettolo et al. | Advances in the automatic transcription of lectures | |
Oumaima et al. | Modern Arabic speech corpus for Text to Speech synthesis | |
Foley et al. | 36 Managing Transcription Data for Automatic Speech Recognition with Elpis | |
Jongtaveesataporn et al. | Thai Broadcast News Corpus Construction and Evaluation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120406 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5366050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |