JP2003099086A

JP2003099086A - 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Info

Publication number: JP2003099086A
Application number: JP2001290351A
Authority: JP
Inventors: Shinichi Honma; 真一本間; Akio Kobayashi; 彰夫小林; Shoe Sato; 庄衛佐藤; Toru Imai; 亨今井; Akio Ando; 彰男安藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2001-09-25
Filing date: 2001-09-25
Publication date: 2003-04-04

Abstract

(57)【要約】【課題】話しことばの認識精度を向上させる言語・音
響モデル作成方法および言語・音響モデル作成装置なら
びに言語・音響モデル作成プログラムを提供する。【解決手段】言語・音響モデル作成装置１は、放送番
組の音声データおよび当該番組が電子化された書き起こ
しファイルを記憶する記憶手段５と、書き起こしファイ
ルの中から、話しことば特有のテキストファイルを抽出
する話しことばテキスト抽出手段３ａと、この話しこと
ばテキスト抽出手段３ａで抽出された話しことば特有の
テキストファイルに対応する放送番組の音声データを抽
出する音声データ抽出手段３ｃと、話しことば特有のテ
キストファイルおよびこのファイルに対応する音声デー
タに基づいて、音声認識に用いられる言語モデルおよび
音響モデルのそれぞれのモデルを適応化したモデルを生
成する言語・音響モデル生成手段３ｄと、を備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、主に話しことば等
の自発音声を、音声認識する際に用いられる言語・音響
モデルを生成する言語・音響モデル作成方法および言語
・音響モデル作成装置ならびに言語・音響モデル作成プ
ログラムに関する。

【０００２】

【従来の技術】一般に、多くの音声認識では、複数の者
が発声した、文法の正確な「書きことば」（音声デー
タ）を大量に蓄積した音声データベース（コーパス）に
基づいて、音声認識に用いられる言語モデルおよび音響
モデルが生成されている。

【０００３】なお、一例として、文法の正確な「書きこ
とば」には、放送番組、特にニュース番組の原稿等が挙
げられる。また、音声認識に用いられる言語モデルと
は、大量の音声データを利用して統計的計算手法によっ
て求められた、音声データ中の単語間のつながり度合い
を示す確率モデルの一種である。また、音響モデルと
は、大量の音声データの波形パターンに基づいて求めら
れた、音声データ中の波形パターンと単語との関係を示
す確率モデルの一種である。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
音声認識では、「話しことば」特有の助詞、助動詞等の
機能語を多く含んだ音声データを音声認識する場合、用
いられる言語モデルおよび音響モデルが大量の「書きこ
とば」の音声データベースに基づいて生成されているの
で、適応し難く、認識精度（音声認識の性能）が低くな
るという問題がある。

【０００５】また、「話しことば」の音声データと、こ
の「話しことば」をテキストファイルにした書き起こし
ファイルとを大量に収集して、これらを従来の音声認識
に用いられている言語モデルおよび音響モデルの参考に
することも想定されるが、「話しことば」の音声データ
を大量に収集することは困難であるという問題がある。

【０００６】本発明の目的は前記した従来の技術が有す
る課題を解消し、話しことばの認識精度を向上させる言
語・音響モデル作成方法および言語・音響モデル作成装
置ならびに言語・音響モデル作成プログラムを提供する
ことにある。

【０００７】

【課題を解決するための手段】本発明は、目的を達成す
るため、以下に示す構成とした。請求項１記載の言語・
音響モデル作成方法は、放送番組の音声データおよび当
該番組が電子化された書き起こしファイルの中から、話
しことば特有のテキストファイルを抽出する話しことば
テキスト抽出ステップと、この話しことばテキスト抽出
ステップで抽出された話しことば特有のテキストファイ
ルに対応する前記放送番組の音声データを抽出する音声
データ抽出ステップと、前記話しことば特有のテキスト
ファイルおよびこの話しことば特有のテキストファイル
に対応する音声データに基づいて、音声認識に用いられ
る言語モデルおよび音響モデルのそれぞれのモデルを適
応化したモデルを生成する言語・音響モデル生成ステッ
プと、を含むことを特徴とする。

【０００８】この言語・音響モデル作成方法によれば、
まず、話しことばテキスト抽出ステップで、すでに放送
された放送番組を電子化した書き起こしファイルから、
話しことば特有のテキストファイルが抽出される。この
話しことば特有のテキストファイルは、話しことば特有
の表現、例えば、不要語（文頭の間投詞等）「で」、
「え」や指示のための表現「この」、「こちらの」等を
多く含んだテキストファイルである。次に、このテキス
トファイルに対応する放送番組の音声データが音声デー
タ抽出ステップで抽出され、言語・音響モデル生成ステ
ップで、これら話しことば特有のテキストファイルと音
声データに基づいて、言語モデルおよび音響モデルのそ
れぞれのモデルを適応化したモデルが生成される。

【０００９】なお、言語モデルおよび音響モデルの適応
化とは、一般的な最尤線形回帰法（ＭａｘｉｍｕｍＬ
ｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉ
ｏｎ；ＭＬＬＲ）と最大事後確率推定法（ｍａｘｉｍｕ
ｍａｐｏｓｔｅｒｉｏｒｉｐｒｏｂａｂｉｌｉｔ
ｙｅｓｔｉｍａｔｉｏｎ；ＭＡＰ）を用いて、抽出し
た話しことば特有のテキストファイルと音声データを重
み付けし、既存の言語モデルおよび音響モデルに、重み
付けしたテキストファイルおよび音声データを含めて、
新たな言語モデルおよび音響モデルを求めることであ
る。

【００１０】また、請求項２記載の言語・音響モデル作
成方法は、請求項１に記載の言語・音響モデル生成方法
において、前記話しことばテキスト抽出ステップは、話
しことば特有のキーワードを用いて、話しことば特有の
テキストファイルを抽出することを特徴とする。

【００１１】この言語・音響モデル作成方法によれば、
話しことばテキスト抽出ステップにおいて、話しことば
特有のキーワードが用いられるので、このキーワードに
関連するテキストファイルが抽出される。なお、話しこ
とば特有のキーワードとは、会話の中で使用される、口
語表現独特の単語、或いは、文法上、必要（重要）でな
い単語であって、例えば、「ずうっと」、「ちょっ
と」、「えー」等のことである。

【００１２】さらに、請求項３記載の言語・音響モデル
作成方法は、放送番組の音声データが電子化された書き
起こしファイルの中から、出現頻度の高い単語および言
い回しを含む高頻度テキストファイルを抽出する高頻度
テキスト抽出ステップと、この高頻度テキスト抽出ステ
ップで抽出された高頻度テキストファイルに対応する前
記放送番組の音声データを抽出する音声データ抽出ステ
ップと、前記高頻度テキストファイルおよびこの高頻度
テキストファイルに対応する音声データに基づいて、音
声認識に用いられる言語モデルおよび音響モデルのそれ
ぞれのモデルを適応化したモデルを生成する言語・音響
モデル生成ステップと、を含むことを特徴とする。

【００１３】この言語・音響モデル作成方法によれば、
まず、高頻度テキスト抽出ステップで、放送番組を電子
化した書き起こしファイルから、高頻度テキストファイ
ルが抽出される。次に、このテキストファイルに対応す
る放送番組音声データが音声データ抽出ステップで抽出
され、言語・音響モデル生成ステップで、これら高頻度
テキストファイルと音声データに基づいて、言語モデル
および音響モデルのそれぞれのモデルを適応化したモデ
ルが生成される。

【００１４】さらに、請求項４記載の言語・音響モデル
作成方法は、請求項３に記載の言語・音響モデル生成方
法において、前記高頻度テキスト抽出ステップは、出現
頻度の高い単語および言い回しに関するキーワードを用
いて、高頻度テキストファイルを抽出することを特徴と
する。

【００１５】この言語・音響モデル作成方法によれば、
高頻度テキスト抽出ステップにおいて、出現頻度の高い
単語および言い回しに関するキーワードが用いられるの
で、このキーワードに関連するテキストファイルが抽出
される。なお、出現頻度の高い単語および言い回しに関
するキーワードとは、例えば、ニュース等の放送番組中
に使用される解説口調、「ですね」「んです」等のこ
とである。

【００１６】さらにまた、請求項５記載の言語・音響モ
デル作成方法は、請求項４に記載の言語・音響モデル作
成方法において、前記出現頻度の高い単語および言い回
しに関するキーワードは、音声認識の対象となる対象音
声データに係るジャンル毎に複数種用意されていること
を特徴とする。

【００１７】この言語・音響モデル作成方法によれば、
キーワードが対象音声データに係るジャンル毎に用意さ
れる、つまり、対象音声データがスポーツに関するもの
であれば、そのスポーツに関するキーワードであり、音
楽に関するものであれば、その音楽に関するキーワード
である。

【００１８】また、請求項６記載の言語・音響モデル作
成装置は、放送番組の音声データとこの音声データが電
子化された書き起こしファイルとを記憶する記憶手段
と、前記書き起こしファイルの中から、話しことば特有
のテキストファイルを抽出する話しことばテキスト抽出
手段と、この話しことばテキスト抽出手段で抽出された
話しことば特有のテキストファイルに対応する前記放送
番組の音声データを抽出する音声データ抽出手段と、前
記話しことば特有のテキストファイルおよびこの話しこ
とば特有のテキストファイルに対応する音声データに基
づいて、音声認識に用いられる言語モデルおよび音響モ
デルのそれぞれのモデルを適応化したモデルを生成する
言語・音響モデル生成手段と、を備えることを特徴とす
る。

【００１９】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、話しことば
テキスト抽出手段によって、話しことば特有のテキスト
ファイルが抽出される。次に、このテキストファイルに
対応する放送番組音声データが音声データ抽出手段で抽
出され、言語・音響モデル生成手段で、これら話しこと
ば特有のテキストファイルと音声データに基づいて、言
語モデルおよび音響モデルのそれぞれのモデルを適応化
したモデルが生成される。

【００２０】また、請求項７記載の言語・音響モデル作
成装置は、請求項６に記載の言語・音響モデル生成装置
において、前記話しことばテキスト抽出手段は、話しこ
とば特有のキーワードを用いて、話しことば特有のテキ
ストファイルを抽出することを特徴とする。

【００２１】かかる構成によれば、話しことばテキスト
抽出手段において、話しことば特有のキーワードが用い
られるので、このキーワードに関連するテキストファイ
ルが抽出される。

【００２２】さらに、請求項８記載の言語・音響モデル
作成装置は、放送番組の音声データとこの音声データが
電子化された書き起こしファイルとを記憶する記憶手段
と、前記書き起こしファイルの中から、出現頻度の高い
単語および言い回しを含む高頻度テキストファイルを抽
出する高頻度テキスト抽出手段と、この高頻度テキスト
抽出手段で抽出された高頻度テキストファイルに対応す
る前記放送番組の音声データを抽出する音声データ抽出
手段と、前記高頻度テキストファイルおよびこの高頻度
テキストファイルに対応する音声データに基づいて、音
声認識に用いられる言語モデルおよび音響モデルのそれ
ぞれのモデルを適応化したモデルを生成する言語・音響
モデル生成手段と、を含むことを特徴とする。

【００２３】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、高頻度テキ
スト抽出手段によって、高頻度テキストファイルが抽出
される。次に、このテキストファイルに対応する放送番
組音声データが音声データ抽出手段で抽出され、言語・
音響モデル生成手段で、これら高頻度テキストファイル
と音声データに基づいて、言語モデルおよび音響モデル
のそれぞれのモデルを適応化したモデルが生成される。

【００２４】さらに、請求項９記載の言語・音響モデル
作成装置は、請求項８に記載の言語・音響モデル生成装
置において、前記高頻度テキスト抽出手段は、出現頻度
の高い単語および言い回しに関するキーワードを用い
て、高頻度テキストファイルを抽出することを特徴とす
る。

【００２５】かかる構成によれば、高頻度テキスト抽出
手段において、出現頻度の高い単語および言い回しに関
するキーワードが用いられるので、このキーワードに関
連するテキストファイルが抽出される。

【００２６】さらにまた、請求項１０記載の言語・音響
モデル作成装置は、請求項９に記載の言語・音響モデル
作成装置において、前記出現頻度の高い単語および言い
回しに関するキーワードは、音声認識の対象となる対象
音声データに係るジャンル毎に複数種用意されているこ
とを特徴とする。

【００２７】かかる構成によれば、キーワードが対象音
声データに係るジャンル毎に用意される、つまり、対象
音声データがスポーツに関するものであれば、そのスポ
ーツに関するキーワードであり、音楽に関するものであ
れば、その音楽に関するキーワードである。

【００２８】また、請求項１１記載の言語・音響モデル
作成プログラムは、コンピュータを、放送番組の音声デ
ータとこの音声データが電子化された書き起こしファイ
ルとを記憶する記憶手段、前記書き起こしファイルの中
から、話しことば特有のテキストファイルを抽出する話
しことばテキスト抽出手段、この話しことばテキスト抽
出手段で抽出された話しことば特有のテキストファイル
に対応する前記放送番組の音声データを抽出する音声デ
ータ抽出手段、前記話しことば特有のテキストファイル
およびこの話しことば特有のテキストファイルに対応す
る音声データに基づいて、音声認識に用いられる言語モ
デルおよび音響モデルのそれぞれのモデルを適応化した
モデルを生成する言語・音響モデル生成手段、として機
能させることを特徴とする。

【００２９】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、話しことば
テキスト抽出手段によって、話しことば特有のテキスト
ファイルが抽出される。次に、このテキストファイルに
対応する放送番組音声データが音声データ抽出手段で抽
出され、言語・音響モデル生成手段で、これら話しこと
ば特有のテキストファイルと音声データに基づいて、言
語モデルおよび音響モデルのそれぞれのモデルを適応化
したモデルが生成される。

【００３０】また、請求項１２記載の言語・音響モデル
作成プログラムは、請求項１１に記載の言語・音響モデ
ル生成プログラムにおいて、前記話しことばテキスト抽
出手段は、話しことば特有のキーワードを用いて、話し
ことば特有のテキストファイルを抽出することを特徴と
する。

【００３１】かかる構成によれば、話しことばテキスト
抽出手段において、話しことば特有のキーワードが用い
られるので、このキーワードに関連するテキストファイ
ルが抽出される。

【００３２】さらに、請求項１３記載の言語・音響モデ
ル作成プログラムは、コンピュータを、放送番組の音声
データとこの音声データが電子化された書き起こしファ
イルとを記憶する記憶手段、前記書き起こしファイルの
中から、出現頻度の高い単語および言い回しを含む高頻
度テキストファイルを抽出する高頻度テキスト抽出手
段、この高頻度テキスト抽出手段で抽出された高頻度テ
キストファイルに対応する前記放送番組の音声データを
抽出する音声データ抽出手段、前記高頻度テキストファ
イルおよびこの高頻度テキストファイルに対応する音声
データに基づいて、音声認識に用いられる言語モデルお
よび音響モデルのそれぞれのモデルを適応化したモデル
を生成する言語・音響モデル生成手段、として機能させ
ることを特徴とする。

【００３３】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、高頻度テキ
スト抽出手段によって、高頻度テキストファイルが抽出
される。次に、このテキストファイルに対応する放送番
組音声データが音声データ抽出手段で抽出され、言語・
音響モデル生成手段で、これら高頻度テキストファイル
と音声データに基づいて、言語モデルおよび音響モデル
のそれぞれのモデルを適応化したモデルが生成される。

【００３４】さらに、請求項１４記載の言語・音響モデ
ル作成プログラムは、請求項１３に記載の言語・音響モ
デル生成プログラムにおいて、前記高頻度テキスト抽出
手段は、出現頻度の高い単語および言い回しに関するキ
ーワードを用いて、高頻度テキストファイルを抽出する
ことを特徴とする。

【００３５】かかる構成によれば、高頻度テキスト抽出
手段において、出現頻度の高い単語および言い回しに関
するキーワードが用いられるので、このキーワードに関
連するテキストファイルが抽出される。

【００３６】さらにまた、請求項１５記載の言語・音響
モデル作成プログラムは、請求項１４に記載の言語・音
響モデル作成プログラムにおいて、前記出現頻度の高い
単語および言い回しに関するキーワードは、音声認識の
対象となる対象音声データに係るジャンル毎に複数種用
意されていることを特徴とする。

【００３７】かかる構成によれば、キーワードが対象音
声データに係るジャンル毎に用意される、つまり、対象
音声データがスポーツに関するものであれば、そのスポ
ーツに関するキーワードであり、音楽に関するものであ
れば、その音楽に関するキーワードである。

【００３８】

【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。（言語・音響モデル生成装置の構成）図１に言語・音響
モデル生成装置のブロック図を示す。この図１に示すよ
うに、言語・音響モデル生成装置１は、主制御部３と、
記憶部５と、表示部７と、入力部９と、外部装置接続部
１１とを備え、各々がデータバスで接続されて、構成さ
れている。

【００３９】言語・音響モデル生成装置１は、主に、話
しことばや解説口調を多く含んだ音声データを音声認識
する際に供される言語モデルおよび音響モデルを生成す
る装置である。主制御部３は、言語・音響モデル生成装
置１の制御を司るものであって、ＣＰＵ、メインメモリ
等によって構成され、話しことばテキスト抽出手段３ａ
と、高頻度テキスト抽出手段３ｂと、音声データ抽出手
段３ｃと、言語・音響モデル生成手段３ｄとを備えてい
る。

【００４０】話しことばテキスト抽出手段３ａは、記憶
部５に記憶されているキーワードファイルに格納されて
いる、話しことば特有のキーワードを選択（自動、装置
のユーザによる）し、このキーワードに基づいて、記憶
部５に記憶されている書き起こしファイルの中から当該
キーワードによってヒットした（キーワードに係る）話
しことば特有テキストファイルを抽出するプログラムで
ある。

【００４１】高頻度テキスト抽出手段３ｂは、記憶部５
に記憶されているキーワードファイルに格納されてい
る、出現頻度の高い単語および言い回しに関するキーワ
ードを選択（自動、装置のユーザによる）し、このキー
ワードに基づいて、記憶部５に記憶されている書き起こ
しファイルの中から当該キーワードによってヒットした
（キーワードに係る）高頻度テキストファイルを抽出す
るプログラムである。

【００４２】音声データ抽出手段３ｃは、記憶部５に記
憶されている音声データファイルの中から、話しことば
テキスト抽出手段３ａおよび高頻度テキスト抽出手段３
ｂによって抽出されたテキストファイルに対応する音声
データファイルを抽出するプログラムである。

【００４３】言語・音響モデル生成手段３ｄは、話しこ
とばテキスト抽出手段３ａ、高頻度テキスト抽出手段３
ｂによって抽出されたテキストファイルと、音声データ
抽出手段３ｃによって抽出された音声データファイルと
に基づいて、記憶部５に記憶されている既存の言語モデ
ルおよび音響モデルを、ＭＬＬＲとＭＡＰ推定によっ
て、適応化した新たな言語モデルおよび音響モデルを生
成するプログラムである。

【００４４】記憶部５は、大容量のハードディスク等に
よって構成され、キーワードファイル、書き起こしファ
イル、音声データファイルを記憶している。キーワード
ファイルは、会話中に多用される話しことば特有の単語
および出現頻度の高い単語および言い回しに関する単語
をキーワードとして、編集したファイルである。この実
施の形態では、キーワードファイルは、「２０００年
日本音響学会秋季研究発表会講演論文集１−５−
２２」を参照にして生成した。

【００４５】また、キーワードファイルは、音声認識す
る対象に則して、ファイリングされており、政治、スポ
ーツ、芸能、金融等にジャンル分けされている。音声認
識する対象にあわせて、これらのキーワードを選択すれ
ば、音声認識率（認識精度）を向上させることができ
る。

【００４６】書き起こしファイルは、放送番組中に交わ
された会話の書き起こしを電子化（テキストファイル）
したものを収集したデータベースである。この書き起こ
しファイルには、予め、放送前に用意しておかれた原稿
を朗読した部分と、出演者同士の話しことば、視聴者に
対し、番組内容を解説する（語りかける）ように発声さ
れた口語調（解説口調）部分とが含まれている。また、
書き起こしファイルは、それぞれの文章単位で一つのフ
ァイルに構成され、ニュース項目単位に区分けされたデ
ィレクトリに構成されている。なお、この実施の形態で
は、書き起こしファイルは、数年間分のニュース番組
（１９９７年６月〜２０００年９月まで）に基づいて、
生成されており、４０Ｋ項目４００Ｋ分（形態素解析済
み）のものである。

【００４７】また、形態素解析とは、ある文章を語（単
語）よりさらに小さい形態素のレベルまで分解して解析
することである。さらに、「語」とは単独で意味をもつ
最小の言語単位であり、「形態素」とは、単独で意味を
もたない最小の言語単位である。厳密にいえば、日本語
において、語と形態素間の分類はあいまいであり、日本
語の場合、名詞、動詞など文節の中心をなす自立語と、
助詞、助動詞等自立語に付属して使われる付属語（機能
語）とに分類されることが多い（電子情報通信ハンドブ
ックｐ２５３を参照）。

【００４８】音声データファイルは、書き起こしファイ
ルに対応した音声データを収集したデータベースであ
る。すなわち、数年間分のニュース番組中に放送された
放送音声を収録した、いわゆるニュース音声データベー
スである。表示部７は、ＣＲＴディスプレイ、液晶画面
等によって構成され、入力部９によって入力されたコマ
ンド等を表示するものである。

【００４９】入力部９は、キーボード、マウス等の入力
装置であって、言語・音響モデル生成装置１を操作する
際に、コマンド（命令）等を入力するものである。外部
装置接続部１１は、一般的なポート、バッファ等によっ
て構成され、生成された言語モデルおよび音響モデルを
外部装置に出力するためのものである。

【００５０】（言語・音響モデル生成装置の動作）次
に、言語・音響モデル生成装置１の動作を図２に示すフ
ローチャートを参照して説明する。なお、この動作の説
明では、話しことば特有のキーワードを用いて、話しこ
とば特有テキストファイルを検索し、この話しことば特
有テキストファイルに基づいた言語モデルおよび音響モ
デルを生成する場合を想定している。

【００５１】まず、言語・音響モデル装置１のユーザ
は、記憶部５に記憶されているキーワードファイルの一
覧を表示部７に表示させ、この中から、話しことば特有
のキーワードを選択する。なお、ユーザが話しことば特
有のキーワードを選択する場合、ユーザは所望個数、任
意のキーワードを選択することができる。

【００５２】そして、ユーザが選択した話しことば特有
のキーワードに基づいて、話しことばテキスト抽出手段
３ａによって、キーワード検索すると（Ｓ１）、話しこ
とば特有のテキストファイルがニュース項目単位或いは
文章単位で抽出される（Ｓ２）。なお、話しことば特有
のキーワードから話しことば特有のテキストファイルを
抽出する際に、キーワード間の検索設定、“ｏｒ”（少
なくとも１個のキーワードを含む）、“ａｎｄ”（全て
のキーワードを含む）をユーザは選ぶことができる。

【００５３】さらに、言語・音響モデル生成装置１の音
声データ抽出手段３ｃによって、抽出された話しことば
特有のテキストファイル（書き起こしファイル）に対応
する音声データが、記憶部５に記憶されている音声デー
タファイルの中から抽出される（Ｓ３）。

【００５４】そして、言語・音響モデル生成手段３ｄに
よって、まず、話しことばテキスト抽出手段３ａにより
抽出された話しことばテキストファイルおよび音声デー
タ抽出手段３ｂにより抽出された音声データから、ｔｒ
ｉｇｒａｍのカウントファイルが生成される。そして、
このカウントファイルにＮ倍の重み付けがなされ（適応
化）、記憶部５に記憶されている既存の言語・音響モデ
ルデータ（図示せず）に、足し合わされて新たな言語モ
デルおよび音響モデルが生成される（Ｓ４）。なお、既
存の言語モデルおよび音響モデルは、この実施の形態で
は、長い期間で収集された大量のニュース原稿（長期間
ニュース原稿）に基づいて生成されたものである。

【００５５】ここで、ｔｒｉｇｒａｍ（三つ組モデル）
について補足しておく。Ｗを自立した単語の集合、
ｗ₁、ｗ₂、ｗ₃・・・が各単語とすると、Ｗ＝ｗ₁、
ｗ₂、ｗ₃・・・の生起確率Ｐ（Ｗ）は数１で与えられ
る。

【００５６】

【数１】

【００５７】これを２重マルコフ過程で近似すると、数
２のようになる。

【００５８】

【数２】

【００５９】（ｗ_i-2，ｗ_i-1）の二つ組を１状態に対応
させれば単純マルコフ過程になる。数２の右辺の確率
は、数３のように二つ組（ｄｉ−ｇｒａｍ）と三つ組
（ｔｒｉｇｒａｍ）の出現確率Ｃ（ｗ_i-2，ｗ_i-1）とＣ
（ｗ_i-2，ｗ_i-1，ｗ_i）の比に推定できる。

【００６０】

【数３】（より詳しくは、中川「確率モデルによる音声認識」電
子情報通信学会ｐｐ１０９−１１９を参照）

【００６１】（言語・音響モデルの生成例、このモデル
に基づいた音声認識の結果）次に、言語・音響モデル生
成装置１によって生成された、具体的な言語モデルおよ
び音響モデルの例と、これらのモデルを利用して、音声
認識した結果を説明する。ここでは、言語・音響モデル
生成装置１によって生成される言語モデルの生成の流れ
について説明し、生成された言語モデルによって、ニュ
ース番組中に交わされる解説口調を音声認識する場合に
ついて説明する。

【００６２】ニュース音声データベース（「１９９９年
日本音響学会春季研究発表会講演論文集２−Ｑ−
９」；ここでは音声データファイルおよび書き起こしフ
ァイルに相当）は、ニュース番組の放送音声を収録した
音声データファイルと、その放送音声に対応する書き起
こしファイルとを含んで構築されている。音声データフ
ァイルおよび書き起こしファイルは、それぞれ文章単位
で一つのファイルに分割されニュース項目単位に分割さ
れたディレクトリに記憶されている。

【００６３】ニュース解説の発話内容には、特有の言語
的特徴（口語、解説口調独特の特徴）がある（「２００
０年日本音響学会秋季研究発表会講演論文集１
−５−２２」参照）。そのうち、図３に示すように、
「〜ですね」「〜んです」「けれど、けど」「ちょっ
と」という表現を、キーワードとして利用し、高頻度テ
キスト抽出手段３ｂによって、ニュース解説の特徴を含
むテキストファイルを抽出する。

【００６４】つまり、ニュース音声データベースに含ま
れている書き起こしファイルの中で、図３に示す４つの
キーワードとマッチする表現を含む書き起こしファイル
を、ニュース項目単位で抽出する。より具体的に説明す
ると、１９９７年６月〜２０００年９月に放送されたニ
ュース番組の書き起こし４０Ｋ項目４００Ｋ文（形態素
解析済み）を用意しておき、図３に示したキーワード１
〜４の“ｏｒ”（少なくとも１個のキーワードを含む）
により検索を実行した。すると、３Ｋ項目（８．０
％）、１０２Ｋ文（２５．５％）が抽出された。この抽
出された高頻度テキストファイルの詳細をみると、口語
調の表現が多く含まれており、特に、ニュース解説、対
談、中継レポートを含む項目の書き起こしファイルが多
く抽出される傾向があった。

【００６５】次に、図３に示したキーワードに基づい
て、高頻度テキスト抽出手段３ｂによって抽出された高
頻度テキストファイルに対応する音声データファイル
を、音声データ抽出手段３ｃによって抽出する。そし
て、この音声データファイルを用いて、言語・音響モデ
ル生成手段３ｄによって、記憶部５に記憶されている既
存の音響モデルを、ニュース解説の音声認識に適すよう
に適応化する。適応化には、ＭＬＬＲとＭＡＰ推定とい
った手法を用いて行った。

【００６６】一方、図３に示したキーワードに基づい
て、高頻度テキスト抽出手段３ｂによって抽出された高
頻度テキストファイルを用いて、言語・音響モデル生成
手段３ｄによって、記憶部５に記憶されている既存の言
語モデルを適応化する。より具体的には、まず、長い期
間で収集された大量のニュース原稿（長期間ニュース原
稿）に対して、放送直前に得られた少量のニュース原稿
（最新ニュース原稿）により適応化を行い、言語モデル
（時期依存言語モデル；時期依存言語モデルの詳細は、
小林他「ニュース音声認識のための時期依存言語モデ
ル」情報処理学会論文誌（１９９９．４）ｐｐ１４２１
−１４２９を参照）を作成しておく。

【００６７】そして、図３に示したキーワードを含む項
目により抽出した高頻度テキストファイルを用意し、ｔ
ｒｉｇｒａｍのカウントファイルを作成し、これをＬＭ
−ａｄｐｔ（図７を参照、後記する）を生成したｔｒｉ
ｇｒａｍのカウントファイルに対してＮ倍の重みをつけ
て足し合わせ、新たな言語モデル（ＬＭ−ｍｉｘＮ）を
生成する。

【００６８】次に、生成した新たな言語モデル（ＬＭ−
ｍｉｘＮ）および新たな音響モデル（ＡＭ−ａｄｐｔ１
〜５）を用いて、ニュース番組中に交わされた放送音声
を認識した認識結果について図４から図７を参照して説
明する。まず、図４に、音響モデルの諸元を示す。音響
モデルは、サンプリング周波数１６ｋｈｚでサンプリン
グし、分析窓を２５ｍｓのハミング窓とし、フレーム周
期を１０ｍｓとした。また、分析パラメータは１２次元
ＭＦＣＣと対数パワーとし、それぞれの１次、２次回帰
係数として、計３９次元（３９要素）とした。また、Ｈ
ＭＭ（隠れマルコフモデル）は、状態共有化８混合分布
ｔｒｉｐｈｏｎｅを用いた。ｔｒｉｐｈｏｎｅのモデル
数は３１０４とし、状態数は１９９３とした。学習デー
タは、男性アナウンサ（クリーン）であって、１２４Ｋ
文、３８３時間である。

【００６９】また、図５に、適応した音響モデルを示
す。モデル名ＡＭ−ａｄｐｔ１は、２０００年３月〜７
月に放送されたニュース解説音声を人手で抽出した２１
９文、０．４時間分を適応データとして音響モデルを生
成したものである。モデル名ＡＭ−ａｄｐｔ２は、２０
００年６月〜９月に放送された音声全てによる５５６６
文、１５時間分を適応データとして音響モデルを生成し
たものである。モデル名ＡＭ−ａｄｐｔ３は、２０００
年６月〜９月のニュースより、そのニュースの書き起こ
しに図３のキーワードを含む項目の音声を自動抽出した
６６８文、１．３時間分を適応データとして音響モデル
を生成したものである。モデル名ＡＭ−ａｄｐｔ４は、
ＡＭ−ａｄｐｔ１とＡＭ−ａｄｐｔ３で用いた適応デー
タの和集合である８２６文、１．６時間分を適応データ
として音響モデルを生成したものである。モデル名ＡＭ
−ａｄｐｔ５は、ＡＭ−ａｄｐｔ４と同一の音声により
適応化、母音、撥音および半母音／ｒ／のＨＭＭに状態
スキップを許容して音響モデルを生成したものである。

【００７０】図６に、ニュース番組中に交わされた放送
音声を認識した認識結果（音響モデルの違いによる比
較）を示す。この図６において、テストセット（実験素
材）には、２０００年１０月〜２００１年１月に放送さ
れた特定話者（男性アナウンサー１名）によるニュース
解説音声１８８文、４７５５単語を用いた。また、既存
の言語モデルには、１９９１年４月〜２０００年９月の
ニュースの原稿と書き起こし２．１Ｍ文より学習した語
彙サイズ２０ＫのＮ−ｇｒａｍモデル（ＬＭ−ｂａｓ
ｅ）を用いた。この図６に示すように、ＡＭ−ｂａｓｅ
（すべての音声を適応化した音響モデル）よりもＡＭ−
ａｄｐｔ１〜５の音響モデルを用いた方が単語正解精度
ＡＣＣ（％）は高い値が得られる。つまり、すべての音
声を適応化に用いるよりも、図３に示すようなキーワー
ドを利用して抽出した音声のみを用いた方がよい認識結
果が得られた。

【００７１】また、図７に、ニュース番組中に交わされ
た放送音声を認識した認識結果（言語モデルの違いによ
る比較）を示す。ＬＭ−ｂａｓｅを生成したテキストフ
ァイルを「長期間ニュース原稿」とし、ニュース番組放
送６時間前〜放送直前に得られたニュース原稿（平均６
５７文）を「最新ニュース原稿」として、テストセット
の放送日別に時期依存言語モデルＬＭ−ａｄｐｔを作成
した。

【００７２】さらに、１９９７年６月〜２０００年９月
に放送されたニュース番組の書き起こしファイル４００
Ｋ文の中から、図３に示すキーワードを含む項目より抽
出した１０２Ｋ文を用意し、ｔｒｉｇｒａｍのカウント
ファイルを作成した。そして、これをＬＭ−ａｄｐｔを
生成したｔｒｉｇｒａｍのカウントファイルに対してＮ
倍の重みをつけて足し合わせた、新たな言語モデルＬＭ
−ｍｉｘＮを生成した。なお、語彙はＬＭ−ａｄｐｔと
共通とした。

【００７３】図７は、これらの言語モデルのテストセッ
トパープレキシティー（ＰＰ；複雑度）、ｔｒｉｇｒａ
ｍのヒット率（ＨＩＴ（％））、未知語（ＯＯＶ
（％））および認識実験を行って得られた単語正解精度
（ＡＣＣ（％））を図示したものである。この図７に示
すように、ＬＭ−ｍｉｘ１０のとき、ＰＰが最も小さく
なり、ＬＭ−ｍｉｘ３０のとき、ＡＣＣ（認識率に相
当）が最も高くなる。ＬＭ−ａｄｐｔを用いる場合に比
べ、１．１％の改善が認められた。

【００７４】この実施の形態では以下の効果を奏す。記
憶部５に記憶されている書き起こしファイルの中から、
話しことばテキスト抽出手段３ａ（高頻度テキスト抽出
手段３ｂ）によって、話しことば特有のテキストファイ
ル（高頻度テキストファイル）が抽出される。次に、こ
のテキストファイルに対応する放送番組音声データが音
声データ抽出手段３ｃで抽出され、言語・音響モデル生
成手段３ｄで、これら話しことば特有のテキストファイ
ルと音声データに基づいて、言語モデルおよび音響モデ
ルのそれぞれのモデルを適応化したモデルが生成され
る。このモデルを用いて、ニュース解説を音声認識した
認識結果からも明らかなように、生成された言語モデル
および音響モデルは、単語正解精度（認識精度）を上昇
させる。つまり、このモデルを音声認識時に用いれば、
話しことばの認識精度を向上させることができる。

【００７５】また、話しことばテキスト抽出手段３ａに
おいて、話しことば特有のキーワードが用いられるの
で、このキーワードに関連するテキストファイルが抽出
される。このため、キーワードを選択することによっ
て、音声認識する対象に応じた言語モデルおよび音響モ
デルを任意に生成することができる。

【００７６】或いは、高頻度テキスト抽出手段３ｂにお
いて、話しことば特有のキーワードが用いられるので、
このキーワードに関連するテキストファイルが抽出され
る。このため、キーワードを選択することによって、音
声認識する対象に応じた言語モデルおよび音響モデルを
任意に生成することができる。

【００７７】さらに、キーワードファイルは、音声認識
する対象に則して、ファイリングされており、政治、ス
ポーツ、芸能、金融等にジャンル分けされている。音声
認識する対象にあわせて、これらのキーワードを選択す
れば、音声認識率（認識精度）を向上させることができ
る。

【００７８】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。例え
ば、言語・音響モデル生成装置１で実現されている各構
成の処理を、一つずつの工程（ステップ）とみなした言
語・音響モデル生成方法と捉えることも可能である。こ
の場合、言語・音響モデル生成装置１で得られた効果と
同様な効果が得られる。

【００７９】また、言語・音響モデル生成装置１におけ
る各構成の処理を、汎用のプログラムで記述した言語・
音響モデル生成プログラムとみなすことも可能である。
この場合も言語・音響モデル生成装置１で得られた効果
と同様な効果が得られる。さらに、このプログラムを一
般的な記憶媒体に記憶させ、流通させることも可能であ
る。

【００８０】

【発明の効果】請求項１記載の発明によれば、話しこと
ばテキスト抽出ステップ、音声データ抽出ステップで抽
出された、話しことば特有のテキストファイルと音声デ
ータに基づいて、言語・音響モデル生成ステップで、言
語モデルおよび音響モデルのそれぞれのモデルを適応化
したモデルが生成される。このため、このモデルを用い
れば、音声認識時の話しことばが多く含まれた音声の認
識精度を向上させることができる。

【００８１】請求項２記載の発明によれば、話しことば
テキスト抽出ステップにおいて、話しことば特有のキー
ワードが用いられるので、このキーワードに関連するテ
キストファイルが抽出され、このテキストファイルを用
いて、言語モデルおよび音響モデルを生成し、さらに、
このモデルを用いて音声認識すれば、音声認識時の話し
ことばが多く含まれた音声の認識精度を向上させること
ができる。

【００８２】請求項３記載の発明によれば、高頻度テキ
スト抽出ステップ、音声データ抽出ステップで抽出され
た、高頻度テキストファイルと音声データに基づいて、
言語・音響モデル生成ステップで、言語モデルおよび音
響モデルのそれぞれのモデルを適応化したモデルが生成
される。このため、このモデルを用いれば、音声認識時
に、出現頻度の高い単語や言い回しを多く含んだ音声の
認識精度を向上させることができる。

【００８３】請求項４記載の発明によれば、高頻度テキ
スト抽出ステップにおいて、出現頻度の高い単語および
言い回しに関するキーワードが用いられるので、このキ
ーワードに関連するテキストファイルが抽出され、この
テキストファイルを用いて、言語モデルおよび音響モデ
ルを生成し、さらに、このモデルを用いて音声認識すれ
ば、音声認識時の出現頻度の高い単語や言い回しが多く
含まれた音声の認識精度を向上させることができる。

【００８４】請求項５記載の発明によれば、キーワード
が対象音声データに係るジャンル毎に用意されるので、
音声認識する対象にあわせて、これらのキーワードを選
択すれば、音声認識率（認識精度）を向上させることが
できる。

【００８５】請求項６記載の発明によれば、話しことば
テキスト抽出手段、音声データ抽出手段で抽出された話
しことば特有のテキストファイルと音声データに基づい
て、言語・音響モデル生成手段で、言語モデルおよび音
響モデルのそれぞれのモデルを適応化したモデルが生成
される。このため、このモデルを用いれば、音声認識時
の話しことばが多く含まれた音声の認識精度を向上させ
ることができる。

【００８６】請求項７記載の発明によれば、話しことば
テキスト抽出手段において、話しことば特有のキーワー
ドが用いられるので、このキーワードに関連するテキス
トファイルが抽出され、このテキストファイルを用い
て、言語モデルおよび音響モデルを生成し、さらに、こ
のモデルを用いて音声認識すれば、音声認識時の話しこ
とばが多く含まれた音声の認識精度を向上させることが
できる。

【００８７】請求項８記載の発明によれば、高頻度テキ
スト抽出手段、音声データ抽出手段で抽出された高頻度
テキストファイルと音声データに基づいて、言語・音響
モデル生成手段で、言語モデルおよび音響モデルのそれ
ぞれのモデルを適応化したモデルが生成される。このた
め、このモデルを用いれば、音声認識時に、出現頻度の
高い単語や言い回しを多く含んだ音声の認識精度を向上
させることができる。

【００８８】請求項９記載の発明によれば、高頻度テキ
スト抽出手段において、出現頻度の高い単語および言い
回しに関するキーワードが用いられるので、このキーワ
ードに関連するテキストファイルが抽出され、このテキ
ストファイルを用いて、言語モデルおよび音響モデルを
生成し、さらに、このモデルを用いて音声認識すれば、
音声認識時の出現頻度の高い単語や言い回しが多く含ま
れた音声の認識精度を向上させることができる。

【００８９】請求項１０記載の発明によれば、キーワー
ドが対象音声データに係るジャンル毎に用意されるの
で、音声認識する対象にあわせて、これらのキーワード
を選択すれば、音声認識率（認識精度）を向上させるこ
とができる。

【００９０】請求項１１記載の発明によれば、言語・音
響モデル生成プログラムにおいて、話しことばテキスト
抽出手段、音声データ抽出手段で抽出された話しことば
特有のテキストファイルと音声データに基づいて、言語
・音響モデル生成手段で、言語モデルおよび音響モデル
のそれぞれのモデルを適応化したモデルが生成される。
このため、このモデルを用いれば、音声認識時の話しこ
とばが多く含まれた音声の認識精度を向上させることが
できる。

【００９１】請求項１２記載の発明によれば、言語・音
響モデル生成プログラムにおいて、話しことばテキスト
抽出手段にて、話しことば特有のキーワードが用いられ
るので、このキーワードに関連するテキストファイルが
抽出され、このテキストファイルを用いて、言語モデル
および音響モデルを生成し、さらに、このモデルを用い
て音声認識すれば、音声認識時の話しことばが多く含ま
れた音声の認識精度を向上させることができる。

【００９２】請求項１３記載の発明によれば、言語・音
響モデル生成プログラムにおいて、高頻度テキスト抽出
手段、音声データ抽出手段で抽出された高頻度テキスト
ファイルと音声データに基づいて、言語・音響モデル生
成手段で、言語モデルおよび音響モデルのそれぞれのモ
デルを適応化したモデルが生成される。このため、この
モデルを用いれば、音声認識時に、出現頻度の高い単語
や言い回しを多く含んだ音声の認識精度を向上させるこ
とができる。

【００９３】請求項１４記載の発明によれば、言語・音
響モデル生成プログラムにおいて、高頻度テキスト抽出
手段にて、出現頻度の高い単語および言い回しに関する
キーワードが用いられるので、このキーワードに関連す
るテキストファイルが抽出され、このテキストファイル
を用いて、言語モデルおよび音響モデルを生成し、さら
に、このモデルを用いて音声認識すれば、音声認識時の
出現頻度の高い単語や言い回しが多く含まれた音声の認
識精度を向上させることができる。

【００９４】請求項１５記載の発明によれば、キーワー
ドが対象音声データに係るジャンル毎に用意されるの
で、音声認識する対象にあわせて、これらのキーワード
を選択すれば、音声認識率（認識精度）を向上させるこ
とができる。

【図面の簡単な説明】

【図１】本発明による一実施の形態である言語・音響モ
デル生成装置のブロック図である。

【図２】言語・音響モデル生成装置の動作を説明したフ
ローチャートである。

【図３】言語・音響モデル生成装置に用いられるキーワ
ードをまとめた図である。

【図４】音響モデルの諸元を説明した図である。

【図５】適応した音響モデルを説明した図である。

【図６】音響モデルの違いによる単語正解精度（認識精
度）を比較した図である。

【図７】言語モデルの違いによる単語正解精度（認識精
度）を比較した図である。

【符号の説明】

１言語・音響モデル生成装置３主制御部３ａ話しことばテキスト抽出手段３ｂ高頻度テキスト抽出手段３ｃ音声データ抽出手段３ｄ言語・音響モデル生成手段５記憶部７表示部９入力部１１外部装置接続部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/10 Ｇ１０Ｌ 3/00 ５３１Ｗ (72)発明者佐藤庄衛東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者今井亨東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内 (72)発明者安藤彰男東京都世田谷区砧一丁目10番11号日本放送協会放送技術研究所内Ｆターム(参考） 5B091 AA15 BA03 BA16 CA14 CA21 CB12 CB21 CD03 CD15 EA10 5D015 GG00 HH00 KK02

Claims

【特許請求の範囲】

【請求項１】放送番組の音声データが電子化された書
き起こしファイルの中から、話しことば特有のテキスト
ファイルを抽出する話しことばテキスト抽出ステップ
と、この話しことばテキスト抽出ステップで抽出された話し
ことば特有のテキストファイルに対応する前記放送番組
の音声データを抽出する音声データ抽出ステップと、前記話しことば特有のテキストファイルおよびこの話し
ことば特有のテキストファイルに対応する音声データに
基づいて、音声認識に用いられる言語モデルおよび音響
モデルのそれぞれのモデルを適応化したモデルを生成す
る言語・音響モデル生成ステップと、を含むことを特徴
とする言語・音響モデル作成方法。
【請求項２】前記話しことばテキスト抽出ステップ
は、話しことば特有のキーワードを用いて、話しことば
特有のテキストファイルを抽出することを特徴とする請
求項１に記載の言語・音響モデル生成方法。
【請求項３】放送番組の音声データが電子化された書
き起こしファイルの中から、出現頻度の高い単語および
言い回しを含む高頻度テキストファイルを抽出する高頻
度テキスト抽出ステップと、この高頻度テキスト抽出ステップで抽出された高頻度テ
キストファイルに対応する前記放送番組の音声データを
抽出する音声データ抽出ステップと、前記高頻度テキストファイルおよびこの高頻度テキスト
ファイルに対応する音声データに基づいて、音声認識に
用いられる言語モデルおよび音響モデルのそれぞれのモ
デルを適応化したモデルを生成する言語・音響モデル生
成ステップと、を含むことを特徴とする言語・音響モデ
ル作成方法。
【請求項４】前記高頻度テキスト抽出ステップは、出
現頻度の高い単語および言い回しに関するキーワードを
用いて、高頻度テキストファイルを抽出することを特徴
とする請求項３に記載の言語・音響モデル生成方法。
【請求項５】前記出現頻度の高い単語および言い回し
に関するキーワードは、音声認識の対象となる対象音声
データに係るジャンル毎に複数種用意されていることを
特徴とする請求項４に記載の言語・音響モデル作成方
法。
【請求項６】放送番組の音声データとこの音声データ
が電子化された書き起こしファイルとを記憶する記憶手
段と、前記書き起こしファイルの中から、話しことば特有のテ
キストファイルを抽出する話しことばテキスト抽出手段
と、この話しことばテキスト抽出手段で抽出された話しこと
ば特有のテキストファイルに対応する前記放送番組の音
声データを抽出する音声データ抽出手段と、前記話しことば特有のテキストファイルおよびこの話し
ことば特有のテキストファイルに対応する音声データに
基づいて、音声認識に用いられる言語モデルおよび音響
モデルのそれぞれのモデルを適応化したモデルを生成す
る言語・音響モデル生成手段と、を備えることを特徴と
する言語・音響モデル作成装置。
【請求項７】前記話しことばテキスト抽出手段は、話
しことば特有のキーワードを用いて、話しことば特有の
テキストファイルを抽出することを特徴とする請求項６
に記載の言語・音響モデル生成装置。
【請求項８】放送番組の音声データとこの音声データ
が電子化された書き起こしファイルとを記憶する記憶手
段と、前記書き起こしファイルの中から、出現頻度の高い単語
および言い回しを含む高頻度テキストファイルを抽出す
る高頻度テキスト抽出手段と、この高頻度テキスト抽出手段で抽出された高頻度テキス
トファイルに対応する前記放送番組の音声データを抽出
する音声データ抽出手段と、前記高頻度テキストファイルおよびこの高頻度テキスト
ファイルに対応する音声データに基づいて、音声認識に
用いられる言語モデルおよび音響モデルのそれぞれのモ
デルを適応化したモデルを生成する言語・音響モデル生
成手段と、を含むことを特徴とする言語・音響モデル作
成装置。
【請求項９】前記高頻度テキスト抽出手段は、出現頻
度の高い単語および言い回しに関するキーワードを用い
て、高頻度テキストファイルを抽出することを特徴とす
る請求項８に記載の言語・音響モデル生成装置。
【請求項１０】前記出現頻度の高い単語および言い回
しに関するキーワードは、音声認識の対象となる対象音
声データに係るジャンル毎に複数種用意されていること
を特徴とする請求項９に記載の言語・音響モデル作成装
置。
【請求項１１】コンピュータを、放送番組の音声データとこの音声データが電子化された
書き起こしファイルとを記憶する記憶手段、前記書き起こしファイルの中から、話しことば特有のテ
キストファイルを抽出する話しことばテキスト抽出手
段、この話しことばテキスト抽出手段で抽出された話しこと
ば特有のテキストファイルに対応する前記放送番組の音
声データを抽出する音声データ抽出手段、前記話しことば特有のテキストファイルおよびこの話し
ことば特有のテキストファイルに対応する音声データに
基づいて、音声認識に用いられる言語モデルおよび音響
モデルのそれぞれのモデルを適応化したモデルを生成す
る言語・音響モデル生成手段、として機能させることを
特徴とする言語・音響モデル作成プログラム。
【請求項１２】前記話しことばテキスト抽出手段は、
話しことば特有のキーワードを用いて、話しことば特有
のテキストファイルを抽出することを特徴とする請求項
１１に記載の言語・音響モデル生成プログラム。
【請求項１３】コンピュータを、放送番組の音声データとこの音声データが電子化された
書き起こしファイルとを記憶する記憶手段、前記書き起こしファイルの中から、出現頻度の高い単語
および言い回しを含む高頻度テキストファイルを抽出す
る高頻度テキスト抽出手段、この高頻度テキスト抽出手段で抽出された高頻度テキス
トファイルに対応する前記放送番組の音声データを抽出
する音声データ抽出手段、前記高頻度テキストファイルおよびこの高頻度テキスト
ファイルに対応する音声データに基づいて、音声認識に
用いられる言語モデルおよび音響モデルのそれぞれのモ
デルを適応化したモデルを生成する言語・音響モデル生
成手段、として機能させることを特徴とする言語・音響
モデル作成プログラム。
【請求項１４】前記高頻度テキスト抽出手段は、出現
頻度の高い単語および言い回しに関するキーワードを用
いて、高頻度テキストファイルを抽出することを特徴と
する請求項１３に記載の言語・音響モデル生成プログラ
ム。
【請求項１５】前記出現頻度の高い単語および言い回
しに関するキーワードは、音声認識の対象となる対象音
声データに係るジャンル毎に複数種用意されていること
を特徴とする請求項１４に記載の言語・音響モデル作成
プログラム。