JP2003099086A - 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム - Google Patents

言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Info

Publication number
JP2003099086A
JP2003099086A JP2001290351A JP2001290351A JP2003099086A JP 2003099086 A JP2003099086 A JP 2003099086A JP 2001290351 A JP2001290351 A JP 2001290351A JP 2001290351 A JP2001290351 A JP 2001290351A JP 2003099086 A JP2003099086 A JP 2003099086A
Authority
JP
Japan
Prior art keywords
language
acoustic model
text
file
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001290351A
Other languages
English (en)
Inventor
Shinichi Honma
真一 本間
Akio Kobayashi
彰夫 小林
Shoe Sato
庄衛 佐藤
Toru Imai
亨 今井
Akio Ando
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001290351A priority Critical patent/JP2003099086A/ja
Publication of JP2003099086A publication Critical patent/JP2003099086A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 話しことばの認識精度を向上させる言語・音
響モデル作成方法および言語・音響モデル作成装置なら
びに言語・音響モデル作成プログラムを提供する。 【解決手段】 言語・音響モデル作成装置1は、放送番
組の音声データおよび当該番組が電子化された書き起こ
しファイルを記憶する記憶手段5と、書き起こしファイ
ルの中から、話しことば特有のテキストファイルを抽出
する話しことばテキスト抽出手段3aと、この話しこと
ばテキスト抽出手段3aで抽出された話しことば特有の
テキストファイルに対応する放送番組の音声データを抽
出する音声データ抽出手段3cと、話しことば特有のテ
キストファイルおよびこのファイルに対応する音声デー
タに基づいて、音声認識に用いられる言語モデルおよび
音響モデルのそれぞれのモデルを適応化したモデルを生
成する言語・音響モデル生成手段3dと、を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、主に話しことば等
の自発音声を、音声認識する際に用いられる言語・音響
モデルを生成する言語・音響モデル作成方法および言語
・音響モデル作成装置ならびに言語・音響モデル作成プ
ログラムに関する。
【0002】
【従来の技術】一般に、多くの音声認識では、複数の者
が発声した、文法の正確な「書きことば」(音声デー
タ)を大量に蓄積した音声データベース(コーパス)に
基づいて、音声認識に用いられる言語モデルおよび音響
モデルが生成されている。
【0003】なお、一例として、文法の正確な「書きこ
とば」には、放送番組、特にニュース番組の原稿等が挙
げられる。また、音声認識に用いられる言語モデルと
は、大量の音声データを利用して統計的計算手法によっ
て求められた、音声データ中の単語間のつながり度合い
を示す確率モデルの一種である。また、音響モデルと
は、大量の音声データの波形パターンに基づいて求めら
れた、音声データ中の波形パターンと単語との関係を示
す確率モデルの一種である。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
音声認識では、「話しことば」特有の助詞、助動詞等の
機能語を多く含んだ音声データを音声認識する場合、用
いられる言語モデルおよび音響モデルが大量の「書きこ
とば」の音声データベースに基づいて生成されているの
で、適応し難く、認識精度(音声認識の性能)が低くな
るという問題がある。
【0005】また、「話しことば」の音声データと、こ
の「話しことば」をテキストファイルにした書き起こし
ファイルとを大量に収集して、これらを従来の音声認識
に用いられている言語モデルおよび音響モデルの参考に
することも想定されるが、「話しことば」の音声データ
を大量に収集することは困難であるという問題がある。
【0006】本発明の目的は前記した従来の技術が有す
る課題を解消し、話しことばの認識精度を向上させる言
語・音響モデル作成方法および言語・音響モデル作成装
置ならびに言語・音響モデル作成プログラムを提供する
ことにある。
【0007】
【課題を解決するための手段】本発明は、目的を達成す
るため、以下に示す構成とした。請求項1記載の言語・
音響モデル作成方法は、放送番組の音声データおよび当
該番組が電子化された書き起こしファイルの中から、話
しことば特有のテキストファイルを抽出する話しことば
テキスト抽出ステップと、この話しことばテキスト抽出
ステップで抽出された話しことば特有のテキストファイ
ルに対応する前記放送番組の音声データを抽出する音声
データ抽出ステップと、前記話しことば特有のテキスト
ファイルおよびこの話しことば特有のテキストファイル
に対応する音声データに基づいて、音声認識に用いられ
る言語モデルおよび音響モデルのそれぞれのモデルを適
応化したモデルを生成する言語・音響モデル生成ステッ
プと、を含むことを特徴とする。
【0008】この言語・音響モデル作成方法によれば、
まず、話しことばテキスト抽出ステップで、すでに放送
された放送番組を電子化した書き起こしファイルから、
話しことば特有のテキストファイルが抽出される。この
話しことば特有のテキストファイルは、話しことば特有
の表現、例えば、不要語(文頭の間投詞等)「で」、
「え」や指示のための表現「この」、「こちらの」等を
多く含んだテキストファイルである。次に、このテキス
トファイルに対応する放送番組の音声データが音声デー
タ抽出ステップで抽出され、言語・音響モデル生成ステ
ップで、これら話しことば特有のテキストファイルと音
声データに基づいて、言語モデルおよび音響モデルのそ
れぞれのモデルを適応化したモデルが生成される。
【0009】なお、言語モデルおよび音響モデルの適応
化とは、一般的な最尤線形回帰法(Maximum L
ikelihood Linear Regressi
on;MLLR)と最大事後確率推定法(maximu
m a posteriori probabilit
y estimation;MAP)を用いて、抽出し
た話しことば特有のテキストファイルと音声データを重
み付けし、既存の言語モデルおよび音響モデルに、重み
付けしたテキストファイルおよび音声データを含めて、
新たな言語モデルおよび音響モデルを求めることであ
る。
【0010】また、請求項2記載の言語・音響モデル作
成方法は、請求項1に記載の言語・音響モデル生成方法
において、前記話しことばテキスト抽出ステップは、話
しことば特有のキーワードを用いて、話しことば特有の
テキストファイルを抽出することを特徴とする。
【0011】この言語・音響モデル作成方法によれば、
話しことばテキスト抽出ステップにおいて、話しことば
特有のキーワードが用いられるので、このキーワードに
関連するテキストファイルが抽出される。なお、話しこ
とば特有のキーワードとは、会話の中で使用される、口
語表現独特の単語、或いは、文法上、必要(重要)でな
い単語であって、例えば、「ずうっと」、「ちょっ
と」、「えー」等のことである。
【0012】さらに、請求項3記載の言語・音響モデル
作成方法は、放送番組の音声データが電子化された書き
起こしファイルの中から、出現頻度の高い単語および言
い回しを含む高頻度テキストファイルを抽出する高頻度
テキスト抽出ステップと、この高頻度テキスト抽出ステ
ップで抽出された高頻度テキストファイルに対応する前
記放送番組の音声データを抽出する音声データ抽出ステ
ップと、前記高頻度テキストファイルおよびこの高頻度
テキストファイルに対応する音声データに基づいて、音
声認識に用いられる言語モデルおよび音響モデルのそれ
ぞれのモデルを適応化したモデルを生成する言語・音響
モデル生成ステップと、を含むことを特徴とする。
【0013】この言語・音響モデル作成方法によれば、
まず、高頻度テキスト抽出ステップで、放送番組を電子
化した書き起こしファイルから、高頻度テキストファイ
ルが抽出される。次に、このテキストファイルに対応す
る放送番組音声データが音声データ抽出ステップで抽出
され、言語・音響モデル生成ステップで、これら高頻度
テキストファイルと音声データに基づいて、言語モデル
および音響モデルのそれぞれのモデルを適応化したモデ
ルが生成される。
【0014】さらに、請求項4記載の言語・音響モデル
作成方法は、請求項3に記載の言語・音響モデル生成方
法において、前記高頻度テキスト抽出ステップは、出現
頻度の高い単語および言い回しに関するキーワードを用
いて、高頻度テキストファイルを抽出することを特徴と
する。
【0015】この言語・音響モデル作成方法によれば、
高頻度テキスト抽出ステップにおいて、出現頻度の高い
単語および言い回しに関するキーワードが用いられるの
で、このキーワードに関連するテキストファイルが抽出
される。なお、出現頻度の高い単語および言い回しに関
するキーワードとは、例えば、ニュース等の放送番組中
に使用される解説口調、「です ね」「んです」等のこ
とである。
【0016】さらにまた、請求項5記載の言語・音響モ
デル作成方法は、請求項4に記載の言語・音響モデル作
成方法において、前記出現頻度の高い単語および言い回
しに関するキーワードは、音声認識の対象となる対象音
声データに係るジャンル毎に複数種用意されていること
を特徴とする。
【0017】この言語・音響モデル作成方法によれば、
キーワードが対象音声データに係るジャンル毎に用意さ
れる、つまり、対象音声データがスポーツに関するもの
であれば、そのスポーツに関するキーワードであり、音
楽に関するものであれば、その音楽に関するキーワード
である。
【0018】また、請求項6記載の言語・音響モデル作
成装置は、放送番組の音声データとこの音声データが電
子化された書き起こしファイルとを記憶する記憶手段
と、前記書き起こしファイルの中から、話しことば特有
のテキストファイルを抽出する話しことばテキスト抽出
手段と、この話しことばテキスト抽出手段で抽出された
話しことば特有のテキストファイルに対応する前記放送
番組の音声データを抽出する音声データ抽出手段と、前
記話しことば特有のテキストファイルおよびこの話しこ
とば特有のテキストファイルに対応する音声データに基
づいて、音声認識に用いられる言語モデルおよび音響モ
デルのそれぞれのモデルを適応化したモデルを生成する
言語・音響モデル生成手段と、を備えることを特徴とす
る。
【0019】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、話しことば
テキスト抽出手段によって、話しことば特有のテキスト
ファイルが抽出される。次に、このテキストファイルに
対応する放送番組音声データが音声データ抽出手段で抽
出され、言語・音響モデル生成手段で、これら話しこと
ば特有のテキストファイルと音声データに基づいて、言
語モデルおよび音響モデルのそれぞれのモデルを適応化
したモデルが生成される。
【0020】また、請求項7記載の言語・音響モデル作
成装置は、請求項6に記載の言語・音響モデル生成装置
において、前記話しことばテキスト抽出手段は、話しこ
とば特有のキーワードを用いて、話しことば特有のテキ
ストファイルを抽出することを特徴とする。
【0021】かかる構成によれば、話しことばテキスト
抽出手段において、話しことば特有のキーワードが用い
られるので、このキーワードに関連するテキストファイ
ルが抽出される。
【0022】さらに、請求項8記載の言語・音響モデル
作成装置は、放送番組の音声データとこの音声データが
電子化された書き起こしファイルとを記憶する記憶手段
と、前記書き起こしファイルの中から、出現頻度の高い
単語および言い回しを含む高頻度テキストファイルを抽
出する高頻度テキスト抽出手段と、この高頻度テキスト
抽出手段で抽出された高頻度テキストファイルに対応す
る前記放送番組の音声データを抽出する音声データ抽出
手段と、前記高頻度テキストファイルおよびこの高頻度
テキストファイルに対応する音声データに基づいて、音
声認識に用いられる言語モデルおよび音響モデルのそれ
ぞれのモデルを適応化したモデルを生成する言語・音響
モデル生成手段と、を含むことを特徴とする。
【0023】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、高頻度テキ
スト抽出手段によって、高頻度テキストファイルが抽出
される。次に、このテキストファイルに対応する放送番
組音声データが音声データ抽出手段で抽出され、言語・
音響モデル生成手段で、これら高頻度テキストファイル
と音声データに基づいて、言語モデルおよび音響モデル
のそれぞれのモデルを適応化したモデルが生成される。
【0024】さらに、請求項9記載の言語・音響モデル
作成装置は、請求項8に記載の言語・音響モデル生成装
置において、前記高頻度テキスト抽出手段は、出現頻度
の高い単語および言い回しに関するキーワードを用い
て、高頻度テキストファイルを抽出することを特徴とす
る。
【0025】かかる構成によれば、高頻度テキスト抽出
手段において、出現頻度の高い単語および言い回しに関
するキーワードが用いられるので、このキーワードに関
連するテキストファイルが抽出される。
【0026】さらにまた、請求項10記載の言語・音響
モデル作成装置は、請求項9に記載の言語・音響モデル
作成装置において、前記出現頻度の高い単語および言い
回しに関するキーワードは、音声認識の対象となる対象
音声データに係るジャンル毎に複数種用意されているこ
とを特徴とする。
【0027】かかる構成によれば、キーワードが対象音
声データに係るジャンル毎に用意される、つまり、対象
音声データがスポーツに関するものであれば、そのスポ
ーツに関するキーワードであり、音楽に関するものであ
れば、その音楽に関するキーワードである。
【0028】また、請求項11記載の言語・音響モデル
作成プログラムは、コンピュータを、放送番組の音声デ
ータとこの音声データが電子化された書き起こしファイ
ルとを記憶する記憶手段、前記書き起こしファイルの中
から、話しことば特有のテキストファイルを抽出する話
しことばテキスト抽出手段、この話しことばテキスト抽
出手段で抽出された話しことば特有のテキストファイル
に対応する前記放送番組の音声データを抽出する音声デ
ータ抽出手段、前記話しことば特有のテキストファイル
およびこの話しことば特有のテキストファイルに対応す
る音声データに基づいて、音声認識に用いられる言語モ
デルおよび音響モデルのそれぞれのモデルを適応化した
モデルを生成する言語・音響モデル生成手段、として機
能させることを特徴とする。
【0029】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、話しことば
テキスト抽出手段によって、話しことば特有のテキスト
ファイルが抽出される。次に、このテキストファイルに
対応する放送番組音声データが音声データ抽出手段で抽
出され、言語・音響モデル生成手段で、これら話しこと
ば特有のテキストファイルと音声データに基づいて、言
語モデルおよび音響モデルのそれぞれのモデルを適応化
したモデルが生成される。
【0030】また、請求項12記載の言語・音響モデル
作成プログラムは、請求項11に記載の言語・音響モデ
ル生成プログラムにおいて、前記話しことばテキスト抽
出手段は、話しことば特有のキーワードを用いて、話し
ことば特有のテキストファイルを抽出することを特徴と
する。
【0031】かかる構成によれば、話しことばテキスト
抽出手段において、話しことば特有のキーワードが用い
られるので、このキーワードに関連するテキストファイ
ルが抽出される。
【0032】さらに、請求項13記載の言語・音響モデ
ル作成プログラムは、コンピュータを、放送番組の音声
データとこの音声データが電子化された書き起こしファ
イルとを記憶する記憶手段、前記書き起こしファイルの
中から、出現頻度の高い単語および言い回しを含む高頻
度テキストファイルを抽出する高頻度テキスト抽出手
段、この高頻度テキスト抽出手段で抽出された高頻度テ
キストファイルに対応する前記放送番組の音声データを
抽出する音声データ抽出手段、前記高頻度テキストファ
イルおよびこの高頻度テキストファイルに対応する音声
データに基づいて、音声認識に用いられる言語モデルお
よび音響モデルのそれぞれのモデルを適応化したモデル
を生成する言語・音響モデル生成手段、として機能させ
ることを特徴とする。
【0033】かかる構成によれば、まず、記憶手段に記
憶されている書き起こしファイルの中から、高頻度テキ
スト抽出手段によって、高頻度テキストファイルが抽出
される。次に、このテキストファイルに対応する放送番
組音声データが音声データ抽出手段で抽出され、言語・
音響モデル生成手段で、これら高頻度テキストファイル
と音声データに基づいて、言語モデルおよび音響モデル
のそれぞれのモデルを適応化したモデルが生成される。
【0034】さらに、請求項14記載の言語・音響モデ
ル作成プログラムは、請求項13に記載の言語・音響モ
デル生成プログラムにおいて、前記高頻度テキスト抽出
手段は、出現頻度の高い単語および言い回しに関するキ
ーワードを用いて、高頻度テキストファイルを抽出する
ことを特徴とする。
【0035】かかる構成によれば、高頻度テキスト抽出
手段において、出現頻度の高い単語および言い回しに関
するキーワードが用いられるので、このキーワードに関
連するテキストファイルが抽出される。
【0036】さらにまた、請求項15記載の言語・音響
モデル作成プログラムは、請求項14に記載の言語・音
響モデル作成プログラムにおいて、前記出現頻度の高い
単語および言い回しに関するキーワードは、音声認識の
対象となる対象音声データに係るジャンル毎に複数種用
意されていることを特徴とする。
【0037】かかる構成によれば、キーワードが対象音
声データに係るジャンル毎に用意される、つまり、対象
音声データがスポーツに関するものであれば、そのスポ
ーツに関するキーワードであり、音楽に関するものであ
れば、その音楽に関するキーワードである。
【0038】
【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。 (言語・音響モデル生成装置の構成)図1に言語・音響
モデル生成装置のブロック図を示す。この図1に示すよ
うに、言語・音響モデル生成装置1は、主制御部3と、
記憶部5と、表示部7と、入力部9と、外部装置接続部
11とを備え、各々がデータバスで接続されて、構成さ
れている。
【0039】言語・音響モデル生成装置1は、主に、話
しことばや解説口調を多く含んだ音声データを音声認識
する際に供される言語モデルおよび音響モデルを生成す
る装置である。主制御部3は、言語・音響モデル生成装
置1の制御を司るものであって、CPU、メインメモリ
等によって構成され、話しことばテキスト抽出手段3a
と、高頻度テキスト抽出手段3bと、音声データ抽出手
段3cと、言語・音響モデル生成手段3dとを備えてい
る。
【0040】話しことばテキスト抽出手段3aは、記憶
部5に記憶されているキーワードファイルに格納されて
いる、話しことば特有のキーワードを選択(自動、装置
のユーザによる)し、このキーワードに基づいて、記憶
部5に記憶されている書き起こしファイルの中から当該
キーワードによってヒットした(キーワードに係る)話
しことば特有テキストファイルを抽出するプログラムで
ある。
【0041】高頻度テキスト抽出手段3bは、記憶部5
に記憶されているキーワードファイルに格納されてい
る、出現頻度の高い単語および言い回しに関するキーワ
ードを選択(自動、装置のユーザによる)し、このキー
ワードに基づいて、記憶部5に記憶されている書き起こ
しファイルの中から当該キーワードによってヒットした
(キーワードに係る)高頻度テキストファイルを抽出す
るプログラムである。
【0042】音声データ抽出手段3cは、記憶部5に記
憶されている音声データファイルの中から、話しことば
テキスト抽出手段3aおよび高頻度テキスト抽出手段3
bによって抽出されたテキストファイルに対応する音声
データファイルを抽出するプログラムである。
【0043】言語・音響モデル生成手段3dは、話しこ
とばテキスト抽出手段3a、高頻度テキスト抽出手段3
bによって抽出されたテキストファイルと、音声データ
抽出手段3cによって抽出された音声データファイルと
に基づいて、記憶部5に記憶されている既存の言語モデ
ルおよび音響モデルを、MLLRとMAP推定によっ
て、適応化した新たな言語モデルおよび音響モデルを生
成するプログラムである。
【0044】記憶部5は、大容量のハードディスク等に
よって構成され、キーワードファイル、書き起こしファ
イル、音声データファイルを記憶している。キーワード
ファイルは、会話中に多用される話しことば特有の単語
および出現頻度の高い単語および言い回しに関する単語
をキーワードとして、編集したファイルである。この実
施の形態では、キーワードファイルは、「2000年
日本音響学会 秋季研究発表会 講演論文集 1−5−
22」を参照にして生成した。
【0045】また、キーワードファイルは、音声認識す
る対象に則して、ファイリングされており、政治、スポ
ーツ、芸能、金融等にジャンル分けされている。音声認
識する対象にあわせて、これらのキーワードを選択すれ
ば、音声認識率(認識精度)を向上させることができ
る。
【0046】書き起こしファイルは、放送番組中に交わ
された会話の書き起こしを電子化(テキストファイル)
したものを収集したデータベースである。この書き起こ
しファイルには、予め、放送前に用意しておかれた原稿
を朗読した部分と、出演者同士の話しことば、視聴者に
対し、番組内容を解説する(語りかける)ように発声さ
れた口語調(解説口調)部分とが含まれている。また、
書き起こしファイルは、それぞれの文章単位で一つのフ
ァイルに構成され、ニュース項目単位に区分けされたデ
ィレクトリに構成されている。なお、この実施の形態で
は、書き起こしファイルは、数年間分のニュース番組
(1997年6月〜2000年9月まで)に基づいて、
生成されており、40K項目400K分(形態素解析済
み)のものである。
【0047】また、形態素解析とは、ある文章を語(単
語)よりさらに小さい形態素のレベルまで分解して解析
することである。さらに、「語」とは単独で意味をもつ
最小の言語単位であり、「形態素」とは、単独で意味を
もたない最小の言語単位である。厳密にいえば、日本語
において、語と形態素間の分類はあいまいであり、日本
語の場合、名詞、動詞など文節の中心をなす自立語と、
助詞、助動詞等自立語に付属して使われる付属語(機能
語)とに分類されることが多い(電子情報通信ハンドブ
ックp253を参照)。
【0048】音声データファイルは、書き起こしファイ
ルに対応した音声データを収集したデータベースであ
る。すなわち、数年間分のニュース番組中に放送された
放送音声を収録した、いわゆるニュース音声データベー
スである。表示部7は、CRTディスプレイ、液晶画面
等によって構成され、入力部9によって入力されたコマ
ンド等を表示するものである。
【0049】入力部9は、キーボード、マウス等の入力
装置であって、言語・音響モデル生成装置1を操作する
際に、コマンド(命令)等を入力するものである。外部
装置接続部11は、一般的なポート、バッファ等によっ
て構成され、生成された言語モデルおよび音響モデルを
外部装置に出力するためのものである。
【0050】(言語・音響モデル生成装置の動作)次
に、言語・音響モデル生成装置1の動作を図2に示すフ
ローチャートを参照して説明する。なお、この動作の説
明では、話しことば特有のキーワードを用いて、話しこ
とば特有テキストファイルを検索し、この話しことば特
有テキストファイルに基づいた言語モデルおよび音響モ
デルを生成する場合を想定している。
【0051】まず、言語・音響モデル装置1のユーザ
は、記憶部5に記憶されているキーワードファイルの一
覧を表示部7に表示させ、この中から、話しことば特有
のキーワードを選択する。なお、ユーザが話しことば特
有のキーワードを選択する場合、ユーザは所望個数、任
意のキーワードを選択することができる。
【0052】そして、ユーザが選択した話しことば特有
のキーワードに基づいて、話しことばテキスト抽出手段
3aによって、キーワード検索すると(S1)、話しこ
とば特有のテキストファイルがニュース項目単位或いは
文章単位で抽出される(S2)。なお、話しことば特有
のキーワードから話しことば特有のテキストファイルを
抽出する際に、キーワード間の検索設定、“or”(少
なくとも1個のキーワードを含む)、“and”(全て
のキーワードを含む)をユーザは選ぶことができる。
【0053】さらに、言語・音響モデル生成装置1の音
声データ抽出手段3cによって、抽出された話しことば
特有のテキストファイル(書き起こしファイル)に対応
する音声データが、記憶部5に記憶されている音声デー
タファイルの中から抽出される(S3)。
【0054】そして、言語・音響モデル生成手段3dに
よって、まず、話しことばテキスト抽出手段3aにより
抽出された話しことばテキストファイルおよび音声デー
タ抽出手段3bにより抽出された音声データから、tr
igramのカウントファイルが生成される。そして、
このカウントファイルにN倍の重み付けがなされ(適応
化)、記憶部5に記憶されている既存の言語・音響モデ
ルデータ(図示せず)に、足し合わされて新たな言語モ
デルおよび音響モデルが生成される(S4)。なお、既
存の言語モデルおよび音響モデルは、この実施の形態で
は、長い期間で収集された大量のニュース原稿(長期間
ニュース原稿)に基づいて生成されたものである。
【0055】ここで、trigram(三つ組モデル)
について補足しておく。Wを自立した単語の集合、
1、w2、w3・・・が各単語とすると、W=w1
2、w3・・・の生起確率P(W)は数1で与えられ
る。
【0056】
【数1】
【0057】これを2重マルコフ過程で近似すると、数
2のようになる。
【0058】
【数2】
【0059】(wi-2,wi-1)の二つ組を1状態に対応
させれば単純マルコフ過程になる。数2の右辺の確率
は、数3のように二つ組(di−gram)と三つ組
(trigram)の出現確率C(wi-2,wi-1)とC
(wi-2,wi-1,wi)の比に推定できる。
【0060】
【数3】 (より詳しくは、中川「確率モデルによる音声認識」電
子情報通信学会pp109−119を参照)
【0061】(言語・音響モデルの生成例、このモデル
に基づいた音声認識の結果)次に、言語・音響モデル生
成装置1によって生成された、具体的な言語モデルおよ
び音響モデルの例と、これらのモデルを利用して、音声
認識した結果を説明する。ここでは、言語・音響モデル
生成装置1によって生成される言語モデルの生成の流れ
について説明し、生成された言語モデルによって、ニュ
ース番組中に交わされる解説口調を音声認識する場合に
ついて説明する。
【0062】ニュース音声データベース(「1999年
日本音響学会 春季研究発表会講演論文集 2−Q−
9」;ここでは音声データファイルおよび書き起こしフ
ァイルに相当)は、ニュース番組の放送音声を収録した
音声データファイルと、その放送音声に対応する書き起
こしファイルとを含んで構築されている。音声データフ
ァイルおよび書き起こしファイルは、それぞれ文章単位
で一つのファイルに分割されニュース項目単位に分割さ
れたディレクトリに記憶されている。
【0063】ニュース解説の発話内容には、特有の言語
的特徴(口語、解説口調独特の特徴)がある(「200
0年 日本音響学会 秋季研究発表会 講演論文集 1
−5−22」参照)。そのうち、図3に示すように、
「〜ですね」「〜んです」「けれど、けど」「ちょっ
と」という表現を、キーワードとして利用し、高頻度テ
キスト抽出手段3bによって、ニュース解説の特徴を含
むテキストファイルを抽出する。
【0064】つまり、ニュース音声データベースに含ま
れている書き起こしファイルの中で、図3に示す4つの
キーワードとマッチする表現を含む書き起こしファイル
を、ニュース項目単位で抽出する。より具体的に説明す
ると、1997年6月〜2000年9月に放送されたニ
ュース番組の書き起こし40K項目400K文(形態素
解析済み)を用意しておき、図3に示したキーワード1
〜4の“or”(少なくとも1個のキーワードを含む)
により検索を実行した。すると、3K項目(8.0
%)、102K文(25.5%)が抽出された。この抽
出された高頻度テキストファイルの詳細をみると、口語
調の表現が多く含まれており、特に、ニュース解説、対
談、中継レポートを含む項目の書き起こしファイルが多
く抽出される傾向があった。
【0065】次に、図3に示したキーワードに基づい
て、高頻度テキスト抽出手段3bによって抽出された高
頻度テキストファイルに対応する音声データファイル
を、音声データ抽出手段3cによって抽出する。そし
て、この音声データファイルを用いて、言語・音響モデ
ル生成手段3dによって、記憶部5に記憶されている既
存の音響モデルを、ニュース解説の音声認識に適すよう
に適応化する。適応化には、MLLRとMAP推定とい
った手法を用いて行った。
【0066】一方、図3に示したキーワードに基づい
て、高頻度テキスト抽出手段3bによって抽出された高
頻度テキストファイルを用いて、言語・音響モデル生成
手段3dによって、記憶部5に記憶されている既存の言
語モデルを適応化する。より具体的には、まず、長い期
間で収集された大量のニュース原稿(長期間ニュース原
稿)に対して、放送直前に得られた少量のニュース原稿
(最新ニュース原稿)により適応化を行い、言語モデル
(時期依存言語モデル;時期依存言語モデルの詳細は、
小林他「ニュース音声認識のための時期依存言語モデ
ル」情報処理学会論文誌(1999.4)pp1421
−1429を参照)を作成しておく。
【0067】そして、図3に示したキーワードを含む項
目により抽出した高頻度テキストファイルを用意し、t
rigramのカウントファイルを作成し、これをLM
−adpt(図7を参照、後記する)を生成したtri
gramのカウントファイルに対してN倍の重みをつけ
て足し合わせ、新たな言語モデル(LM−mixN)を
生成する。
【0068】次に、生成した新たな言語モデル(LM−
mixN)および新たな音響モデル(AM−adpt1
〜5)を用いて、ニュース番組中に交わされた放送音声
を認識した認識結果について図4から図7を参照して説
明する。まず、図4に、音響モデルの諸元を示す。音響
モデルは、サンプリング周波数16khzでサンプリン
グし、分析窓を25msのハミング窓とし、フレーム周
期を10msとした。また、分析パラメータは12次元
MFCCと対数パワーとし、それぞれの1次、2次回帰
係数として、計39次元(39要素)とした。また、H
MM(隠れマルコフモデル)は、状態共有化8混合分布
triphoneを用いた。triphoneのモデル
数は3104とし、状態数は1993とした。学習デー
タは、男性アナウンサ(クリーン)であって、124K
文、383時間である。
【0069】また、図5に、適応した音響モデルを示
す。モデル名AM−adpt1は、2000年3月〜7
月に放送されたニュース解説音声を人手で抽出した21
9文、0.4時間分を適応データとして音響モデルを生
成したものである。モデル名AM−adpt2は、20
00年6月〜9月に放送された音声全てによる5566
文、15時間分を適応データとして音響モデルを生成し
たものである。モデル名AM−adpt3は、2000
年6月〜9月のニュースより、そのニュースの書き起こ
しに図3のキーワードを含む項目の音声を自動抽出した
668文、1.3時間分を適応データとして音響モデル
を生成したものである。モデル名AM−adpt4は、
AM−adpt1とAM−adpt3で用いた適応デー
タの和集合である826文、1.6時間分を適応データ
として音響モデルを生成したものである。モデル名AM
−adpt5は、AM−adpt4と同一の音声により
適応化、母音、撥音および半母音/r/のHMMに状態
スキップを許容して音響モデルを生成したものである。
【0070】図6に、ニュース番組中に交わされた放送
音声を認識した認識結果(音響モデルの違いによる比
較)を示す。この図6において、テストセット(実験素
材)には、2000年10月〜2001年1月に放送さ
れた特定話者(男性アナウンサー1名)によるニュース
解説音声188文、4755単語を用いた。また、既存
の言語モデルには、1991年4月〜2000年9月の
ニュースの原稿と書き起こし2.1M文より学習した語
彙サイズ20KのN−gramモデル(LM−bas
e)を用いた。この図6に示すように、AM−base
(すべての音声を適応化した音響モデル)よりもAM−
adpt1〜5の音響モデルを用いた方が単語正解精度
ACC(%)は高い値が得られる。つまり、すべての音
声を適応化に用いるよりも、図3に示すようなキーワー
ドを利用して抽出した音声のみを用いた方がよい認識結
果が得られた。
【0071】また、図7に、ニュース番組中に交わされ
た放送音声を認識した認識結果(言語モデルの違いによ
る比較)を示す。LM−baseを生成したテキストフ
ァイルを「長期間ニュース原稿」とし、ニュース番組放
送6時間前〜放送直前に得られたニュース原稿(平均6
57文)を「最新ニュース原稿」として、テストセット
の放送日別に時期依存言語モデルLM−adptを作成
した。
【0072】さらに、1997年6月〜2000年9月
に放送されたニュース番組の書き起こしファイル400
K文の中から、図3に示すキーワードを含む項目より抽
出した102K文を用意し、trigramのカウント
ファイルを作成した。そして、これをLM−adptを
生成したtrigramのカウントファイルに対してN
倍の重みをつけて足し合わせた、新たな言語モデルLM
−mixNを生成した。なお、語彙はLM−adptと
共通とした。
【0073】図7は、これらの言語モデルのテストセッ
トパープレキシティー(PP;複雑度)、trigra
mのヒット率(HIT(%))、未知語(OOV
(%))および認識実験を行って得られた単語正解精度
(ACC(%))を図示したものである。この図7に示
すように、LM−mix10のとき、PPが最も小さく
なり、LM−mix30のとき、ACC(認識率に相
当)が最も高くなる。LM−adptを用いる場合に比
べ、1.1%の改善が認められた。
【0074】この実施の形態では以下の効果を奏す。記
憶部5に記憶されている書き起こしファイルの中から、
話しことばテキスト抽出手段3a(高頻度テキスト抽出
手段3b)によって、話しことば特有のテキストファイ
ル(高頻度テキストファイル)が抽出される。次に、こ
のテキストファイルに対応する放送番組音声データが音
声データ抽出手段3cで抽出され、言語・音響モデル生
成手段3dで、これら話しことば特有のテキストファイ
ルと音声データに基づいて、言語モデルおよび音響モデ
ルのそれぞれのモデルを適応化したモデルが生成され
る。このモデルを用いて、ニュース解説を音声認識した
認識結果からも明らかなように、生成された言語モデル
および音響モデルは、単語正解精度(認識精度)を上昇
させる。つまり、このモデルを音声認識時に用いれば、
話しことばの認識精度を向上させることができる。
【0075】また、話しことばテキスト抽出手段3aに
おいて、話しことば特有のキーワードが用いられるの
で、このキーワードに関連するテキストファイルが抽出
される。このため、キーワードを選択することによっ
て、音声認識する対象に応じた言語モデルおよび音響モ
デルを任意に生成することができる。
【0076】或いは、高頻度テキスト抽出手段3bにお
いて、話しことば特有のキーワードが用いられるので、
このキーワードに関連するテキストファイルが抽出され
る。このため、キーワードを選択することによって、音
声認識する対象に応じた言語モデルおよび音響モデルを
任意に生成することができる。
【0077】さらに、キーワードファイルは、音声認識
する対象に則して、ファイリングされており、政治、ス
ポーツ、芸能、金融等にジャンル分けされている。音声
認識する対象にあわせて、これらのキーワードを選択す
れば、音声認識率(認識精度)を向上させることができ
る。
【0078】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。例え
ば、言語・音響モデル生成装置1で実現されている各構
成の処理を、一つずつの工程(ステップ)とみなした言
語・音響モデル生成方法と捉えることも可能である。こ
の場合、言語・音響モデル生成装置1で得られた効果と
同様な効果が得られる。
【0079】また、言語・音響モデル生成装置1におけ
る各構成の処理を、汎用のプログラムで記述した言語・
音響モデル生成プログラムとみなすことも可能である。
この場合も言語・音響モデル生成装置1で得られた効果
と同様な効果が得られる。さらに、このプログラムを一
般的な記憶媒体に記憶させ、流通させることも可能であ
る。
【0080】
【発明の効果】請求項1記載の発明によれば、話しこと
ばテキスト抽出ステップ、音声データ抽出ステップで抽
出された、話しことば特有のテキストファイルと音声デ
ータに基づいて、言語・音響モデル生成ステップで、言
語モデルおよび音響モデルのそれぞれのモデルを適応化
したモデルが生成される。このため、このモデルを用い
れば、音声認識時の話しことばが多く含まれた音声の認
識精度を向上させることができる。
【0081】請求項2記載の発明によれば、話しことば
テキスト抽出ステップにおいて、話しことば特有のキー
ワードが用いられるので、このキーワードに関連するテ
キストファイルが抽出され、このテキストファイルを用
いて、言語モデルおよび音響モデルを生成し、さらに、
このモデルを用いて音声認識すれば、音声認識時の話し
ことばが多く含まれた音声の認識精度を向上させること
ができる。
【0082】請求項3記載の発明によれば、高頻度テキ
スト抽出ステップ、音声データ抽出ステップで抽出され
た、高頻度テキストファイルと音声データに基づいて、
言語・音響モデル生成ステップで、言語モデルおよび音
響モデルのそれぞれのモデルを適応化したモデルが生成
される。このため、このモデルを用いれば、音声認識時
に、出現頻度の高い単語や言い回しを多く含んだ音声の
認識精度を向上させることができる。
【0083】請求項4記載の発明によれば、高頻度テキ
スト抽出ステップにおいて、出現頻度の高い単語および
言い回しに関するキーワードが用いられるので、このキ
ーワードに関連するテキストファイルが抽出され、この
テキストファイルを用いて、言語モデルおよび音響モデ
ルを生成し、さらに、このモデルを用いて音声認識すれ
ば、音声認識時の出現頻度の高い単語や言い回しが多く
含まれた音声の認識精度を向上させることができる。
【0084】請求項5記載の発明によれば、キーワード
が対象音声データに係るジャンル毎に用意されるので、
音声認識する対象にあわせて、これらのキーワードを選
択すれば、音声認識率(認識精度)を向上させることが
できる。
【0085】請求項6記載の発明によれば、話しことば
テキスト抽出手段、音声データ抽出手段で抽出された話
しことば特有のテキストファイルと音声データに基づい
て、言語・音響モデル生成手段で、言語モデルおよび音
響モデルのそれぞれのモデルを適応化したモデルが生成
される。このため、このモデルを用いれば、音声認識時
の話しことばが多く含まれた音声の認識精度を向上させ
ることができる。
【0086】請求項7記載の発明によれば、話しことば
テキスト抽出手段において、話しことば特有のキーワー
ドが用いられるので、このキーワードに関連するテキス
トファイルが抽出され、このテキストファイルを用い
て、言語モデルおよび音響モデルを生成し、さらに、こ
のモデルを用いて音声認識すれば、音声認識時の話しこ
とばが多く含まれた音声の認識精度を向上させることが
できる。
【0087】請求項8記載の発明によれば、高頻度テキ
スト抽出手段、音声データ抽出手段で抽出された高頻度
テキストファイルと音声データに基づいて、言語・音響
モデル生成手段で、言語モデルおよび音響モデルのそれ
ぞれのモデルを適応化したモデルが生成される。このた
め、このモデルを用いれば、音声認識時に、出現頻度の
高い単語や言い回しを多く含んだ音声の認識精度を向上
させることができる。
【0088】請求項9記載の発明によれば、高頻度テキ
スト抽出手段において、出現頻度の高い単語および言い
回しに関するキーワードが用いられるので、このキーワ
ードに関連するテキストファイルが抽出され、このテキ
ストファイルを用いて、言語モデルおよび音響モデルを
生成し、さらに、このモデルを用いて音声認識すれば、
音声認識時の出現頻度の高い単語や言い回しが多く含ま
れた音声の認識精度を向上させることができる。
【0089】請求項10記載の発明によれば、キーワー
ドが対象音声データに係るジャンル毎に用意されるの
で、音声認識する対象にあわせて、これらのキーワード
を選択すれば、音声認識率(認識精度)を向上させるこ
とができる。
【0090】請求項11記載の発明によれば、言語・音
響モデル生成プログラムにおいて、話しことばテキスト
抽出手段、音声データ抽出手段で抽出された話しことば
特有のテキストファイルと音声データに基づいて、言語
・音響モデル生成手段で、言語モデルおよび音響モデル
のそれぞれのモデルを適応化したモデルが生成される。
このため、このモデルを用いれば、音声認識時の話しこ
とばが多く含まれた音声の認識精度を向上させることが
できる。
【0091】請求項12記載の発明によれば、言語・音
響モデル生成プログラムにおいて、話しことばテキスト
抽出手段にて、話しことば特有のキーワードが用いられ
るので、このキーワードに関連するテキストファイルが
抽出され、このテキストファイルを用いて、言語モデル
および音響モデルを生成し、さらに、このモデルを用い
て音声認識すれば、音声認識時の話しことばが多く含ま
れた音声の認識精度を向上させることができる。
【0092】請求項13記載の発明によれば、言語・音
響モデル生成プログラムにおいて、高頻度テキスト抽出
手段、音声データ抽出手段で抽出された高頻度テキスト
ファイルと音声データに基づいて、言語・音響モデル生
成手段で、言語モデルおよび音響モデルのそれぞれのモ
デルを適応化したモデルが生成される。このため、この
モデルを用いれば、音声認識時に、出現頻度の高い単語
や言い回しを多く含んだ音声の認識精度を向上させるこ
とができる。
【0093】請求項14記載の発明によれば、言語・音
響モデル生成プログラムにおいて、高頻度テキスト抽出
手段にて、出現頻度の高い単語および言い回しに関する
キーワードが用いられるので、このキーワードに関連す
るテキストファイルが抽出され、このテキストファイル
を用いて、言語モデルおよび音響モデルを生成し、さら
に、このモデルを用いて音声認識すれば、音声認識時の
出現頻度の高い単語や言い回しが多く含まれた音声の認
識精度を向上させることができる。
【0094】請求項15記載の発明によれば、キーワー
ドが対象音声データに係るジャンル毎に用意されるの
で、音声認識する対象にあわせて、これらのキーワード
を選択すれば、音声認識率(認識精度)を向上させるこ
とができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態である言語・音響モ
デル生成装置のブロック図である。
【図2】言語・音響モデル生成装置の動作を説明したフ
ローチャートである。
【図3】言語・音響モデル生成装置に用いられるキーワ
ードをまとめた図である。
【図4】音響モデルの諸元を説明した図である。
【図5】適応した音響モデルを説明した図である。
【図6】音響モデルの違いによる単語正解精度(認識精
度)を比較した図である。
【図7】言語モデルの違いによる単語正解精度(認識精
度)を比較した図である。
【符号の説明】
1 言語・音響モデル生成装置 3 主制御部 3a 話しことばテキスト抽出手段 3b 高頻度テキスト抽出手段 3c 音声データ抽出手段 3d 言語・音響モデル生成手段 5 記憶部 7 表示部 9 入力部 11 外部装置接続部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/10 G10L 3/00 531W (72)発明者 佐藤 庄衛 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 今井 亨 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 安藤 彰男 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B091 AA15 BA03 BA16 CA14 CA21 CB12 CB21 CD03 CD15 EA10 5D015 GG00 HH00 KK02

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 放送番組の音声データが電子化された書
    き起こしファイルの中から、話しことば特有のテキスト
    ファイルを抽出する話しことばテキスト抽出ステップ
    と、 この話しことばテキスト抽出ステップで抽出された話し
    ことば特有のテキストファイルに対応する前記放送番組
    の音声データを抽出する音声データ抽出ステップと、 前記話しことば特有のテキストファイルおよびこの話し
    ことば特有のテキストファイルに対応する音声データに
    基づいて、音声認識に用いられる言語モデルおよび音響
    モデルのそれぞれのモデルを適応化したモデルを生成す
    る言語・音響モデル生成ステップと、を含むことを特徴
    とする言語・音響モデル作成方法。
  2. 【請求項2】 前記話しことばテキスト抽出ステップ
    は、話しことば特有のキーワードを用いて、話しことば
    特有のテキストファイルを抽出することを特徴とする請
    求項1に記載の言語・音響モデル生成方法。
  3. 【請求項3】 放送番組の音声データが電子化された書
    き起こしファイルの中から、出現頻度の高い単語および
    言い回しを含む高頻度テキストファイルを抽出する高頻
    度テキスト抽出ステップと、 この高頻度テキスト抽出ステップで抽出された高頻度テ
    キストファイルに対応する前記放送番組の音声データを
    抽出する音声データ抽出ステップと、 前記高頻度テキストファイルおよびこの高頻度テキスト
    ファイルに対応する音声データに基づいて、音声認識に
    用いられる言語モデルおよび音響モデルのそれぞれのモ
    デルを適応化したモデルを生成する言語・音響モデル生
    成ステップと、を含むことを特徴とする言語・音響モデ
    ル作成方法。
  4. 【請求項4】 前記高頻度テキスト抽出ステップは、出
    現頻度の高い単語および言い回しに関するキーワードを
    用いて、高頻度テキストファイルを抽出することを特徴
    とする請求項3に記載の言語・音響モデル生成方法。
  5. 【請求項5】 前記出現頻度の高い単語および言い回し
    に関するキーワードは、音声認識の対象となる対象音声
    データに係るジャンル毎に複数種用意されていることを
    特徴とする請求項4に記載の言語・音響モデル作成方
    法。
  6. 【請求項6】 放送番組の音声データとこの音声データ
    が電子化された書き起こしファイルとを記憶する記憶手
    段と、 前記書き起こしファイルの中から、話しことば特有のテ
    キストファイルを抽出する話しことばテキスト抽出手段
    と、 この話しことばテキスト抽出手段で抽出された話しこと
    ば特有のテキストファイルに対応する前記放送番組の音
    声データを抽出する音声データ抽出手段と、 前記話しことば特有のテキストファイルおよびこの話し
    ことば特有のテキストファイルに対応する音声データに
    基づいて、音声認識に用いられる言語モデルおよび音響
    モデルのそれぞれのモデルを適応化したモデルを生成す
    る言語・音響モデル生成手段と、を備えることを特徴と
    する言語・音響モデル作成装置。
  7. 【請求項7】 前記話しことばテキスト抽出手段は、話
    しことば特有のキーワードを用いて、話しことば特有の
    テキストファイルを抽出することを特徴とする請求項6
    に記載の言語・音響モデル生成装置。
  8. 【請求項8】 放送番組の音声データとこの音声データ
    が電子化された書き起こしファイルとを記憶する記憶手
    段と、 前記書き起こしファイルの中から、出現頻度の高い単語
    および言い回しを含む高頻度テキストファイルを抽出す
    る高頻度テキスト抽出手段と、 この高頻度テキスト抽出手段で抽出された高頻度テキス
    トファイルに対応する前記放送番組の音声データを抽出
    する音声データ抽出手段と、 前記高頻度テキストファイルおよびこの高頻度テキスト
    ファイルに対応する音声データに基づいて、音声認識に
    用いられる言語モデルおよび音響モデルのそれぞれのモ
    デルを適応化したモデルを生成する言語・音響モデル生
    成手段と、を含むことを特徴とする言語・音響モデル作
    成装置。
  9. 【請求項9】 前記高頻度テキスト抽出手段は、出現頻
    度の高い単語および言い回しに関するキーワードを用い
    て、高頻度テキストファイルを抽出することを特徴とす
    る請求項8に記載の言語・音響モデル生成装置。
  10. 【請求項10】 前記出現頻度の高い単語および言い回
    しに関するキーワードは、音声認識の対象となる対象音
    声データに係るジャンル毎に複数種用意されていること
    を特徴とする請求項9に記載の言語・音響モデル作成装
    置。
  11. 【請求項11】 コンピュータを、 放送番組の音声データとこの音声データが電子化された
    書き起こしファイルとを記憶する記憶手段、 前記書き起こしファイルの中から、話しことば特有のテ
    キストファイルを抽出する話しことばテキスト抽出手
    段、 この話しことばテキスト抽出手段で抽出された話しこと
    ば特有のテキストファイルに対応する前記放送番組の音
    声データを抽出する音声データ抽出手段、 前記話しことば特有のテキストファイルおよびこの話し
    ことば特有のテキストファイルに対応する音声データに
    基づいて、音声認識に用いられる言語モデルおよび音響
    モデルのそれぞれのモデルを適応化したモデルを生成す
    る言語・音響モデル生成手段、として機能させることを
    特徴とする言語・音響モデル作成プログラム。
  12. 【請求項12】 前記話しことばテキスト抽出手段は、
    話しことば特有のキーワードを用いて、話しことば特有
    のテキストファイルを抽出することを特徴とする請求項
    11に記載の言語・音響モデル生成プログラム。
  13. 【請求項13】 コンピュータを、 放送番組の音声データとこの音声データが電子化された
    書き起こしファイルとを記憶する記憶手段、 前記書き起こしファイルの中から、出現頻度の高い単語
    および言い回しを含む高頻度テキストファイルを抽出す
    る高頻度テキスト抽出手段、 この高頻度テキスト抽出手段で抽出された高頻度テキス
    トファイルに対応する前記放送番組の音声データを抽出
    する音声データ抽出手段、 前記高頻度テキストファイルおよびこの高頻度テキスト
    ファイルに対応する音声データに基づいて、音声認識に
    用いられる言語モデルおよび音響モデルのそれぞれのモ
    デルを適応化したモデルを生成する言語・音響モデル生
    成手段、として機能させることを特徴とする言語・音響
    モデル作成プログラム。
  14. 【請求項14】 前記高頻度テキスト抽出手段は、出現
    頻度の高い単語および言い回しに関するキーワードを用
    いて、高頻度テキストファイルを抽出することを特徴と
    する請求項13に記載の言語・音響モデル生成プログラ
    ム。
  15. 【請求項15】 前記出現頻度の高い単語および言い回
    しに関するキーワードは、音声認識の対象となる対象音
    声データに係るジャンル毎に複数種用意されていること
    を特徴とする請求項14に記載の言語・音響モデル作成
    プログラム。
JP2001290351A 2001-09-25 2001-09-25 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム Pending JP2003099086A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001290351A JP2003099086A (ja) 2001-09-25 2001-09-25 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001290351A JP2003099086A (ja) 2001-09-25 2001-09-25 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Publications (1)

Publication Number Publication Date
JP2003099086A true JP2003099086A (ja) 2003-04-04

Family

ID=19112665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001290351A Pending JP2003099086A (ja) 2001-09-25 2001-09-25 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム

Country Status (1)

Country Link
JP (1) JP2003099086A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2008129527A (ja) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2010096899A (ja) * 2008-10-15 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成方法、その装置、プログラム、その記録媒体
JP2011053312A (ja) * 2009-08-31 2011-03-17 Nippon Hoso Kyokai <Nhk> 適応化音響モデル生成装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224691A (ja) * 1992-02-14 1993-09-03 Nec Corp タスク適応標準パターン学習装置
JPH10198395A (ja) * 1997-01-10 1998-07-31 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2000099086A (ja) * 1998-09-22 2000-04-07 Nec Corp 確率言語モデル学習方法、確率言語適応方法及び音声認識装置
WO2000070603A1 (en) * 1999-05-13 2000-11-23 Koninklijke Philips Electronics N.V. Unsupervised adaptation of a large vocabulary automatic speech recognizer
JP2001134285A (ja) * 1999-11-01 2001-05-18 Matsushita Electric Ind Co Ltd 音声認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224691A (ja) * 1992-02-14 1993-09-03 Nec Corp タスク適応標準パターン学習装置
JPH10198395A (ja) * 1997-01-10 1998-07-31 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2000099086A (ja) * 1998-09-22 2000-04-07 Nec Corp 確率言語モデル学習方法、確率言語適応方法及び音声認識装置
WO2000070603A1 (en) * 1999-05-13 2000-11-23 Koninklijke Philips Electronics N.V. Unsupervised adaptation of a large vocabulary automatic speech recognizer
JP2003526117A (ja) * 1999-05-13 2003-09-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 大語彙自動音声認識装置の教師なし適応方法
JP2001134285A (ja) * 1999-11-01 2001-05-18 Matsushita Electric Ind Co Ltd 音声認識装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
加藤一臣他: ""講演音声認識のための音響・言語モデルの検討"", 電子情報通信学会技術研究報告, vol. Vol.100,No.523(2000-12),SP2000-97, JPN6009012755, 15 December 2000 (2000-12-15), JP, pages 13 - 18, ISSN: 0001277822 *
河原達也: ""話し言葉音声認識の概観"", 電子情報通信学会技術研究報告, vol. Vol.100,No.523(2000-12),SP2000-95, JPN6009012758, 15 December 2000 (2000-12-15), JP, pages 1 - 5, ISSN: 0001277823 *
西村雅史他: ""放送音声の書き起こしに関する検討"", 情報処理学会研究報告, vol. Vol.99,No.14,SLP25-6, JPN6010012870, 5 February 1999 (1999-02-05), pages 31 - 32, ISSN: 0001561940 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2008129527A (ja) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
JP4705557B2 (ja) * 2006-11-24 2011-06-22 日本電信電話株式会社 音響モデル生成装置、方法、プログラム及びその記録媒体
JP2010096899A (ja) * 2008-10-15 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成方法、その装置、プログラム、その記録媒体
JP2011053312A (ja) * 2009-08-31 2011-03-17 Nippon Hoso Kyokai <Nhk> 適応化音響モデル生成装置及びプログラム

Similar Documents

Publication Publication Date Title
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
Nakamura et al. Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance
Anusuya et al. Speech recognition by machine, a review
Placeway et al. The 1996 hub-4 sphinx-3 system
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
Huijbregts Segmentation, diarization and speech transcription: surprise data unraveled
Gauvain et al. Large-vocabulary continuous speech recognition: advances and applications
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
JP2003036093A (ja) 音声入力検索システム
Liao et al. Uncertainty decoding for noise robust speech recognition
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
Furui Recent progress in corpus-based spontaneous speech recognition
Dharanipragada et al. A multistage algorithm for spotting new words in speech
Hori et al. A statistical approach to automatic speech summarization
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Linke et al. Conversational speech recognition needs data? Experiments with Austrian German
JP2003099086A (ja) 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
Hansen et al. Audio stream phrase recognition for a national gallery of the spoken word:" one small step".
Furui Spontaneous speech recognition and summarization
Nakamura et al. Acoustic and linguistic characterization of spontaneous speech
Chu et al. Recent advances in the IBM GALE mandarin transcription system
Veisi et al. Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon
Furui Steps toward natural human-machine communication in the 21st century

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100706