JP3285145B2 - 録音音声データベース検証方法 - Google Patents

録音音声データベース検証方法

Info

Publication number
JP3285145B2
JP3285145B2 JP04344498A JP4344498A JP3285145B2 JP 3285145 B2 JP3285145 B2 JP 3285145B2 JP 04344498 A JP04344498 A JP 04344498A JP 4344498 A JP4344498 A JP 4344498A JP 3285145 B2 JP3285145 B2 JP 3285145B2
Authority
JP
Japan
Prior art keywords
file
label
voice
data
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04344498A
Other languages
English (en)
Other versions
JPH11242492A (ja
Inventor
仁一 村上
紀子 水澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP04344498A priority Critical patent/JP3285145B2/ja
Publication of JPH11242492A publication Critical patent/JPH11242492A/ja
Application granted granted Critical
Publication of JP3285145B2 publication Critical patent/JP3285145B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は各種音声応答装置
などに用いられる、録音した音声データとその音声デー
タの発話内容を意味するデータ(以下ラベルと記す)と
からなるファイルで構成される録音音声データベースに
おける、ラベルとその録音音声データとの一致/不一致
を検証する方法に関する。
【0002】
【従来の技術】図3を参照して従来の方法を説明する。
部1において、発話になれた人(ナレータ)がスタ
ジオで、データベースとして録音しようとする、単語な
どを次々と、発声し、例えば“とうきょう おおさか
なごや しんじゅく”と発声し、その音声波形データを
例えば磁気テープに録音する。
【0003】次に音声切出部2では先に録音した磁気テ
ープを、1つの音声データ、この例では1地名音声ごと
に切り出し、ファイルを作る。図示例ではファイル名A
は音声波形データ“とうきょう”、ファイル名Bは音声
データ“おおさか”である。以下同様に次々と音声デー
タを切り出してファイルを作る。次にラベル付与部3に
おいて、各ファイル中の音声データはディジタル化され
た波形データであるため、通常はその音声データの発話
内容を意味するデータをラベルとして各ファイルに付与
する。図示例ではファイル名Aにはラベルとして「とう
きょう」が付けられ、ファイル名Bはラベル「おおさ
か」が付けられる。このようにファイル名Aはラベル
「とうきょう」とその音声波形データとで構成されるよ
うに、各ファイルはラベルと音声波形データとで構成さ
れる。
【0004】このようにして録音音声データベースが構
成されるが、それが正しく構成されたかを確かめるた
め、従来においては、図3中の検聴部4において、各フ
ァイルごとに、例えばファイル名Aはそのラベルが「と
うきょう」であり、かつその音声波形データを再生し
て、再生音が“とうきょう”であるかを検聴する。もし
ラベルと音声データの再生音声とが一致していなかった
場合は、そのファイルを、ナレータにより再度録音して
作りなおしていた。
【0005】
【発明が解決しようとする課題】大規模な録音音声デー
タベースを作成する場合、従来においては、図3中の検
聴部4で人間が多数のファイルを1つづつ検聴するた
め、長時間を要し、しかも誤りを見過してまう可能性が
あった。そのラベルと音声波形データとが異なった誤っ
たファイルが作成されてしまう可能性があった。この誤
りをなくすためには、人間による検聴を繰り返す必要が
あった。
【0006】
【課題を解決するための手段】この発明によれば、人間
による検聴にかえ、音声認識装置を用い、各ファイルに
ついて、その音声波形データに対応し音声認識を行い、
その音声認識結果と、そのラベルとが一致するか比較
し、一致しない場合は、そのファイル名を出力する。
一致ファイル名についてのみ、音声データを音声再生し
て、検聴する。
【0007】
【発明の実施の形態】以下、この発明の実施例を図面を
参照して説明する。いま図に示すように録音音声データ
ベース11にはファイル名Aにはラベル「とうきょう」
12aその音声(波形)データ13aで構成され、ファ
イル名Bはラベル「おおさか」12bと音声データ13
bとで構成され、ファイルCはラベル「なごや」12c
と音声データ13cとで構成されている。各ファイルに
は構成要素として含まれていないが、図中には、各ファ
イル名A、B、C…内に、その音声データ13a、13
b、13c…の実際の発話内容が(とうきょう)14
a、(おおさか)14b、(おおさか)14c、(しん
じゅく)14d…とそれぞれ示されている。
【0008】この発明による録音音声データベース検証
装置21で各ファイルの検証を行う。つまりこの検証装
置21内の単語音声認識装置22に各ファイルの音声デ
ータが取込まれて音声認識される。この例ではファイル
名A、B、C…の各音声データ13a、13b、13c
…はそれぞれ音声認識結果としてこの例では「とうきょ
う」15a、「なごや」15b、「おおさか」15c…
が得られた。
【0009】これら認識結果15a、15b、15c、
…と対応するラベル12a、12b、12c、…とそれ
ぞれ比較部23で比較する。この例ではファイル名Bに
ついてはラベル12bが「おおさか」であるが認識結果
15bは「なごや」であって、不一致となり、またファ
イルCについてもラベル12cの「なごや」と認識結果
15cの「おおさか」とが不一致であることが検出さ
れ、これら不一致のファイルの各BとCが出力される。
【0010】これら不一致ファイル名BとCについての
み、音声データ13b、13cをそれぞれ音声再生し
て、人間が検聴し、この結果、音声データ13bの再生
音は“おおさか”16bとなり、音声データ13cの再
生音は“おおさか”16cとなり、これらとラベル12
b、12cとそれぞれ比較し、ファイルCが誤ったもの
であることが判明し、ファイルCについて再録音つまり
ファイルCの作りなおしをする。
【0011】以上の説明から理解されるようにこの発明
による検証装置は図2Aに示すようにアクセス部25よ
り録音音声データベース11の各ファイル名を順次アク
セスして、そのラベル12と音声データ13を読み出
し、この読み出されたファイルのラベル12と音声デー
タ13は分離部26で分離され、前者はレジスタ27に
一時格納され、後者は音声認識装置22に入力される。
その音声認識装置22の認識結果と、レジスタ27内の
ラベル12とが比較部22で比較され、不一致の場合
は、そのファイル名がアクセス部25から出力部28を
通じて出力され、つまり、例えば刷字出力され、あるい
は、メモリなどに出力され、後で、これを読み出すこと
ができるようにされる。
【0012】つまり、この検証装置の処理手順は図2B
に示すように、データベース11に対し、1つのファイ
ルをアクセスし(S1)、その読出されたファイルの音
声データ13を音声認識装置で音声認識し(S2)、そ
の音声認識結果と、対応ラベル12とを比較し(S
3)、不一致の場合はそのファイル名を出力し(S
4)、その後、次のファイルを読出すべく、ステップS
1に戻り、ラベルとの比較結果が一致すれば直ちに次の
ファイルを読出すべくステップS1に戻る。このように
してすべてのファイルを読み出し、検証することが実行
される。
【0013】次に実験結果を述べる。電話番号案内に用
いる住所、姓名、企業、合計60万件のデータベースを
人手で1度検聴した後、この発明の検証装置を用いて検
証した。単語音声認識は“HTK:Hidden Ma
rkov Model Toalkit Vl.5”の
手法によった。音素モデルは、ATRのCset女性話
者32名、160の文から不特定話者モデルを作り、次
に話者ごとに100単語の連結学習をしてHMM(隠れ
マルコフモデル)を作成した。この分析パラメータの条
件としては、音響モデルが4状態3ループ混合分布型H
MM、混合数が10混合フルカバリアンス、音響パラメ
ータが、logパワーとして次FFTmelcepとΔ
logパワーとして次ΔFFTmelcep、フレーム
長が5ms、フレーム窓長が25ms、サンプリング周
波数が16kHzである。住所、姓名、企業での平均約
5.3%が単語認識結果とラベルとが一致しなかった。
これら一致しなかったファイルを人手によって再検聴し
たところ、誤りは平均0.05%に過ぎなかった。つま
り、この発明による検証方法の有効性が高いことが理解
される。
【0014】
【発明の効果】以上述べたように、従来においては総て
のファイルを検聴する必要があったが、この発明によれ
ば、音声認識による認識結果とラベルとが不一致のファ
イルについてのみ検聴を行えばよく、検聴ファイル数を
著しく削減でき、人間の負荷を大きく軽くすることがで
きる。
【図面の簡単な説明】
【図1】この発明の方法を具体例を上げて説明するため
の図。
【図2】Aはこの発明の装置の実施例の機能的構成を示
すブロック図、Bはこの発明の方法の実施例の処理手順
を示す流れ図である。
【図3】従来の方法を具体例を上げて説明するための
図。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−54856(JP,A) 特開 昭59−128598(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】大規模な自然音声データと、その音声デー
    タの発話内容を意味するデータ(以下ラベルと記す)とか
    らなるファイルで構成される録音音声データベースの検
    証方法において、 前記音声データと前記ラベルとの一致/不一致の検証を
    音声認識手段を用いて行い、 前記検証処理の結果、不一致となった前記ファイル名を
    出力し、 前記不一致ファイル名についてのみ、音声データを音声
    再生して、検聴することを特徴とする録音音声データベ
    ース検証方法。
JP04344498A 1998-02-25 1998-02-25 録音音声データベース検証方法 Expired - Fee Related JP3285145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04344498A JP3285145B2 (ja) 1998-02-25 1998-02-25 録音音声データベース検証方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04344498A JP3285145B2 (ja) 1998-02-25 1998-02-25 録音音声データベース検証方法

Publications (2)

Publication Number Publication Date
JPH11242492A JPH11242492A (ja) 1999-09-07
JP3285145B2 true JP3285145B2 (ja) 2002-05-27

Family

ID=12663884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04344498A Expired - Fee Related JP3285145B2 (ja) 1998-02-25 1998-02-25 録音音声データベース検証方法

Country Status (1)

Country Link
JP (1) JP3285145B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体

Also Published As

Publication number Publication date
JPH11242492A (ja) 1999-09-07

Similar Documents

Publication Publication Date Title
US6704709B1 (en) System and method for improving the accuracy of a speech recognition program
US5031113A (en) Text-processing system
US7200555B1 (en) Speech recognition correction for devices having limited or no display
US20020152076A1 (en) System for permanent alignment of text utterances to their associated audio utterances
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
ZA200200904B (en) System and method for improving the accuracy of a speech recognition program.
JP3285145B2 (ja) 録音音声データベース検証方法
US20080167879A1 (en) Speech delimiting processing system and method
US20050144010A1 (en) Interactive language learning method capable of speech recognition
JP2000206987A (ja) 音声認識装置
JP2001325250A (ja) 議事録作成装置および議事録作成方法および記録媒体
JPS63149699A (ja) 音声入出力装置
JPH02206825A (ja) 議事録作成装置
AU776890B2 (en) System and method for improving the accuracy of a speech recognition program
JPS6326699A (ja) 連続語認識記録方法
JPH0130167B2 (ja)
JPS60245000A (ja) 発声訓練装置
JPH10133678A (ja) 音声再生装置
JPS60244989A (ja) 発音訓練機
JP2835320B2 (ja) 音声文書作成装置
JPH0792987A (ja) 質問文内容構成方式
JPH0354788A (ja) 発話データ処理装置
JPS63147200A (ja) 音声パラメ−タ修正方式
US20060074638A1 (en) Speech file generating system and method
JPS59176791A (ja) 音声登録方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080308

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090308

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090308

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100308

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110308

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110308

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120308

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130308

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees