JP6426971B2 - Learning data generation device and program thereof - Google Patents
Learning data generation device and program thereof Download PDFInfo
- Publication number
- JP6426971B2 JP6426971B2 JP2014211298A JP2014211298A JP6426971B2 JP 6426971 B2 JP6426971 B2 JP 6426971B2 JP 2014211298 A JP2014211298 A JP 2014211298A JP 2014211298 A JP2014211298 A JP 2014211298A JP 6426971 B2 JP6426971 B2 JP 6426971B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- learning data
- speech recognition
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 description 29
- 238000000034 method Methods 0.000 description 21
- 230000003044 adaptive effect Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012804 iterative process Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本願発明は、放送番組の音声認識に用いる音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置及びそのプログラムに関する。 The present invention relates to a learning data generation apparatus and program for generating learning data necessary for adaptation of an acoustic model used for speech recognition of a broadcast program by quasi-supervised learning.
現在、スポーツ番組や情報番組の一部では、リスピーク方式により字幕を制作している。このリスピーク方式とは、字幕キャスタと呼ばれる字幕制作用のリスピーカが復唱した番組音声を音声認識し、字幕を制作するものである(例えば、非特許文献1)。リスピーク方式には、特殊な復唱技術が求められるうえ、リスピーカを介して字幕を制作するため、時間を要する。よって、リスピーク方式によらず、番組音声をリアルタイムで音声認識できる手法が望まれている。 Currently, in some sports programs and information programs, subtitles are produced using the lispeak method. In this lispeak method, subtitles are produced by speech recognition of program sound reproduced by a subtitle production re-speaker called subtitle caster (for example, non-patent document 1). The respeak method requires special reproduction technology and requires time to produce subtitles through the re-speaker. Therefore, a method capable of recognizing program sound in real time is desired regardless of the response method.
これを実現するには、スポーツ番組や情報番組といった様々なジャンルの放送番組を精度よく音声認識できる音響モデルが必要になる。このとき、音響モデルを構築するための学習データとして、大規模な音声言語コーパスが必要になる。この音声言語コーパスには、実用化レベルの音響モデルを構築するために、高い精度が要求される。 In order to realize this, it is necessary to have an acoustic model that can accurately recognize voices of broadcast programs of various genres such as sports programs and information programs. At this time, a large-scale speech language corpus is required as learning data for constructing an acoustic model. The speech language corpus is required to have high accuracy in order to construct a practical level acoustic model.
従来より、音声言語コーパスを生成する手法として、準教師あり学習が提案されている(例えば、非特許文献2)。非特許文献2に記載の技術は、番組音声の音声認識結果と字幕テキストとからアライメントを行い、発話区間毎に音声認識結果と字幕テキストとが一致するか否かを判定し、一致する発話区間を抽出するものである。そして、非特許文献2に記載の技術は、抽出した発話区間に対応する音声データと字幕テキストを音響モデルの学習に用いる。
Conventionally, quasi-supervised learning has been proposed as a method for generating a speech language corpus (for example, Non-Patent Document 2). The technology described in Non-Patent
しかし、非特許文献2に記載の技術は、ニュース番組が対象のため、他のジャンルの放送番組に適用した場合、必要な量の学習データを生成できないという問題がある。
具体的には、情報番組では、背景音楽や雑音が含まれていたり、アナウンサ以外の出演者が正確に発話していないことが多い。このため、非特許文献2に記載の技術は、ニュース番組で学習した音響モデルを用いても、情報番組の音声認識精度が低くなり、音声認識結果と字幕テキストとの単語一致区間が減少してしまう。その結果、非特許文献2に記載の技術では、必要な量の学習データを生成できない。
However, the technology described in Non-Patent
Specifically, in information programs, background music and noise are often included, and performers other than announcers often do not utter correctly. For this reason, the technology described in Non-Patent
本願発明は、高精度な学習データをより多く生成できる学習データ生成装置及びそのプログラムを提供することを課題とする。 An object of the present invention is to provide a learning data generation device capable of generating more highly accurate learning data and a program thereof.
前記した課題に鑑みて、本願発明に係る学習データ生成装置は、放送番組の音声認識に用いる音響モデルの適応化に必要な学習データを、準教師あり学習により生成する学習データ生成装置であって、第3言語モデル生成手段と、音声認識手段と、アライメント手段と、置換手段と、学習データ生成手段と、を備える構成とした。 In view of the above problems, a learning data generation apparatus according to the present invention is a learning data generation apparatus that generates learning data necessary for adaptation of an acoustic model used for speech recognition of a broadcast program by quasi-supervised learning. And a third language model generation unit, a speech recognition unit, an alignment unit, a substitution unit, and a learning data generation unit.
かかる構成によれば、学習データ生成装置は、第3言語モデル生成手段によって、テキストコーパスから予め生成した第1言語モデルと、放送番組の字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する。 According to this configuration, the learning data generation device linearly interpolates the first language model generated in advance from the text corpus and the second language model generated in advance from the subtitle text of the broadcast program by the third language model generation means. To generate a third language model.
学習データ生成装置は、音声認識手段によって、第3言語モデル及び予め生成した音響モデルを用いて、放送番組を音声認識する。そして、学習データ生成装置は、アライメント手段によって、放送番組の音声認識結果を表す音声認識テキストと字幕テキストとの単語を、時刻順で対応付けるアライメントを行う。 The learning data generation apparatus performs speech recognition of the broadcast program by the speech recognition unit using the third language model and the acoustic model generated in advance. Then, the learning data generation apparatus performs alignment by using alignment means to associate words in the speech recognition text and subtitle text representing the speech recognition result of the broadcast program in time order.
ここで、音声認識の精度が字幕制作の精度よりも低いと考えられる。また、音声認識テキストと字幕テキストとの間で対応付けられた単語が異なり、かつ、その単語に前後する単語連鎖が一致する場合、音声認識テキストに含まれるその単語が、誤って音声認識された可能性が非常に高くなる。 Here, it is considered that the accuracy of speech recognition is lower than that of subtitle production. In addition, when the word associated between the speech recognition text and the subtitle text is different, and the word sequence preceding and following the word matches, the word included in the speech recognition text is erroneously recognized as speech recognition The possibilities are very high.
そこで、学習データ生成装置は、置換手段によって、音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、その単語が異なり、かつ、その単語の前後で予め設定された単語数の単語連鎖が一致するか否かによりその単語が置換対象であるか否かを判定する。そして、学習データ生成装置は、置換手段によって、その単語が置換対象の場合、音声認識テキストのその単語を字幕テキストの単語に置換する。 Therefore, the learning data generation device uses the substitution unit to change the word for each word associated between the speech recognition text and the subtitle text, and the number of words set in advance before and after the word Whether or not the word is a replacement target is determined based on whether or not the sequences match. Then, when the word is a replacement target, the learning data generation device replaces the word of the speech recognition text with the word of the subtitle text by the substitution means.
このように、学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換するので、音声認識テキストと字幕テキストとの単語一致区間を増加させることができる。 As described above, since the learning data generation device substitutes the words of the speech recognition text even when the words of the speech recognition text and the subtitle text do not match because the accuracy of the speech recognition is low, the speech recognition text and the subtitle text The word match interval of can be increased.
学習データ生成装置は、学習データ生成手段によって、放送番組の発話区間毎に、置換手段で置換された音声認識テキストと字幕テキストとが一致するか否かを判定し、一致すると判定された発話区間の音声データに、発話区間に対応した字幕テキストの単語をラベルとして付与する。このとき、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加しているため、一致すると判定される発話区間も増加することになる。 The learning data generation device determines, by the learning data generation means, whether or not the speech recognition text and the caption text replaced by the replacement means match each other during the speech interval of the broadcast program, and the speech intervals determined to match The words of the subtitle text corresponding to the speech section are added as labels to the voice data of. At this time, since the word matching section of the speech recognition text and the caption text increases, the learning data generation apparatus also increases the speech section determined to match.
本願発明によれば、以下のような優れた効果を奏する。
本願発明に係る学習データ生成装置は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、学習データ生成装置は、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。
According to the present invention, the following excellent effects can be obtained.
The learning data generation device according to the present invention replaces words in the speech recognition text even when the words in the speech recognition text and the subtitle text do not match because the accuracy of speech recognition is low. As a result, the learning data generation device can generate more accurate learning data because the word matching section between the voice recognition text and the subtitle text increases.
以下、本願発明の各実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。 Hereinafter, each embodiment of the present invention will be described in detail with reference to the drawings as appropriate. In each embodiment, means having the same function are denoted by the same reference numeral, and the description thereof is omitted.
(第1実施形態)
[音響モデル生成装置の構成]
図1を参照し、本願発明の第1実施形態に係る音響モデル生成装置(学習データ生成装置)1の構成について説明する。
音響モデル生成装置1は、音響モデルの適応化に必要な学習データを準教師あり学習により生成し、生成した学習データを用いて、音響モデルを適応化(生成)するものである。
この音響モデルは、ニュース番組に限定されず、スポーツ番組、情報番組といった様々なジャンルの放送番組の音声認識に用いることができる。
First Embodiment
[Configuration of acoustic model generation device]
The configuration of an acoustic model generation device (learning data generation device) 1 according to a first embodiment of the present invention will be described with reference to FIG.
The acoustic
This acoustic model is not limited to news programs, and can be used for speech recognition of broadcast programs of various genres such as sports programs and information programs.
図1のように、音響モデル生成装置1は、適応化言語モデル生成手段(第3言語モデル生成手段)10と、音声認識手段20と、アライメント手段30と、置換手段40と、学習データ生成手段50と、音響モデル適応化手段60とを備える。
As shown in FIG. 1, the acoustic
適応化言語モデル生成手段10は、ベースライン言語モデル(第1言語モデル)と、ドメイン言語モデル(第2言語モデル)とを補間することで、適応化言語モデル(第3言語モデル)を生成するものである。
The adaptive language
なお、ベースライン言語モデルとは、大規模テキストコーパスから予め生成した言語モデルのことである。
また、ドメイン言語モデルとは、放送番組に付与された字幕テキストから予め生成した言語モデルのことである。
The baseline language model is a language model generated in advance from a large-scale text corpus.
The domain language model is a language model generated in advance from subtitle text attached to a broadcast program.
適応化言語モデル生成手段10は、ベースライン言語モデル及びドメイン言語モデルが入力される。そして、適応化言語モデル生成手段10は、入力されたベースライン言語モデルとドメイン言語モデルとを線形補間し、適応化言語モデルを生成する。このとき、適応化言語モデル生成手段10は、ドメイン言語モデルをベースライン言語モデルより大きく重み付ける。
The adaptive language model generation means 10 receives a baseline language model and a domain language model. Then, the adaptive language
例えば、ベースライン言語モデル及びドメイン言語モデルがトライグラムの言語モデルであることとする。また、ベースライン言語モデル及びドメイン言語モデルには、下記のように、「今日」、「は」、「私」という同一の単語連鎖のエントリが存在し、それぞれのスコア(確率)が‘7.0’及び‘5.0’であることとする。また、ドメイン言語モデルの補間係数(重み係数)を‘0.9’とし、ベースライン言語モデルの補間係数を‘0.1’とした場合、以下のようになる。 For example, suppose that a baseline language model and a domain language model are trigram language models. Also, in the baseline language model and the domain language model, there are entries of the same word chain “Today”, “Ha” and “I” as described below, and their scores (probabilities) are '7. It shall be 0 'and' 5.0 '. Also, assuming that the interpolation coefficient (weighting coefficient) of the domain language model is “0.9” and the interpolation coefficient of the baseline language model is “0.1”, the following is obtained.
<各言語モデルの一例>
ベースライン言語モデル:「今日」、「は」、「私」 スコア7.0
ドメイン言語モデル :「今日」、「は」、「私」 スコア5.0
適応化言語モデル :「今日」、「は」、「私」 スコア5.2
<Example of each language model>
Baseline language model: "Today", "Ha", "I" Score 7.0
Domain language model: "Today", "Ha", "I" Score 5.0
Adaptive Language Model: "Today", "Ha", "I" Score 5.2
この例では、適応化言語モデル生成手段10は、ベースライン言語モデルのスコア‘7.0’とベースライン言語モデルの補間係数‘0.1’との乗算値‘0.7’を求める。また、適応化言語モデル生成手段10は、ドメイン言語モデルのスコア‘5.0’とドメイン言語モデルの補間係数‘0.9’との乗算値‘4.5’を求める。そして、適応化言語モデル生成手段10は、ベースライン言語モデルの乗算値とドメイン言語モデルとの乗算値を加算したスコア‘5.2’を求め、スコア‘5.2’の「今日」、「は」、「私」という単語連鎖のエントリを適応化言語モデルに追加する。
In this example, the adaptive language
その後、適応化言語モデル生成手段10は、生成した適応化言語モデルを音声認識手段20に出力する。
なお、ベースライン言語モデル、ドメイン言語モデル及び適応化言語モデルは、前記した例に限定されない。また、補間係数も前記した例に限定されない。
Thereafter, the adaptive language model generation means 10 outputs the generated adaptive language model to the speech recognition means 20.
Note that the baseline language model, the domain language model, and the adaptation language model are not limited to the examples described above. Also, the interpolation coefficient is not limited to the above-described example.
音声認識手段20は、適応化言語モデル生成手段10から入力された適応化言語モデル及びベースライン音響モデルを用いて、放送番組の音声認識を行うものである。ここで、音声認識手段20は、放送番組の音声が収録された音声データと、予め生成したベースライン音響モデルとが入力される。そして、音声認識手段20は、1パスデコーダや2パスデコーダといった任意の音声認識デコーダを用いて、この音声データを発話区間毎に音声認識し、音声認識結果を表す音声認識テキストを生成する。 The speech recognition means 20 performs speech recognition of a broadcast program using the adaptation language model and the baseline acoustic model input from the adaptation language model generation means 10. Here, the voice recognition means 20 receives voice data in which the voice of the broadcast program is recorded and a baseline acoustic model generated in advance. Then, the speech recognition means 20 performs speech recognition of the speech data for each speech section using an arbitrary speech recognition decoder such as a one pass decoder or a two pass decoder, and generates a speech recognition text representing a speech recognition result.
その後、音声認識手段20は、生成した音声認識テキストと、音声データ(不図示)とをアライメント手段30に出力する。
なお、後記する繰り返し処理の場合、音声認識手段20は、音響モデル適応化手段60から入力された適応化音響モデルでベースライン音響モデルを更新し、この適応化音響モデルと適応化言語モデルを用いて、放送番組の音声認識を行う。
Thereafter, the speech recognition means 20 outputs the generated speech recognition text and speech data (not shown) to the alignment means 30.
In the case of iterative processing to be described later, the
アライメント手段30は、音声認識手段20から入力された音声認識テキストと、字幕テキストとのアライメントを行うものである。
アライメントとは、音声認識テキスト及び字幕テキストに含まれる単語を、時刻順で対応付けることである。
The
The alignment is to associate words included in the speech recognition text and the subtitle text in time order.
ここで、アライメント手段30は、放送番組に付与された字幕テキストが入力される。そして、アライメント手段30は、音声認識テキストに含まれる単語と、字幕テキストに含まれる単語とを時刻順で対応付ける。その後、アライメント手段30は、アライメントした音声認識テキスト及び字幕テキストと、音声データとを置換手段40に出力する。
Here, the alignment means 30 receives the subtitle text attached to the broadcast program. Then, the
置換手段40は、アライメント手段30から入力された音声認識テキストと字幕テキストとの間で対応付けられた単語毎に、その単語が異なり、かつ、その単語に前後する単語連鎖が一致するか否かにより、その単語が置換対象であるか否かを判定するものである。そして、置換手段40は、その単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する。
The
<単語の置換>
図2を参照し、置換手段40による単語の置換について説明する(適宜図1参照)。
この図2では、音声認識テキスト100及び字幕テキスト200に含まれる単語a〜単語d、単語X及び単語Yを、「a」〜「d」、「X」及び「Y」と図示した。また、単語a,…,単語b及び単語c,…,単語dは、それぞれ、N個の単語が連続する単語連鎖である。また、音声認識テキスト100及び字幕テキスト200との間では、単語aから単語bまでの単語及び単語cから単語dまでの単語が一致することとする。
<Word substitution>
The substitution of words by the substitution means 40 will be described with reference to FIG. 2 (see FIG. 1 as appropriate).
In FIG. 2, the words a to d, the words X, and the words Y included in the
図2のように、音声認識テキスト100と字幕テキスト200との間では、単語a,…,単語b及び単語c,…,単語dが対応付けられたこととする。また、音声認識テキスト100の単語Xと、字幕テキスト200の単語Yが対応付けられたこととする。
As shown in FIG. 2, it is assumed that words a,..., Word b and words c,..., Word d are associated between the
置換手段40は、任意の値で単語数Nを予め設定しておく。この単語数Nは、アライメントのずれを抑制すると共に、学習データの量を増加させるため、‘5’に設定することが好ましい(実施例1参照)。 The substitution means 40 presets the number of words N with an arbitrary value. The number of words N is preferably set to '5' in order to suppress misalignment and increase the amount of learning data (see Example 1).
ここで、置換手段40は、音声認識テキスト100及び字幕テキスト200の先頭側から順に、対応付けられた単語が一致するか否かを判定する。まず、置換手段40は、音声認識テキスト100の単語aと、字幕テキスト200の単語aとが一致するので、単語aを置換対象として判定しない。単語aと同様、置換手段40は、単語bまでを置換対象として判定しない。
Here, the substitution means 40 determines, in order from the head side of the
また、置換手段40は、音声認識テキスト100の単語Xと、字幕テキスト200の単語Yとが異なる単語のため、一致しないと判定する。ここで、音声認識テキスト100の単語Xの前、及び、字幕テキスト200の単語Yの前には、同一の単語a,…,単語bがN個連続する。また、音声認識テキスト100の単語Xの後、及び、字幕テキスト200の単語Yの後には、同一の単語c,…,単語dがN個連続する。このことから、置換手段40は、音声認識テキスト100の単語X及び字幕テキスト200の単語Yに前後するN個の単語連鎖とが一致すると判定する。従って、置換手段40は、音声認識テキスト100の単語Xを置換対象として判定し、この単語Xを字幕テキスト200の単語Yに置換する。
Further, the
すなわち、置換手段40は、判定基準となる単語が異なっており、判定基準となる単語の前後にする単語連鎖が一致する場合、音声認識テキスト100の単語が誤って音声認識されたと判定して、字幕テキスト200の単語で置換する。
That is, when the words used as the determination reference are different, and the word sequence before and after the words used as the determination reference matches, the replacement means 40 determines that the word in the
続いて、置換手段40は、単語c,…,単語dが音声認識テキスト100と字幕テキスト200との間で一致するので、単語c,…,単語dを置換対象として判定しない。
その後、置換手段40は、置換された音声認識テキスト100と、字幕テキスト200と、音声データとを学習データ生成手段50に出力する。
Subsequently, since the words c,..., And d match between the
After that, the substitution means 40 outputs the
学習データ生成手段50は、学習データを生成するために、置換手段40から入力された音声認識テキスト100と字幕テキスト200とが一致するか否かを発話区間毎に判定するものである。
The learning
ここで、学習データ生成手段50は、音声認識テキスト100と字幕テキスト200との判定単位として、置換手段40から入力された音声データ及び音声認識テキスト100の発話区間を検出する。そして、学習データ生成手段50は、検出した発話区間毎に判定を行い、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する。
Here, the learning
例えば、図2において、単語aから単語dまでが同一の発話区間であることとする。この場合、学習データ生成手段50は、音声認識テキスト100の単語Xが単語Yに置換されているため、音声認識テキスト100と字幕テキスト200との間で単語aから単語dまでの発話区間が一致すると判定し、この発話区間から学習データを生成する。
For example, in FIG. 2, word a to word d are assumed to be the same utterance section. In this case, since the word X of the
その後、学習データ生成手段50は、生成した学習データを音響モデル適応化手段60に出力する。さらに、学習データ生成手段50は、生成した学習データを音声言語コーパスとして出力してもよい。 Thereafter, the learning data generation means 50 outputs the generated learning data to the acoustic model adaptation means 60. Furthermore, the learning data generation means 50 may output the generated learning data as a speech language corpus.
図1に戻り、音響モデル生成装置1の構成について、説明を続ける。
音響モデル適応化手段60は、学習データ生成手段50から入力された学習データを用いて、音響モデルを適応化するものである。例えば、音響モデル適応化手段60は、音響モデルとして、隠れマルコフモデル(HMM:Hidden Markov Model)を用いることができる。また、音響モデル適応化手段60は、音響モデルの適応化手法として、MAP(Maximum A. Posteriori estimation)法を用いてもよい。
Returning to FIG. 1, the description of the configuration of the acoustic
The acoustic model adaptation means 60 uses the learning data input from the learning data generation means 50 to adapt the acoustic model. For example, the acoustic model adaptation means 60 can use a Hidden Markov Model (HMM) as the acoustic model. Further, the acoustic model adaptation means 60 may use a MAP (Maximum A. Posteriori estimation) method as an acoustic model adaptation method.
また、音響モデル適応化手段60は、適応化した音響モデル(適応化音響モデル)を用いると音響認識の精度が向上するため、繰り返し処理を行うか否かを判定する。具体的には、音響モデル適応化手段60は、音響モデルを適応化した回数(適応化回数)をインクリメントし、この適応化回数が予め設定された閾値以下であるか否かを判定する。 Further, since the accuracy of the sound recognition is improved by using the adapted acoustic model (adapted acoustic model), the acoustic model adaptation means 60 determines whether or not to perform the iterative process. Specifically, the acoustic model adaptation means 60 increments the number of times of adaptation of the acoustic model (the number of adaptations), and determines whether the number of times of adaptation is equal to or less than a preset threshold.
ここで、適応化回数が閾値以下の場合、音響モデル適応化手段60は、繰り返し処理を行うと判定し、適応化音響モデルを音声認識手段20に出力する。
一方、適応化回数が閾値を超える場合、音響モデル適応化手段60は、繰り返し処理を行わないと判定し、適応化音響モデルを外部に出力し、処理を終了する。
Here, when the number of times of adaptation is equal to or less than the threshold value, the acoustic model adaptation means 60 determines that repetitive processing is to be performed, and outputs an adapted acoustic model to the speech recognition means 20.
On the other hand, when the number of times of adaptation exceeds the threshold value, the acoustic model adaptation means 60 determines that the iterative processing is not to be performed, outputs the adapted acoustic model to the outside, and ends the processing.
なお、繰り返し処理では、音声認識手段20がベースライン音響モデルの代わりに適応化音響モデルを用いる以外、音響モデル生成装置1の各手段が同様の処理を行うので、これ以上の説明を省略する。
In addition, in the iterative process, each means of the acoustic
また、音響モデル生成装置1は、置換手段40以外の各手段が下記参考文献1に記載されているため、これ以上の説明を省略する。
参考文献1:Lamel et.al,Lightly Supervised and Unsupervised Acoustic Model Training,Computer Speech and Language,Vol6,pp.115-129,2002
Moreover, since each means other than the substitution means 40 is described in the
Reference 1: Lamel et. Al, Lightly Supervised and Unsupervised Acoustic Model Training, Computer Speech and Language,
[音響モデル生成装置の動作]
図3を参照し、音響モデル生成装置1の動作について説明する(適宜図1参照)。
音響モデル生成装置1は、適応化言語モデル生成手段10によって、ベースライン言語モデルとドメイン言語モデルとを補間することで、適応化言語モデルを生成する(ステップS1)。
[Operation of acoustic model generation apparatus]
The operation of the acoustic
The acoustic
音響モデル生成装置1は、音声認識手段20によって、ステップS1で生成した適応化言語モデル及びベースライン音響モデルを用いて放送番組の音声認識を行う(ステップS2)。
音響モデル生成装置1は、アライメント手段30によって、ステップS2で生成した音音声認識テキストと、字幕テキストとのアライメントを行う(ステップS3)。
The acoustic
The acoustic
音響モデル生成装置1は、置換手段40によって、ステップS3でアライメントした音声認識テキストと字幕テキストとの単語が異なり、かつ、その単語に前後する単語数Nの単語連鎖が一致するか否かにより、その単語が置換対象であるか否かを判定する。そして、置換手段40は、その単語が置換対象の場合、音声認識テキストの単語を字幕テキストの単語に置換する(ステップS4)。
The acoustic
音響モデル生成装置1は、学習データ生成手段50によって、ステップS4で置換した音声認識テキストと字幕テキストとが一致するか否かを発話区間毎に判定する。そして、学習データ生成手段50は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、学習データを生成する(ステップS5)。
The acoustic
音響モデル生成装置1は、音響モデル適応化手段60によって、ステップS5で生成した学習データを用いて、音響モデルを適応化し、適応化回数をインクリメントする(ステップS6)。
音響モデル生成装置1は、音響モデル適応化手段60によって、適応化回数が閾値以下であるか否かにより、繰り返し処理を行うか否かを判定する(ステップS7)。
The acoustic
The acoustic
繰り返し処理を行う場合(ステップS7でYes)、音響モデル生成装置1は、ステップS2の処理に戻る。ステップS2の処理において、音声認識手段20は、ベースライン音響モデルの代わりにステップS6で適応化した音響モデルを用いて、放送番組の音声認識を行う。その後、音響モデル生成装置1は、ステップS3以降の処理を継続する。
繰り返し処理を行わない場合(ステップS7でNo)、音響モデル適応化手段60は、ステップS6で適応化した音響モデルを出力し、処理を終了する。
When the iterative process is performed (Yes in step S7), the acoustic
When the repetitive processing is not performed (No in Step S7), the acoustic model adaptation means 60 outputs the acoustic model adapted in Step S6, and ends the processing.
以上のように、本願発明の第1実施形態に係る音響モデル生成装置1は、音声認識の精度が低いために音声認識テキストと字幕テキストとの単語が一致しない場合でも、音声認識テキストの単語を置換する。これにより、音響モデル生成装置1は、音声認識テキストと字幕テキストとの単語一致区間が増加し、高精度な学習データをより多く生成することができる。
As described above, the acoustic
(第2実施形態)
[音響モデル生成装置の構成]
図4を参照し、本願発明の第2実施形態に係る音響モデル生成装置1Bの構成について、第1実施形態と異なる点を説明する(適宜図1参照)。
第2実施形態では、学習データ及び音声言語コーパスを異なるデータとして扱う点が、第1実施形態と異なる。
Second Embodiment
[Configuration of acoustic model generation device]
With respect to the configuration of the acoustic
The second embodiment differs from the first embodiment in that the learning data and the speech language corpus are treated as different data.
図4のように、音響モデル生成装置1Bは、適応化言語モデル生成手段10と、音声認識手段20と、アライメント手段30Bと、置換手段40と、学習データ生成手段50Bと、音響モデル適応化手段60と、音声言語コーパス生成手段70とを備える。
なお、アライメント手段30B、学習データ生成手段50B及び音声言語コーパス生成手段70以外の各手段は、第1実施形態と同様のため、説明を省略する。
As shown in FIG. 4, the acoustic
The respective units other than the
アライメント手段30Bは、アライメントした音声認識テキスト及び字幕テキストを置換手段40及び音声言語コーパス生成手段70に出力する。他の点、アライメント手段30Bは、第1実施形態と同様のため、説明を省略する。
学習データ生成手段50Bは、音声言語コーパスを出力しない以外、第1実施形態と同様のため、説明を省略する。
The
The learning
音声言語コーパス生成手段70は、発話区間毎に、アライメント手段30Bから入力された音声認識テキストと字幕テキストとが一致するか否かを判定するものである。そして、音声言語コーパス生成手段70は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、音声言語コーパスを生成する。
The speech language corpus generation means 70 determines, for each speech section, whether or not the speech recognition text input from the alignment means 30B matches the subtitle text. Then, the speech language
図1の学習データ生成手段50は、学習データを生成する際、単語が置換された音声認識テキスト(つまり、置換手段40から入力された音声認識テキスト)を用いる。一方、音声言語コーパス生成手段70は、音声言語コーパスを生成する際、単語が置換されていない音声認識テキスト(つまり、アライメント手段30Bから入力された音声認識テキスト)を用いる。
他の点、音声言語コーパス生成手段70は、図1の学習データ生成手段50と同様のため、説明を省略する。
When generating learning data, the learning data generation means 50 of FIG. 1 uses speech recognition texts in which words are substituted (that is, speech recognition texts input from the substitution means 40). On the other hand, when generating the speech language corpus, the speech language corpus generation means 70 uses speech recognition text in which words are not substituted (that is, speech recognition text input from the alignment means 30B).
Since the speech language corpus generation means 70 is the same as the learning data generation means 50 of FIG. 1 in other points, the description will be omitted.
[音響モデル生成装置の動作]
図5を参照し、音響モデル生成装置1Bの動作について説明する(適宜図3,図4参照)。
図5のステップS1〜S7の処理は、図3の各ステップと同様のため、説明を省略する。
[Operation of acoustic model generation apparatus]
The operation of the acoustic
The processes in steps S1 to S7 in FIG. 5 are the same as the steps in FIG.
音響モデル生成装置1Bは、音声言語コーパス生成手段70によって、ステップS3でアライメントした音声認識テキストと字幕テキストとが一致するか否かを発話区間毎に判定する。そして、音声言語コーパス生成手段70は、一致すると判定された発話区間の音声データに、この発話区間に対応した字幕テキストの単語をラベルとして付与することで、音声言語コーパスを生成する(ステップS8)。
なお、ステップS8の処理は、ステップS5の後に制限されず、ステップS3の後からステップS7の前までに実行すればよい。
The acoustic
The process of step S8 is not limited after step S5, and may be performed after step S3 to before step S7.
以上のように、本願発明の第2実施形態に係る音響モデル生成装置1Bは、第1実施形態と同様、音声認識テキストと字幕テキストとの単語一致区間が増加するため、高精度な学習データをより多く生成することができる。
As described above, in the acoustic
(実施例1)
以下、実施例1として、単語数Nの設定について説明する。
なお、字幕テキストは、十分な精度があり、誤っている可能性が低いこととする。
Example 1
Hereinafter, setting of the number of words N will be described as the first embodiment.
The subtitle text has sufficient accuracy and is unlikely to be erroneous.
字幕テキスト内に類似した単語連鎖が複数存在する場合、アライメントで対応付けた単語のずれが発生することがある。単語数Nを1,2といった小さな値で設定すると、アライメントのずれが解消されず、字幕テキストの誤った単語で音声認識テキストの単語を置換する可能性がある。これに対し、単語数Nを大きな値で設定すると、アライメントのずれが解消されるものの、置換対象と判定される単語数が減少し、発話ラベルとして利用可能な発話区間を検出できないことがある。 When there are a plurality of similar word chains in the subtitle text, misalignment of the words associated by alignment may occur. If the number of words N is set to a small value such as 1 or 2, misalignment may not be eliminated, and a word in speech recognition text may be replaced with an incorrect word in subtitle text. On the other hand, when the number of words N is set to a large value, although the misalignment is eliminated, the number of words determined to be replacement targets may decrease, and an utterance section available as an utterance label may not be detected.
以上のように、音声認識テキストと、字幕テキストとの不一致区間のうち、音声認識テキストから字幕テキストに置換すべき区間(単語)を精度よく検出するためには、適切な単語数Nを設定しなければならない。そこで、ある単語の前後N個の単語連鎖が一致し、かつ、その単語が異なるパターン数を放送番組から調査した。異なるパターンが1回の放送で多く発生する場合、アライメントのずれが発生する可能性が残るため、高精度な学習データの生成が見込めない。
なお、「ある単語の前後N個の単語連鎖が一致し、かつ、その単語が異なるパターン」を「異なるパターン」と略記する。
As described above, in order to accurately detect the section (word) to be substituted for the subtitle text from the speech recognition text among the mismatched sections for the speech recognition text and the subtitle text, an appropriate number of words N is set There must be. Therefore, the number of patterns in which N word sequences before and after a certain word match and the word is different from the number of patterns was investigated from the broadcast program. If many different patterns occur in one broadcast, there is a possibility that an alignment deviation will occur, so that it is not possible to anticipate the generation of highly accurate learning data.
It should be noted that “a pattern in which N word chains before and after a certain word match and the word is different” is abbreviated as “different pattern”.
調査対象とした放送番組は、『クローズアップ現代(放送時間26分)』、『まる得マガジン(放送時間5分)』、『サイエンスZERO(放送時間30分)』の100回放送分である。そして、単語数Nの値を変えながら、各調査対象の放送番組に含まれる異なるパターン数を調査した。 Broadcast programs to be surveyed are 100 times broadcasts of "Close-up modern (26 minutes broadcast time)," Marutoku Magazine (5 minutes broadcast time), and "Science ZERO (30 minutes broadcast time)". Then, while changing the value of the word number N, the number of different patterns included in the broadcast program to be checked was investigated.
調査結果を図6に示す。図6の横軸が単語数Nを表し、横軸が1放送回あたりの異なるパターン数の平均値を表す。また、図6では、‘■’が『クローズアップ現代』の結果を表し、‘◆’が『まる得マガジン』の結果を表し、‘▲’が『サイエンスZERO』の結果を表す。 The survey results are shown in FIG. The horizontal axis in FIG. 6 represents the number of words N, and the horizontal axis represents the average value of the number of different patterns per broadcast. Further, in FIG. 6, “’ ”represents the result of“ Close-up modern ”,“ 』” represents the result of “Marutoku Magazine”, and “得” represents the result of “Science ZERO”.
この図6において、単語数Nは、異なるパターン数が‘0’となり、かつ、その中で最小値を設定すればよい。3種類の調査対象の放送番組について、単語数N=5とすれば、異なるパターン数が‘0’となった。このことから、単語数N=5に設定すれば、アライメントのずれが発生しなくなると考えられる。 In FIG. 6, the number of words N is such that the number of different patterns is “0”, and the minimum value may be set among them. Assuming that the number of words N = 5 for three types of broadcast programs to be investigated, the number of different patterns is “0”. From this, it is considered that no misalignment occurs when the number of words N is set to 5.
(実施例2,3)
以下、音声言語コーパスの生成実験について説明する。
ここで、図1の音響モデル生成装置1と、図4の音響モデル生成装置1Bと、参考文献1に記載の手法とを用いて、音声言語コーパスを生成し、生成した音声言語コーパスを検証した。以下、図1の音響モデル生成装置1を実施例2とし、図4の音響モデル生成装置1Bを実施例3とし、参考文献1に記載の手法を比較例とする。
(Examples 2 and 3)
The following describes a speech language corpus generation experiment.
Here, a speech language corpus was generated using the acoustic
実施例2,3及び比較例では、『クローズアップ現代』、『まる得マガジン』、『サイエンスZERO』それぞれ2時間分の音声認識テキストと字幕テキストとから、学習データを生成した。これら3種類の放送番組は、実施例1のときと放送時間が異なり、2014年2月から6月に放送されている。 In Examples 2 and 3 and Comparative Example, learning data was generated from speech recognition texts and subtitle texts for two hours each of “Close-up Contemporary”, “Marudoku Magazine”, and “Science ZERO”. These three types of broadcast programs are broadcasted from February to June 2014, with broadcast times different from those in the first embodiment.
『クローズアップ現代』は、生放送の報道番組である。『クローズアップ現代』の字幕は、スピードワープロ方式で制作され、番組キャスタの発話内容をそのまま字幕化していることが多く、わずかな誤りが含まれる。
『まる得マガジン』は、オフラインの情報番組である。また、『サイエンスZERO』は、教養番組である。これら『まる得マガジン』及び『サイエンスZERO』の字幕は、予め制作されたものである。
"Close-up Contemporary" is a live broadcast news program. Subtitles of "Close-up Contemporary" are produced by a speed word processor method, and often the program caster's uttered content is subtitled as it is, including slight errors.
"Marutoku Magazine" is an offline information program. "Science ZERO" is a literary program. Subtitles of these "Marutoku Magazine" and "Science ZERO" are produced in advance.
適応化言語モデルは、放送番組の書き起こしから学習した語彙サイズ100キロバイトのベースライン言語モデルと、字幕テキストから学習したドメイン言語モデルとを用いて、放送回毎に生成した。このとき、ベースライン言語モデル及びドメイン言語モデルの補間係数は、それぞれ、‘0.1’及び‘0.9’である。 The adapted language model was generated for each broadcast using a baseline language model with a vocabulary size of 100 kilobytes learned from the transcription of a broadcast program and a domain language model learned from subtitle text. At this time, interpolation coefficients of the baseline language model and the domain language model are '0.1' and '0.9', respectively.
音声認識デコーダは、下記参考文献2に記載の2パスデコーダを利用した。この2パスデコーダは、男女の判定を行いながら、性別依存のHMMを用いて音声認識するものである。
参考文献2:今井他、放送用リアルタイム字幕制作のための音声認識技術の改善、第2回ドキュメント処理ワークショップ、pp.113-120、2008
The speech recognition decoder utilized the two-pass decoder described in
Reference 2: Imai et al., Improvement of Speech Recognition Technology for Real-time Subtitle Production for Broadcast, 2nd Document Processing Workshop, pp. 113-120, 2008
ベースライン音響モデルは、日本放送協会が放送したニュース番組から学習した。このニュース番組では、男性が340時間発話し、女性が240時間発話している。男女別の音響モデルは、5状態3自己ループのトライフォンHMMであり、状態共有により16混合分布の約4000状態を有している。これら男女別の音響モデルは、音声認識テキストと字幕テキストとのアライメント結果から抽出した学習データにより適応化した。 Baseline acoustic models were learned from news programs broadcast by the Japan Broadcasting Corporation. In this news program, a man speaks for 340 hours and a woman speaks for 240 hours. The gender-specific acoustic model is a tri-state HMM of 5-state 3-self-loop and has about 4000 states of 16 mixed distributions by state sharing. These male and female acoustic models were adapted by learning data extracted from the alignment result of speech recognition text and subtitle text.
発話区間の検出には、下記参考文献3に記載の手法を用いた。参考文献3に記載の手法は、男女並列の性別依存音響モデルによるエンドレスな音素認識を行い、音声/非音声の累積音素尤度比から発話区間を検出するものである。
参考文献3:T.Imai et.al,Online speech detection and dual-gender speech recognition for captioning broadcast news,IEICE Trans.Inf&Syst,Vol E90-D,no.8,pp.1286-1291,2007
The method described in
Reference 3: T. Imai et. Al, Online speech detection and dual-gender speech recognition for captioning broadcast news, IEICE Trans. Inf & Syst, Vol E90-D, no. 8, pp. 1286-1291, 2007
図7〜図9には、音響モデルの適応化回数(横軸)と音声言語コーパスの抽出率(縦軸)との関係を図示した。図7が『クローズアップ現代』の実験結果を表し、図8が『まる得マガジン』の実験結果を表し、図9が『サイエンスZERO』の実験結果を表す。また、図7〜図9では、‘▲’が実施例1を表し、‘■’が実施例2を表し、‘◆’が比較例を表す。 7 to 9 show the relationship between the number of times of adaptation of the acoustic model (horizontal axis) and the extraction rate of the speech language corpus (vertical axis). FIG. 7 shows the experimental result of “Close-up modern”, FIG. 8 shows the experimental result of “Marutoku Magazine”, and FIG. 9 shows the experimental result of “Science ZERO”. Moreover, in FIG. 7-FIG. 9, "(triangle | delta)" represents Example 1, "(triangle | delta)" represents Example 2, and "(triple)" represents a comparative example.
適応化回数が5回のとき、実施例1は、比較例と比べて、全ての放送番組で抽出率が1.3倍以上となった。また、実施例2は、比較例と比べて、全ての放送番組で抽出率が1.2倍以上となった。 When the number of times of adaptation is five, the extraction rate is 1.3 times or more for all the broadcast programs compared to the comparative example in the first embodiment. In addition, in Example 2, the extraction rate was 1.2 times or more for all broadcast programs as compared to the comparative example.
適応化回数が5回のとき、音声言語コーパスの発話ラベルの精度を検証した。実施例1では、誤った字幕テキストへの置換が行われ、実施例2よりも誤りが増加した。ここで、実施例1における発話ラベルの誤りは、「あの」、「えー」といった不用語に起因することがわかった。さらに、実施例1,2ともに、音声言語コーパスの精度が99%を超えるので、音響モデルの構築に十分な精度を有する。 When the number of adaptations was 5, the accuracy of the speech label of the speech language corpus was verified. In the first embodiment, substitution for an incorrect subtitle text is performed, and errors increase more than the second embodiment. Here, it has been found that the error in the speech label in Example 1 is caused by the incoincidence "Ano", "Eh". Furthermore, in both of the first and second embodiments, since the accuracy of the speech language corpus exceeds 99%, it has sufficient accuracy for constructing an acoustic model.
また、適応化回数が5回のとき、3種類の放送番組で音声言語コーパスの抽出率を比較した。その結果、『サイエンスZERO』、『まる得マガジン』、『クローズアップ現代』の順に抽出率が高くなった。 In addition, when the number of adaptations was 5, the extraction rates of the speech language corpus were compared for three types of broadcast programs. As a result, the extraction rate increased in the order of "Science ZERO", "Marutoku Magazine", and "Close-up Contemporary".
ここで、『クローズアップ現代』は、その放送番組の終了直前に字幕が付与されていなかったため、抽出率が最も低くなったと考えられる。同放送番組では、いくつかの放送回で終了直前まで番組キャスタが発話していたため、スピードワープロ方式で番組音声を全て字幕化できていなかった。
なお、スピードワープロ方式とは、複数のキーを同時に押下して入力する特殊な高速入力用キーボードを用いる字幕制作方式である。
Here, it is considered that the “close-up modern” has the lowest extraction rate since subtitles have not been given immediately before the end of the broadcast program. In the same broadcast program, the program caster uttered until just before the end of several broadcast runs, so it was not possible to subtitle all program audio by the speed word processor method.
The speed word processor method is a subtitle production method using a special high speed input keyboard which is input by pressing a plurality of keys simultaneously.
また、『まる得マガジン』の方が『サイエンスZERO』よりも、放送時間内での背景音楽の時間割合が高かった。このため、『サイエンスZERO』が『まる得マガジン』よりも抽出率が高くなったと考えられる。 In addition, “Marutoku Magazine” had a higher percentage of background music in airtime than “Science ZERO”. For this reason, it is thought that "Science ZERO" has a higher extraction rate than "Marutoku Magazine".
このことから、音声言語コーパスの抽出率を高くするためには、(1)放送番組の終了まで番組音声が字幕化されているオフライン字幕番組であること、(2)背景音楽が少ない放送番組であることが好ましい。 From this, in order to increase the extraction rate of the speech language corpus, (1) an off-line subtitle program in which program audio is subtitled until the end of the broadcast program; (2) a broadcast program with a small amount of background music Is preferred.
以上、本願発明の各実施形態及び各実施例を詳述してきたが、本願発明は前記した各実施形態及び各実施例に限られるものではなく、本願発明の要旨を逸脱しない範囲の設計変更等も含まれる。 As mentioned above, although each embodiment and each example of the present invention were explained in full detail, the present invention is not limited to each above-mentioned embodiment and each example mentioned above, The design change etc. which do not deviate from the gist of the present invention Also included.
前記した実施形態では、ベースライン言語モデル、ドメイン言語モデル及びベースライン音響モデルが外部から入力されることとして説明したが、本願発明は、これに限定されない。例えば、音響モデル生成装置は、各言語モデル及び各音響モデルを記憶、管理するデータベースを備え、このデータベースを参照して音響モデルを適応化してもよい。 In the above-described embodiment, the baseline language model, the domain language model, and the baseline acoustic model are described as being externally input, but the present invention is not limited thereto. For example, the acoustic model generation device may be provided with a database that stores and manages each language model and each acoustic model, and the acoustic model may be adapted with reference to this database.
前記した実施形態では、音響モデル生成装置(学習データ生成装置)を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、本願発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を学習データ生成装置として協調動作させる学習データ生成プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 In the above embodiment, the acoustic model generation device (the learning data generation device) is described as an independent hardware, but the present invention is not limited to this. For example, the present invention can also be realized by a learning data generation program that causes hardware resources of a computer such as a CPU, a memory, and a hard disk to cooperate as a learning data generation device. This program may be distributed via a communication line, or may be distributed by writing on a recording medium such as a CD-ROM or a flash memory.
1,1B 音響モデル生成装置(学習データ生成装置)
10 適応化言語モデル生成手段(第3言語モデル生成手段)
20 音声認識手段
30,30B アライメント手段
40 置換手段
50,50B 学習データ生成手段
60 音響モデル適応化手段
70 音声言語コーパス生成手段
1, 1 B Acoustic Model Generator (Learning Data Generator)
10 Adaptive Language Model Generation Means (Third Language Model Generation Means)
20 speech recognition means 30, 30B alignment means 40 substitution means 50, 50B learning data generation means 60 acoustic model adaptation means 70 speech language corpus generation means
Claims (5)
テキストコーパスから予め生成した第1言語モデルと、前記放送番組の字幕テキストから予め生成した第2言語モデルとを線形補間することで、第3言語モデルを生成する第3言語モデル生成手段と、
前記第3言語モデル及び予め生成した音響モデルを用いて、前記放送番組を音声認識する音声認識手段と、
前記放送番組の音声認識結果を表す音声認識テキストと前記字幕テキストとの単語を、時刻順で対応付けるアライメントを行うアライメント手段と、
前記音声認識テキストと前記字幕テキストとの間で対応付けられた単語毎に、当該単語が異なり、かつ、当該単語の前後で予め設定された単語数の単語連鎖が一致するか否かにより当該単語が置換対象であるか否かを判定し、当該単語が置換対象の場合、前記音声認識テキストの単語を前記字幕テキストの単語に置換する置換手段と、
前記放送番組の発話区間毎に、前記置換手段で置換された音声認識テキストと前記字幕テキストとが一致するか否かを判定し、一致すると判定された前記発話区間の音声データに、当該発話区間に対応した字幕テキストの単語をラベルとして付与することで、前記学習データを生成する学習データ生成手段と、
を備えることを特徴とする学習データ生成装置。 A learning data generation apparatus that generates learning data necessary for adaptation of an acoustic model used for speech recognition of a broadcast program by quasi-supervised learning,
Third language model generation means for generating a third language model by linearly interpolating a first language model generated in advance from a text corpus and a second language model generated in advance from subtitle text of the broadcast program;
Voice recognition means for voice recognition of the broadcast program using the third language model and a previously generated acoustic model;
Alignment means for performing alignment in which words of the speech recognition text representing the speech recognition result of the broadcast program and the subtitle text are associated in time order;
The word is different for each word associated between the voice recognition text and the subtitle text, and the word depends on whether or not the word sequence of the number of words set in advance before and after the word matches. A replacement unit that determines whether the word is a replacement target, and if the word is a replacement target, replacing the word of the speech recognition text with the word of the subtitle text;
It is determined whether or not the speech recognition text replaced by the replacement means matches the subtitle text for each speech zone of the broadcast program, and the speech zone of the speech zone determined to match is the speech zone Learning data generation means for generating the learning data by adding words of subtitle text corresponding to
A learning data generation apparatus comprising:
前記音声認識手段は、前記第3言語モデル及び前記適応化した音響モデルを用いて、前記放送番組を音声認識することを特徴とする請求項3に記載の学習データ生成装置。 The acoustic model adaptation means determines whether or not the number of times of adaptation of the acoustic model is equal to or less than a preset threshold value, and when the number of times is equal to or less than the threshold value, Output to recognition means,
4. The learning data generation apparatus according to claim 3 , wherein the speech recognition unit performs speech recognition on the broadcast program using the third language model and the adapted acoustic model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211298A JP6426971B2 (en) | 2014-10-16 | 2014-10-16 | Learning data generation device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211298A JP6426971B2 (en) | 2014-10-16 | 2014-10-16 | Learning data generation device and program thereof |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018173443A Division JP6578049B2 (en) | 2018-09-18 | 2018-09-18 | Learning data generation apparatus and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016080832A JP2016080832A (en) | 2016-05-16 |
JP6426971B2 true JP6426971B2 (en) | 2018-11-21 |
Family
ID=55958527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014211298A Active JP6426971B2 (en) | 2014-10-16 | 2014-10-16 | Learning data generation device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6426971B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6389296B1 (en) * | 2017-03-29 | 2018-09-12 | 西日本電信電話株式会社 | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM |
JP2019128790A (en) * | 2018-01-24 | 2019-08-01 | 株式会社リコー | Language processor, language processing method, and program |
CN111581455B (en) * | 2020-04-28 | 2023-03-21 | 北京字节跳动网络技术有限公司 | Text generation model generation method and device and electronic equipment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089786A (en) * | 1998-09-08 | 2000-03-31 | Nippon Hoso Kyokai <Nhk> | Method for correcting speech recognition result and apparatus therefor |
JP4869268B2 (en) * | 2008-03-04 | 2012-02-08 | 日本放送協会 | Acoustic model learning apparatus and program |
JP4928514B2 (en) * | 2008-08-27 | 2012-05-09 | 日本放送協会 | Speech recognition apparatus and speech recognition program |
JP5478478B2 (en) * | 2010-12-15 | 2014-04-23 | 日本放送協会 | Text correction apparatus and program |
-
2014
- 2014-10-16 JP JP2014211298A patent/JP6426971B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016080832A (en) | 2016-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6578049B2 (en) | Learning data generation apparatus and program thereof | |
US8543395B2 (en) | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization | |
US10418037B2 (en) | Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model | |
CN106847259B (en) | Method for screening and optimizing audio keyword template | |
US8645139B2 (en) | Apparatus and method of extending pronunciation dictionary used for speech recognition | |
KR102199246B1 (en) | Method And Apparatus for Learning Acoustic Model Considering Reliability Score | |
JP6637332B2 (en) | Spoken language corpus generation device and program thereof | |
Davel et al. | Validating smartphone-collected speech corpora | |
JP6426971B2 (en) | Learning data generation device and program thereof | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
Bordel et al. | Probabilistic kernels for improved text-to-speech alignment in long audio tracks | |
Lecouteux et al. | Imperfect transcript driven speech recognition | |
EP4000703A1 (en) | Apparatus and method for analysis of audio recordings | |
Bell et al. | A system for automatic alignment of broadcast media captions using weighted finite-state transducers | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2015082036A (en) | Acoustic-analysis-frame reliability calculation device, acoustic model adaptation device, voice recognition device, program therefor, and acoustic-analysis-frame reliability calculation method | |
Bang et al. | Improving Speech Recognizers by Refining Broadcast Data with Inaccurate Subtitle Timestamps. | |
Buzo et al. | Text spotting in large speech databases for under-resourced languages | |
Anguera et al. | Automatic cluster complexity and quantity selection: Towards robust speaker diarization | |
de Chaumont Quitry et al. | High quality agreement-based semi-supervised training data for acoustic modeling | |
Cucu et al. | Enhancing asr systems for under-resourced languages through a novel unsupervised acoustic model training technique | |
Desplanques et al. | Combining Joint Factor Analysis and iVectors for robust language recognition | |
JP6637333B2 (en) | Acoustic model generation device and its program | |
Wambacq et al. | Efficiency of speech alignment for semi-automated subtitling in Dutch | |
Manolache et al. | Automatic annotation of speech corpora using approximate transcripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180718 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6426971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |