JP2016024325A - Language model generation device, program for the same, and voice recognition device - Google Patents
Language model generation device, program for the same, and voice recognition device Download PDFInfo
- Publication number
- JP2016024325A JP2016024325A JP2014148223A JP2014148223A JP2016024325A JP 2016024325 A JP2016024325 A JP 2016024325A JP 2014148223 A JP2014148223 A JP 2014148223A JP 2014148223 A JP2014148223 A JP 2014148223A JP 2016024325 A JP2016024325 A JP 2016024325A
- Authority
- JP
- Japan
- Prior art keywords
- word
- replacement
- language model
- chain
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims description 31
- 230000006978 adaptation Effects 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 abstract description 20
- 230000014509 gene expression Effects 0.000 abstract description 10
- 238000000034 method Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 20
- 238000012986 modification Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 238000013515 script Methods 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、言語モデル生成装置、およびそのプログラム、ならびに音声認識装置に関する。 The present invention relates to a language model generation device, a program thereof, and a speech recognition device.
テレビ放送などの番組の制作において、音声認識処理を用いて番組の字幕テキストを自動的に作成する技術が用いられている。この技術は、番組の出演者、アナウンサー、ナレーターなどが発した音声を認識し、テキストを出力して、字幕制作に用いるものである。 In the production of a program such as a television broadcast, a technique for automatically creating a caption text of a program using a voice recognition process is used. This technology recognizes audio produced by program performers, announcers, narrators, etc., outputs text, and uses it for subtitle production.
音声認識処理は、一般に、入力される音声データに対して、音素などといった言語要素の音響的特徴を表す音響モデルと、文字や語などといった言語要素の列の出現頻度の特徴を表す言語モデルとを利用し、統計的計算により最尤テキストを得るものである。 Speech recognition processing generally includes an acoustic model that represents acoustic features of language elements such as phonemes for input speech data, and a language model that represents characteristics of appearance frequency of a string of language elements such as characters and words. Is used to obtain the maximum likelihood text by statistical calculation.
非特許文献1には、次の事項が記載されている。即ち、「1.はじめに」には、汎用性の高い言語モデルを構築するとともに、少量のタスク適合データを用いて言語モデル適応を行う手法などが提案されている旨が記載されている。また、適合度の高い言語モデルを構築する手法として、適合度の高いデータを疑似的に自動生成する手法があることが記載されている。また、「2.学習データの自動生成による言語モデル学習」には、学習データ中の単語を類似単語と置換することにより言語データを自動生成して学習データを増加させることが記載されている。また、「3.用法の違いを考慮した単語の置換」には、単語の置換をした場合にも適切な文を生成するために、格フレームを知識として用いることにより、名詞と動詞の係り受け関係を文脈として利用することが記載されている。非特許文献1に記載されている技術は、この文脈を利用することにより、置換する語を選択する。 Non-Patent Document 1 describes the following matters. That is, “1. Introduction” describes that a method for constructing a highly versatile language model and adapting a language model using a small amount of task matching data has been proposed. In addition, it is described that there is a technique for automatically generating data with a high degree of fitness as a method for constructing a language model with a high degree of fitness. Further, “2. Language model learning by automatically generating learning data” describes that language data is automatically generated by replacing words in learning data with similar words to increase learning data. Also, in “3. Word substitution taking account of differences in usage”, in order to generate an appropriate sentence even when a word is replaced, the case frame is used as knowledge, and the dependency between nouns and verbs is used. It describes the use of relationships as context. The technique described in Non-Patent Document 1 uses this context to select a replacement word.
放送される番組の中には、幅広いジャンルを扱うものがある。一般に、情報番組は、話題のバリエーションが大きいため、音声認識処理による字幕制作のためには、語彙や言語モデルを適応化する必要がある。そのために、放送番組の台本や進行表を利用することが考えられる。番組の台本や進行表には、出演者や、地名や、番組内で示される情報が簡潔に記載されているため、未知語を登録するための情報として用いることは有効である。しかしながら、台本中の表記が必ずしも番組出演者の発話と一致するわけではないため、台本や進行表を用いて言語モデルを適応化しても、適応化の効果が十分に得られない場合がある。例えば、番組出演者であるタレントのフルネーム(姓+名)が台本や進行表に記載されていても、番組の中ではその出演者がニックネームで呼ばれたり、姓+名のうちの名のみに「ちゃん」を付けて呼ばれたりする場合がある。また、台本や進行表の多くは書き言葉で表現されているが、番組出演者は、それらの書き言葉とは異なる言い回しで発話したり、会話調で発話したりする場合もある。 Some broadcast programs deal with a wide range of genres. In general, information programs have a large topic variation, so it is necessary to adapt the vocabulary and language model in order to produce subtitles by voice recognition processing. For this purpose, it is conceivable to use a script or progress table of a broadcast program. Since the program script and the progress table briefly describe the performers, place names, and information shown in the program, it is effective to use them as information for registering unknown words. However, since the notation in the script does not necessarily match the utterance of the program performer, the adaptation effect may not be sufficiently obtained even if the language model is adapted using the script or the progress table. For example, even if the full name (last name + first name) of the talent who is a program performer is listed in the script or progress sheet, the performer is called by a nickname in the program, or only the first name + first name Sometimes called with "chan". Although many scripts and progress tables are expressed in written language, program performers may speak in a different language from those written words or in a conversational manner.
これらの、台本や進行表の表記と、実際の発話との間の不一致による影響を軽減するために、台本や進行表に含まれる単語を同義語で置き換えることにより、言い換えのバリエーションを増やすことが考えられる。 In order to reduce the influence of the mismatch between the script and progress table notation and the actual utterance, the words in the script and progress table can be replaced with synonyms to increase the paraphrase variation. Conceivable.
しかしながら、単純に同義語を用いて単語の置換を行った文を生成しただけでは、置換するか否かによって生成される文の数にばらつきが出てしまう。つまり、単語が置換され得る部分であるか否かによって、単語連鎖の出現頻度に偏りが生じてしまう。また、置換前の単語と置換後の単語との間でその部分を含む単語連鎖の出現頻度を按分してしまうと、言語モデルの精度が低下してしまうおそれもある。 However, simply generating a sentence in which words are replaced using synonyms results in variations in the number of sentences generated depending on whether or not replacement is performed. That is, the appearance frequency of word chains is biased depending on whether or not the word can be replaced. In addition, if the appearance frequency of the word chain including the portion between the pre-substitution word and the post-substitution word is apportioned, the accuracy of the language model may be lowered.
例えば、非特許文献1に記載されている手法で単語を置換して言語モデルを適応化する場合、同手法では文章単位で単語を置換しており、置換によって生成される文章の数が増加するため、評価データに対する単語連鎖のヒット率が増加する一方で、言語モデルの予測能力は低下(パープレキシティが増加)する。その理由の一つは、文章内に複数の置換候補があった場合に生成文章数が多くなり、置換されていない単語を含む単語連鎖の頻度にも影響を与えてしまうためである。また、もう一つの理由は、単語連鎖内の単語を置換した部分において、置換元の単語の頻度を置換前後の単語で按分してしまい、置換元単語の連鎖頻度が小さくなってしまうためである。これに対して、非特許文献1の手法では、文章生成数に制約を設けている。 For example, when adapting a language model by replacing words with the method described in Non-Patent Document 1, the method replaces words in units of sentences, and the number of sentences generated by the replacement increases. Therefore, while the word chain hit rate for the evaluation data increases, the prediction ability of the language model decreases (perplexity increases). One reason for this is that when there are a plurality of replacement candidates in a sentence, the number of generated sentences increases, which also affects the frequency of word chain including unreplaced words. Another reason is that, in the part where the words in the word chain are replaced, the frequency of the replacement source word is divided by the words before and after the replacement, and the chain frequency of the replacement source word is reduced. . On the other hand, in the method of Non-Patent Document 1, there is a restriction on the number of sentence generations.
本発明は、上記の課題認識に基づいて行なわれたものであり、例えば台本や進行表などといった話題に適合した言語資源を用いて、表現のバリエーションにも対応でき、且つ精度の高い話題適応言語モデルを生成するための言語モデル生成装置やそのプログラム、その言語モデル生成装置を応用した音声認識装置を提供するものである。 The present invention has been made on the basis of the above problem recognition. For example, a language resource suitable for a topic such as a script or a progress table can be used to cope with variations in expression, and a topic adaptation language with high accuracy. The present invention provides a language model generation device for generating a model, a program thereof, and a speech recognition device to which the language model generation device is applied.
上記の課題を解決するため、本発明の一態様による言語モデル生成装置は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、を具備する。 In order to solve the above problem, a language model generation device according to an aspect of the present invention includes a replacement table storage unit that stores a relationship between a word and a synonym that can be replaced with the word, and an n word extracted from text data. Synonym substitution that reads a synonym of a word included in a chain (n is a positive integer) from the replacement table storage unit and generates a new n-word chain by replacing the word in the n-word chain with the synonym A frequency estimation unit that estimates the appearance frequency of the n-word chain after replacement based on the appearance frequency of the n-word chain before replacement, the appearance frequency of the n-word chain extracted from the text data, and A replacement language model generation unit that generates a replacement language model including the appearance frequency of the n word chain after replacement estimated by the frequency estimation unit.
これによれば、同義語置換部がn単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源(入力されるテキストデータ)から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のn単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。 According to this, since the synonym replacement unit replaces the word included in the n-word chain, the variation of expression is widened. That is, it is possible to generate a language model that is strong against fluctuation of expression from relatively small language resources (input text data). Moreover, since the frequency estimation unit estimates the appearance frequency of the n word chain after replacement, a language model based on the estimation result can be generated.
また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記n単語連鎖の出現頻度と、置換前の前記n単語連鎖のうちの置換された単語(置換元単語)を含むm単語連鎖(mは正整数であり、1≦m<≦n)の出現確率と、置換後の前記新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のn単語連鎖の出現頻度を推定する、ことを特徴とする。
一例としては、置換前のn単語連鎖の出現頻度に、上記の比率を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
Further, according to one aspect of the present invention, in the language model generation device, the frequency estimation unit may include the appearance frequency of the n word chain before replacement and the replaced word (n) of the n word chain before replacement ( The m word chain including m (replacement source word) (m is a positive integer, 1 ≦ m <≦ n) and the synonym corresponding to the m word chain in the new n word chain after replacement The appearance frequency of the n word chain after the replacement is estimated based on the ratio of the appearance probability of the m word chain after the replacement including the word.
As an example, the appearance frequency of the n word chain after replacement is estimated by multiplying the appearance frequency of the n word chain before replacement by the above ratio.
また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記n単語連鎖の出現頻度を、前記置換後のn単語連鎖の出現頻度と推定する、ことを特徴とする。
この構成により、置換後のn単語連鎖の出現頻度の推定のための処理が簡素化される。
Further, according to one aspect of the present invention, in the language model generation device, the frequency estimation unit estimates the appearance frequency of the n word chain before replacement as the appearance frequency of the n word chain after replacement. It is characterized by.
With this configuration, the process for estimating the appearance frequency of the n-word chain after replacement is simplified.
また、本発明の一態様は、上記の言語モデル生成装置において、前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたn単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるn単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部、をさらに具備することを特徴とする。 Further, according to one aspect of the present invention, in the language model generation device described above, the replacement language model generated by the replacement language model generation unit and a small scale based on the appearance frequency of n word chains extracted from the text data A model adaptation unit that generates an adaptive language model by interpolating a topic language model and a large-scale topic language model based on the appearance frequency of n word chains in a large-scale language resource of a general topic It is characterized by.
また、本発明の一態様は、上記の言語モデル生成装置と、言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、を具備する音声認識装置である。 According to another aspect of the present invention, there is provided the language model generation device, an acoustic model storage unit that stores acoustic feature data of a language element as an acoustic model, and the adaptive language model generated by the model adaptation unit. The speech recognition apparatus includes a recognition processing unit that performs input speech recognition processing by using the acoustic model read from the acoustic model storage unit while being used as a language model.
また、本発明の一態様は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶手段、テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶手段から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換手段、置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定手段、前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定手段によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成手段、としてコンピューターを機能させるためのプログラムである。 Further, according to one aspect of the present invention, a replacement table storage unit that stores a relationship between a word and a synonym that can be replaced with the word, a word included in an n-word chain (n is a positive integer) extracted from text data A synonym replacement unit that reads a synonym from the replacement table storage unit and generates a new n word chain by replacing the word in the n word chain with the synonym, and an appearance frequency of the n word chain before replacement The frequency estimation means for estimating the appearance frequency of the n word chain after replacement, the appearance frequency of the n word chain extracted from the text data, and the n word after replacement estimated by the frequency estimation means This is a program for causing a computer to function as replacement language model generation means for generating a replacement language model including the occurrence frequency of a chain.
本発明によれば、テキストデータを元にして、特定の話題に合う言語モデルを作成できる。また、同義語置換部がn単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源(入力されるテキストデータ)から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のn単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。
これによって、特定の話題や、発話スタイルに適応した言語モデルを作成することができる。
According to the present invention, a language model suitable for a specific topic can be created based on text data. In addition, since the synonym replacement unit replaces words included in the n-word chain, variations in expression are widened. That is, it is possible to generate a language model that is strong against fluctuation of expression from relatively small language resources (input text data). Moreover, since the frequency estimation unit estimates the appearance frequency of the n word chain after replacement, a language model based on the estimation result can be generated.
As a result, a language model adapted to a specific topic or utterance style can be created.
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本実施形態では、n単語連鎖の具体例として、3単語連鎖を用いる。
[第1の実施形態]
図1は、本実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。図示するように、置換言語モデル生成装置1は、テキストデータ取得部11と、三つ組生成・頻度計算部12と、同義語置換部13と、頻度推定部14と、置換言語モデル生成部15と、置換言語モデル記憶部16と、モデル適応部17と、置換テーブル生成部21と、置換テーブル記憶部22と、小規模話題言語モデル記憶部31と、大規模話題言語モデル記憶部32とを含んで構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In this embodiment, a three-word chain is used as a specific example of the n-word chain.
[First Embodiment]
FIG. 1 is a functional block diagram showing a schematic configuration of a replacement language model generation device according to the present embodiment. As shown in the figure, the replacement language model generation device 1 includes a text
テキストデータ取得部11は、テキストデータ91を外部から取得する。このテキストデータ91は、例えば、放送番組の台本や進行表のデータであり、そのテキストの内容は、特定の話題に属するものである。
三つ組生成・頻度計算部12は、テキストデータ取得部11が取得したテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の種類ごとの出現頻度を算出する。
The text
The triplet generation /
同義語置換部13は、テキストデータから抽出された3単語連鎖に含まれる単語の同義語を置換テーブル記憶部22から読み出し、その3単語連鎖における当該単語を当該同義語で置換することにより新たな3単語連鎖を生成する。
The
頻度推定部14は、置換前の3単語連鎖の出現頻度に基づいて、置換後の3単語連鎖の出現頻度を推定する。より具体的には、頻度推定部14は、置換前の3単語連鎖の出現頻度と、次に述べる所定の比率とに基づいて、置換後の3単語連鎖の出現頻度を推定する。その比率とは、3単語連鎖のうちの置換される単語を含むm単語連鎖(mは正整数であり、1≦m≦3)の出現確率に対する、3単語連鎖のうちの置換された単語を含むm単語連鎖の出現確率の比率である。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前の3単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後の3単語連鎖の出現頻度を推定する。なお、本実施形態においては、m=1である。3単語連鎖を用いることは、連鎖数として充分であり、適切である。また、言語モデルのデータの規模が大きくなり過ぎない。また、出現頻度に統計的な誤差が出にくい。置換後の3単語連鎖の出現頻度を推定するために、単語ユニグラム(m=1)の出現確率の比率(置換前後の比率)を用いることは、計算の規模として適切である。なお、3単語連鎖ではないn単語連鎖の一般的な場合については後述する(変形例2)。
The
置換言語モデル生成部15は、テキストデータ91から抽出されたn単語連鎖の出現頻度、および頻度推定部14によって推定された置換後のn単語連鎖の出現頻度を含んだ、置換言語モデルを生成する。
置換言語モデル記憶部16は、置換言語モデル生成部15によって生成された置換言語モデルを、記憶する。
The replacement language
The replacement language
モデル適応部17は、置換言語モデル生成部15によって生成された置換言語モデルと、テキストデータ91から抽出された3単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源における3単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成する。モデル適応部17は、上記の小規模話題言語モデルを、小規模話題言語モデル記憶部31から読みだす。また、モデル適応部17は、上記の大規模話題言語モデルを、大規模話題言語モデル記憶部32から読み出す。モデル適応部17は、生成した適応言語モデルを、適応言語モデル記憶部51に書き込む。
言い換えれば、モデル適応部17は、複数の言語モデル(特定の話題に基づき、且つ同義語による置換を用いて表現のバリエーションを持たされた言語モデルを含む)を線形補間することにより、言語モデルの適応化を行う。
The
In other words, the
置換テーブル生成部21は、外部の同義語対データベース92から読み込んだデータに基づいて、置換テーブルを生成し、置換テーブル記憶部22に書き込む。
置換テーブル記憶部22は、単語(置換元単語)と、その単語(置換元単語)と置換可能な同義語(置換単語)との対応関係を、テーブルとして記憶する。
The replacement
The replacement
小規模話題言語モデル記憶部31は、三つ組生成・頻度計算部12によって計算された出現頻度に基づく言語モデル(小規模話題言語モデル)を記憶する。つまり、小規模話題言語モデル記憶部31は、テキストデータ91に基づいた言語モデルを記憶する。つまり、この小規模話題言語モデルは、特定の話題における3単語連鎖の出現の特徴を表している。
The small topic language
大規模話題言語モデル記憶部32は、話題の偏りのない一般的な大規模言語モデルを記憶するものである。本実施形態では、大規模話題言語モデル記憶部32は、3単語連鎖の出現頻度を記憶するとともに、単語ユニグラムの出現確率をも記憶している。
The large-scale topic language
図2は、置換言語モデル生成装置1を利用した音声認識装置の概略構成を示す機能ブロック図である。図示するように、音声認識装置2は、置換言語モデル生成装置1と、適応言語モデル記憶部51と、発音辞書記憶部52と、音響モデル記憶部53と、入力音声取得部61と、認識処理部62と、認識結果出力部63とを含んで構成される。
FIG. 2 is a functional block diagram showing a schematic configuration of a speech recognition device using the replacement language model generation device 1. As illustrated, the
適応言語モデル記憶部51は、置換言語モデル生成装置1におけるモデル適応部17によって生成された適応言語モデルを記憶する。
発音辞書記憶部52は、単語ごとの発音辞書のデータを記憶する。発音辞書のデータは、外部のデータベースから予め得られるものである。
音響モデル記憶部53は、言語要素(音素や単語など)ごとの音響的特徴のデータを音響モデルとして記憶する。
The adaptive language
The pronunciation
The acoustic
入力音声取得部61は、認識処理の対象となる入力音声のデータを外部から取得し、認識処理部62に供給する。
認識処理部62は、モデル適応部17によって生成された適応言語モデルを言語モデルとして用いるとともに、発音辞書記憶部52を用いて音響モデル記憶部53から読み出した音響モデルを用いることによって、入力音声の認識処理を行う。認識処理部62は、入力音声のデータを、入力音声取得部61から受け取る。また、認識処理部62は、認識結果のテキストデータを認識結果出力部63に渡す。
認識結果出力部63は、認識処理部62から渡された認識結果のテキストデータを出力する。
The input
The
The recognition
図3は、置換テーブル記憶部22が記憶する置換テーブルの構成とデータ例を示す概略図である。図示するように、置換テーブルは、置換元単語と置換単語とを対応づけて記憶する。置換元単語とは、置換対象となる単語、言い換えれば置換される単語である。置換単語とは、置換によって使用される新たな単語、言い換えれば置換元単語を置換する単語である。一例として、置換テーブルは二次元の表形式のデータ構造を有する。1個の置換元単語に対して、単数あるいは複数の置換単語が存在し得る。同図において、置換単語の欄は、それぞれ複数の単語を格納し、それらはスラッシュ「/」で区切られている。例えば、置換元単語「テレビ」に対する置換単語として「テレビ放送」、「テレビジョン」、「テレヴィジョン」、「テレビセット」、「テレビ受信機」、「受像機」という単語が、この置換テーブルに登録されている。これは、置換元単語「テレビ」が、これらの置換単語のいずれかと置き換え得ることを表している。他の置換元単語についても同様である。
FIG. 3 is a schematic diagram showing a configuration of the replacement table stored in the replacement
次に、置換言語モデルの生成、さらに適応言語モデルの生成のための処理の手順について説明する。
図4は、置換言語モデル生成装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、装置の動作を説明する。
Next, a procedure for processing for generating a replacement language model and further generating an adaptive language model will be described.
FIG. 4 is a flowchart illustrating a processing procedure performed by the replacement language model generation device 1. Hereinafter, the operation of the apparatus will be described with reference to this flowchart.
まずステップS1において、置換テーブル生成部21が、外部の同義語対データベース92からデータを読み込み、そのデータを元に置換テーブルを生成する。置換テーブル生成部21は、同義語が互いに置換元単語と置換単語の関係になるように、置換テーブルを生成する。同義語対データベース92としては、一例として、独立行政法人情報通信研究機構(NICT)が公開している「日本語WordNet同義語対データベース」を用いることができる。
First, in step S1, the replacement
次に、ステップS2において、置換テーブル生成部21が、外部の同義語対データベース92から読み込んだ単語について、その発音のデータを発音辞書記憶部52に追加登録する。
Next, in step S <b> 2, the replacement
次に、ステップS3において、大規模話題言語モデル記憶部32に、大規模話題言語モデルを書き込み、利用可能とする。大規模話題言語モデルは、特定の話題に偏らず、汎用の話題に関する言語資源(新聞記事、雑誌記事、ウェブ文書等)から構築された言語モデルである。大規模話題言語モデルは、単語のNグラムごとの(出現確率)値をもっているものである。本実施形態では、3つ単語の連鎖を用い、以下では、「3単語連鎖」と呼ぶ。
Next, in step S3, the large-scale topic language model is written in the large-scale topic language
次に、ステップS4において、テキストデータ取得部11が、テキストデータ91を読み込む。テキストデータ91は、番組の台本や進行表等から得られるものである。
Next, in step S4, the text
次に、ステップS5において、三つ組生成・頻度計算部12が、テキストデータ取得部11によって読み込まれたテキストデータから、三つ組(3単語連鎖)を生成し、3単語連鎖の種類ごとに出現頻度を計算する。三つ組生成・頻度計算部12は、計算された出現頻度により、小規模話題言語モデルを構築する。小規模話題言語モデルは、単語のNグラムごとの(出現確率)値をもっているものである。三つ組生成・頻度計算部12は、構築した小規模話題言語モデルを、小規模話題言語モデル記憶部31に書き込む。
Next, in step S5, the triple generation /
次に、ステップS6において、同義語置換部13が、置換テーブル記憶部22から読み出した置換テーブルを用いて、三つ組生成・頻度計算部12によって求められた3単語連鎖に含まれる単語の置換を行い、置換後の3単語連鎖を生成する。
Next, in step S <b> 6, the
次に、ステップS7において、頻度推定部14が、同義語置換部13によって拡張された3単語連鎖について、出現頻度を推定する。このとき、頻度推定部14が、大規模話題言語モデル記憶部32から読み出した出現確率を用いる。頻度推定の具体的な方法については、後述する。なおここで、「拡張された3単語連鎖」とは、ステップS6における置換によって得られた3単語連鎖である。つまり、3単語連鎖に含まれる単語のうちの少なくとも一つが同義語によって置換されることにより、字面上の表記のバリエーションが増えることを意味している。
Next, in step S <b> 7, the
次に、ステップS8において、置換言語モデル生成部15が、頻度推定部14によって推定された頻度に基づいて、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。なお、置換言語モデル推定の具体的な方法については、後述する。
Next, in step S <b> 8, the replacement language
次に、ステップS9において、モデル適応部17は、大規模話題言語モデル記憶部32から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部31から読み出した小規模話題言語モデルと、置換言語モデル記憶部16から読み出した置換言語モデルとに基づき、モデル適応の処理を行う。モデル適応の処理は、ある3単語連鎖の出現確率について、各言語モデルから読み出した出現確率値に基づく線形補間を行うものである。モデル適応部17によって生成される言語モデルは、入力されたテキストデータ91に対応して特定の話題に適応した適応言語モデルである。モデル適応部17は、生成した適応言語モデルを、適応言語モデル記憶部51に書き込む。
Next, in step S9, the
なお、図2を参照して説明した通り、上記のような処理手順で生成され、適応言語モデル記憶部51に書き込まれた適応言語モデルは、認識処理部62によって読み出され、認識処理のために利用される。つまり、認識処理部62は、発音辞書記憶部52から読み出す発音辞書を参照しながら、適応言語モデル記憶部51から読み出した適応言語モデルと、音響モデル記憶部53から読み出した音響モデルとを用いて、入力音声の認識処理を行う。認識処理部62によって得られた認識結果を、認識結果出力部63が出力する。具体的には、認識処理部62は、上記の通り、言語モデルと音響モデルを適用し、統計的な処理を行うことにより、入力音声取得部61が取得した入力音声に対する、最尤テキストを出力する。なお、認識処理部62による認識処理自体は、既存技術を用いて行うことができる。
As described with reference to FIG. 2, the adaptive language model generated by the processing procedure as described above and written in the adaptive language
次に、置換言語モデルを生成するための、より詳細な処理の手順について説明する。
図5は、置換言語モデル生成装置1における、より詳細な手順を示すフローチャートである。この図5に示す手順は、図4におけるステップS5からステップS9までの処理を、より詳細に説明するものである。
Next, a more detailed processing procedure for generating a replacement language model will be described.
FIG. 5 is a flowchart showing a more detailed procedure in the replacement language model generation device 1. The procedure shown in FIG. 5 explains the processing from step S5 to step S9 in FIG. 4 in more detail.
まずステップS51において、三つ組生成・頻度計算部12は、テキストデータ取得部11が取得した話題適応のテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の頻度を求める。例えば、そのテキストデータ中に「衣装を補強」という3単語連鎖が2回出現した場合、その3単語連鎖を抽出するとともに、この3単語連鎖の出現頻度をカウントし、
「衣装−を−補強:頻度2」
というデータを一時的に生成する。テキストデータ内のすべての3単語連鎖についても、同様に、頻度を求める。
First, in step S51, the triplet generation /
“Costumes-Reinforcement:
Is temporarily generated. Similarly, the frequency is obtained for all three word chains in the text data.
次にステップS52において、同義語置換部13は、上のステップS51で求めた3単語連鎖に含まれる単語の置換を行う。具体的には、同義語置換部13は、三つ組生成・頻度計算部12が生成した3単語連鎖(頻度情報付)の集合を取得し、各3単語連鎖に含まれる単語の各々を鍵として、置換テーブル記憶部22に記憶されている置換テーブルを検索する。そして、鍵の単語が置換テーブルにおける置換元単語に該当する場合には、その置換元単語に対応する単数または複数の置換単語を置換テーブルから読み出し、それらの置換単語を用いてその3単語連鎖に含まれている単語を置換する。これにより、新たな3単語連鎖が生成される。なお、同義語置換部13は、ある置換元単語に対応する置換単語が複数存在する場合には、それぞれの置換単語を用いた置換を行い、新たな3単語連鎖を生成する。また、同義語置換部13は、元の3単語連鎖に含まれる単語のうちの複数が置換可能である場合には、すべての置換の組み合わせにより、新たな3単語連鎖を生成する。例えば、元の3単語連鎖が「A−B−C」(A,B,Cはそれぞれ単語)であって、単語Aが5通りに置換可能であり、単語Bが3通りに置換可能であり、単語Cが4通りに置換可能である場合には、通常は(5+1)×(3+1)×(4+1)−1で、119通りの置換を行う。つまりこの場合、元の1個の3単語連鎖と、新たに生成される119個の3単語連鎖とを合わせて、120通りの3単語連鎖への拡張が行われる。
In step S52, the
具体例として、「衣装 を 補強」という3単語連鎖に対して、図3で例示した置換テーブルを適用する。単語「衣装」が置換元単語に該当し、この置換元単語に対応する置換単語として、「お召し物」、「着物」、「ウェア」、「衣類」、「衣服」、(以下、続く)が存在する。そして、同義語置換部13は、すべての置換単語を用いた新たな3単語連鎖を生成する。元の3単語連鎖が、
「衣装−を−補強:頻度2」
であったため、新たに生成される3単語連鎖は、
「お召し物−を−補強:頻度2」
「着物−を−補強:頻度2」
「ウェア−を−補強:頻度2」
「衣類−を−補強:頻度2」
「衣服−を−補強:頻度2」(以下、続く)
である。なお、同義語置換部13は、ここで、元の3単語連鎖の出現頻度を引き継いで、新たに生成される3単語連鎖に適用する。上の例では、頻度が2である。
As a specific example, the replacement table illustrated in FIG. 3 is applied to a three-word chain “reinforcing costume”. The word “costume” corresponds to the replacement source word, and there are “sales”, “kimono”, “wear”, “clothing”, “clothes” (following) as replacement words corresponding to the replacement source word. To do. Then, the
“Costumes-Reinforcement:
Therefore, the newly generated 3-word chain is
"Observations-Reinforcement:
"Kimono-Reinforcement:
“Wear-reinforcement:
“Clothing-reinforcement:
"Clothing-reinforced-
It is. Here, the
次にステップS53において、頻度推定部14は、同義語置換部13によって新たに生成された3単語連鎖の頻度を推定する。
単語連鎖のうち、置換対象の単語が1個だけの場合には、具体的には、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度Csynを、下の式(1)により算出する。言い換えれば、頻度Csynは推定によって得られた頻度である。
Next, in step S53, the
In the case where there is only one replacement target word in the word chain, specifically, the
ここで、Corigは、置換前の元の3単語連鎖の頻度であり、三つ組生成・頻度計算部12によって算出されたものである。また、worigとwsynは、それぞれ、置換元単語とそれに対応する置換単語である。また、p(worig)とp(wsyn)は、それぞれ、置換元単語と置換単語の単語ユニグラム確率である。頻度推定部14は、p(worig)とp(wsyn)の値を、大規模話題言語モデル記憶部32から取得する。
Here, C orig is the frequency of the original three-word chain before replacement, and is calculated by the triplet generation /
なお、置換元単語worigと置換単語wsynとが置換テーブルにおいて対応付けて登録されていても、これらのいずれかが未知語で、言語モデルからその出現確率を得られない場合もある。例えば、置換元単語worigが未知語である場合には、上の式(1)での計算によらず、Csyn=10とする。また、置換単語wsynが未知語である場合には、これも式(1)での計算によらず、Csyn=0.01とする。 Even if the replacement source word w orig and the replacement word w syn are registered in association with each other in the replacement table, there is a case where any of these is an unknown word and its appearance probability cannot be obtained from the language model. For example, when the replacement source word w orig is an unknown word, C syn = 10 is set regardless of the calculation in the above equation (1). Further, when the replacement word w syn is an unknown word, this is also set to C syn = 0.01 regardless of the calculation in the equation (1).
上では、3単語連鎖のうちの1単語のみが置換対象となる場合を説明した。しかしながら、3単語連鎖の種類によっては、その単語に含まれる単語のうちの複数が置換対象となる場合もある。最大では、3個の単語が、置換対象となり得る。このように3単語連鎖のうちの複数の単語が置換された場合には、各々の1個の単語の置換を行った場合におけるCsynの値を前の式(1)によりそれぞれ計算し、それらのCsynの値のうちの最小の値を、置換後の3単語連鎖の頻度とする。つまり、頻度推定部14は、下の式(2)により、頻度Csynを算出する。
In the above description, the case where only one word in the three-word chain is to be replaced has been described. However, depending on the type of the three-word chain, a plurality of words included in the word may be subject to replacement. At most, three words can be replaced. In this way, when a plurality of words in the three-word chain are replaced, the value of C syn in the case where each one word is replaced is calculated by the previous equation (1), The minimum value among the values of C syn of is set as the frequency of the three-word chain after replacement. That is, the
ここで、iは、3単語連鎖に含まれる単語のうちの置換対象となる単語のための指標である。また、p(worig,i)は、その3単語連鎖における第i番目の置換元単語の単語ユニグラム確率である。また、p(wsyn,i)は、第i番目の置換単語の単語ユニグラム確率である。各単語のユニグラム確率は、大規模話題言語モデル記憶部32から読み出され、計算に使用される。
Here, i is an index for a word to be replaced among words included in the three-word chain. P (w orig, i ) is a word unigram probability of the i-th replacement source word in the three-word chain. P (w syn, i ) is the word unigram probability of the i-th replacement word. The unigram probability of each word is read from the large-scale topic language
ここで、単語の置換によって得られた一つの3単語連鎖の頻度の計算例について説明する。元の3単語連鎖「衣装−を−補強」に含まれる単語「衣装」を、置換単語「着物」で置換した場合を例にとると、置換後によって新たに生成された3単語連鎖「着物−を−補強」の頻度Csynは、次のように計算される。即ち、置換元単語worigは「衣装」である。また、置換単語wsynは「着物」である。これらの単語それぞれの単語ユニグラム確率は、大規模話題言語モデル記憶部32に格納されており、次の通りである。
p(worig)=2.81×10−5
p(wsyn)=4.07×10−5
つまり、
p(wsyn)/p(worig)=1.45
であり、また、
Corig=2
であるから、
Csyn=2×1.45=2.90
である。
Here, a calculation example of the frequency of one three-word chain obtained by word replacement will be described. Taking the case where the word “costume” included in the original three-word chain “costume-reinforcement” is replaced with the replacement word “kimono”, for example, the newly generated three-word chain “kimono-” The frequency C syn of “reinforcement” is calculated as follows. That is, the replacement source word w orig is “costume”. The replacement word w syn is “kimono”. The word unigram probabilities of each of these words are stored in the large-scale topic language
p (w orig ) = 2.81 × 10 −5
p (w syn ) = 4.07 × 10 −5
That means
p (w syn ) / p (w orig ) = 1.45
And also
C orig = 2
Because
C syn = 2 × 1.45 = 2.90
It is.
なお、値として扱いやすくするために、3単語連鎖の頻度にすべて一律に100を掛けて整数値とする。つまり、上の3単語連鎖「着物−を−補強」の頻度も、2.90に100を掛け、290とする。 In order to make it easy to handle as a value, all three-word chain frequencies are uniformly multiplied by 100 to obtain an integer value. In other words, the frequency of the upper three-word chain “kimono-reinforce” is also set to 290 by multiplying 2.90 by 100.
次にステップS54において、置換言語モデル生成部15は、上記の通り算出された、3単語連鎖の頻度を用いて、置換言語モデルを構築し、置換言語モデル記憶部16に書き込む。
In step S54, the replacement language
次にステップS55において、モデル適応部17は、大規模話題言語モデル記憶部32から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部31から読み出した小規模話題言語モデルと、置換言語モデル記憶部16から読み出した置換言語モデルとを用いて、線形補間により、話題適応言語モデルを算出する。具体的には、モデル適応部17は、下の式(3)による計算を行い、適応言語モデルを算出する。
In step S55, the
ここで、p(wi)は、ある3単語連鎖についての適応後の確率値であり、補間計算によって得られるものである。また、pL(wi)は、その3単語連鎖についての大規模話題言語モデルにおける確率値である。また、pS(wi)は、その3単語連鎖についての小規模話題言語モデルにおける確率値である。また、pR(wi)は、その3単語連鎖についての置換言語モデルにおける確率値である。そして、α、β、γは、それぞれの重み係数である。これらの係数α、β、γは、予め適宜設定される。一例としては、教師データに基づいた機械学習処理により、これらの係数α、β、γの最適値、または最適値に準ずる値を得ることもできる。 Here, p (w i ) is a probability value after adaptation for a certain three-word chain, and is obtained by interpolation calculation. In addition, p L (w i ) is a probability value in the large-scale topic language model for the three-word chain. Further, p S (w i ) is a probability value in the small topic language model for the three-word chain. P R (w i ) is a probability value in the replacement language model for the three-word chain. Α, β, and γ are respective weighting factors. These coefficients α, β, and γ are appropriately set in advance. As an example, an optimum value of these coefficients α, β, γ, or a value equivalent to the optimum value can be obtained by machine learning processing based on teacher data.
なお、上述した実施形態における置換言語モデル生成装置、および音声認識装置の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 In addition, you may make it implement | achieve the function of the replacement language model production | generation apparatus and speech recognition apparatus in embodiment mentioned above with a computer. In that case, the program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.
本実施形態を用いることにより、入力されるテキストデータに出現する通りの表現に限らず、それらの表現のバリエーションに対応した言語モデルを構築することができる。 By using the present embodiment, it is possible to construct a language model corresponding to variations of expressions as well as expressions that appear in input text data.
つまり、幅広いジャンルを取り扱う情報番組などの番組は、放送番組ごとに話題が大きく異なるため、音声認識に用いる語彙や言語モデルを適応化する必要がある。この適応化言語モデルには、話題の偏りのない一般的な大規模言語モデルと各放送番組の台本や進行表を利用した番組ごとの小規模言語モデルを混合した言語モデルが有用である。台本・進行表には、出演者や地名、番組内で示される情報が簡潔に記載されており未知語登録等には有効だが、台本中の表記が必ずしも番組出演者の発話と一致するわけではなく適応の効果が十分でない場合がある。さらに、台本・進行表の多くは書き言葉で表現されており、出演者は台本や進行表とは異なる言い回しや会話調で発話する場合もある。このような台本・進行表と発話の不一致を軽減するため、台本・進行表内の単語を同義語で置き換え、言い換えのバリエーションを増やすことにより、より有効な適応データを生成できる。本実施形態によれば、単語を同義語で置換した場合にも、頻度推定部が、置換前の単語連鎖の出現頻度に基づいて適切な頻度を推定することができる。よって、言語モデルの精度を向上させることができる。本実施形態では、台本や進行表等のテキストデータから同義語の置換に基づいて、単語連鎖のバリエーションを前後のn組の単語間でのみ増やすと共に、事前知識(大規模話題言語モデルにおける、n単語連鎖の部分連鎖の出現頻度。典型的には、単語ユニグラムの出現確率。)を利用して置換単語を含む単語連鎖の頻度を推定する。これにより、音声認識の性能を改善するための話題適応言語モデルの生成が可能となる。 That is, programs such as information programs that deal with a wide range of genres have different topics for each broadcast program, so it is necessary to adapt the vocabulary and language model used for speech recognition. As this adaptive language model, a language model in which a general large-scale language model without topical bias and a small-scale language model for each program using a script or a progress table of each broadcast program is useful. In the script / progress table, the performers, place names, and information shown in the program are succinctly written, which is effective for registering unknown words, etc. In some cases, the effect of adaptation is not sufficient. In addition, many scripts and progress tables are expressed in written language, and performers may utter in different phrases and conversations from the scripts and progress tables. In order to reduce the mismatch between the script / progress table and the utterance, more effective adaptation data can be generated by replacing words in the script / progress table with synonyms and increasing paraphrase variations. According to this embodiment, even when a word is replaced with a synonym, the frequency estimation unit can estimate an appropriate frequency based on the appearance frequency of the word chain before replacement. Therefore, the accuracy of the language model can be improved. In this embodiment, based on synonym substitution from text data such as a script and a progress table, the word chain variation is increased only between the preceding and following n sets of words, and prior knowledge (n in a large-scale topic language model, n The frequency of occurrence of the partial chain of the word chain (typically, the appearance probability of the word unigram) is used to estimate the frequency of the word chain including the replacement word. This makes it possible to generate a topic adaptive language model for improving speech recognition performance.
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、下記の変形例のいくつかを組み合わせて実施しても良い。 Although the embodiment has been described above, the present invention can also be implemented in the following modified example. In addition, you may implement combining some of the following modifications.
[変形例1]
上記の実施形態では、3単語連鎖による言語モデルを用いた。本変形例では、3単語連鎖に限らず、一般に、n単語連鎖(n=1,2,3,4,・・・)を用いる。つまり、言語モデルは、n単語連鎖の出現頻度を統計的に表すデータである。また、三つ組生成・頻度計算部12、同義語置換部13、頻度推定部14、置換言語モデル生成部15、モデル適応部17、認識処理部62等の各部も、3単語連鎖に限らず、n単語連鎖を処理対象とする。
[Modification 1]
In the above embodiment, a language model based on a three-word chain is used. In this modification, not only three word chains but generally n word chains (n = 1, 2, 3, 4,...) Are used. That is, the language model is data that statistically represents the appearance frequency of n word chains. Also, the triplet generation /
[変形例2]
上記の実施形態では、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度を推定する際に、式(1)によって、置換元単語の単語ユニグラム確率p(worig)に対する、置換単語の単語ユニグラム確率p(wsyn)を用いた。本変形例では、ここで、単語ユニグラム確率の比率の代わりに、置換元の2単語連鎖の出現確率(バイグラム(bigram)確率)と置換後の2単語連鎖の出現確率との比率を用いる。
[Modification 2]
In the above embodiment, when estimating the frequency of the three-word chain newly generated by the replacement, the
変形例1と変形例2を組み合わせる場合には、つまり3単語連鎖をn単語連鎖に一般化した場合には、n単語連鎖による言語モデルを用いるとともに、同義語の置換前後におけるm単語連鎖の出現確率の比率を用いる。ここで、1≦m≦nである(m,nは整数)。
つまり、本変形例では、頻度推定部14は、式(1)を変形することにより、置換によって新たに生成されたn単語連鎖の出現確率を、m単語連鎖の出現確率の比率を用いて推定する。具体的には、頻度推定部14は、置換前のn単語連鎖の出現頻度と、置換前のn単語連鎖のうちの置換元単語を含むm単語連鎖の出現確率と、置換後の新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、置換後のn単語連鎖の出現頻度を推定する。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前のn単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
なお、m単語連鎖の出現確率は、大規模話題言語モデル記憶部32から読み出される。
When modification 1 and
That is, in the present modification, the
The appearance probability of the m word chain is read from the large-scale topic language
本変形例の場合、式(1)の代わりに、下の式(4)を用いる。 In the case of this modification, the following formula (4) is used instead of formula (1).
式(4)において、p(worig|wm−1,wm−2,・・・)は、置換元の単語を含むm単語連鎖の出現確率である。また、p(wsyn|wm−1,wm−2,・・・)は、これに対応するものであり、置換後の単語を含むm単語連鎖の出現確率である。 In equation (4), p (w orig | w m−1 , w m−2 ,...) Is the appearance probability of the m word chain including the replacement source word. Further, p (w syn | w m−1 , w m−2 ,...) Corresponds to this, and is the appearance probability of the m word chain including the replaced word.
[変形例3]
本変形例では、頻度推定部14は、置換によって新たに生成された3単語連鎖の出現頻度を、置換前の3単語連鎖の出現頻度と同一であると推定する。
本変形例と変形例1とを組み合わせる場合には、頻度推定部14は、置換によって新たに生成されたn単語連鎖の出現頻度を、置換前のn単語連鎖の出現頻度と同一であると推定する。言い換えれば、頻度推定部14は、置換前のn単語連鎖の出現頻度を、そのまま用いて、置換後のn単語連鎖の出現頻度であると推定する。
[Modification 3]
In this modification, the
When combining this modification and Modification 1, the
[変形例4]
本変形例では、置換言語モデル生成装置1は、モデル適応部17を具備しない。置換言語モデル生成装置1において、置換言語モデル生成部15は、上の実施形態に記載した通り、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。この置換言語モデルは、特定の話題に特化した言語モデルである。この置換言語モデルは、元のテキストデータ91に出現する単語連鎖の出現頻度、およびそれらの単語連鎖に含まれる単語を同義語で置換したことによって得られる単語連鎖の出現頻度(推定された出現頻度)にもとづく出現頻度のデータを保持する。
[Modification 4]
In this modification, the replacement language model generation device 1 does not include the
[変形例5]
上記の実施形態においては、テキストデータ91として、放送番組の台本や進行表のテキストを用いることとしたが、利用するテキストデータはこれには限られない。本変形例では、学会や講演会等において事前に入手可能な発表概要やプレゼン資料を、テキストデータ91として用いる。そして、その学会や講演会等の音声認識による書き起こしテキストを生成するために、本変形例を適用できる。また、利用するテキストデータ91の例はこれらに限定されず、任意である。
[Modification 5]
In the above embodiment, the script data of the broadcast program and the text of the progress table are used as the
以上、この発明の実施形態およびその変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 As mentioned above, although embodiment of this invention and its modification were explained in full detail with reference to drawings, the concrete composition is not restricted to this embodiment, the design of the range which does not deviate from the gist of this invention, etc. included.
本発明は、音声認識処理全般に利用可能である。また、例えば、テレビの放送番組等、番組によって話題が大きく異なるようなコンテンツの音声を認識するために利用可能である。また、その一例として、放送のための字幕テキストの自動生成または半自動生成に利用可能である。 The present invention can be used for voice recognition processing in general. Also, for example, it can be used for recognizing the sound of content such as TV broadcast programs whose topics vary greatly depending on the program. As an example, it can be used for automatic generation or semi-automatic generation of subtitle text for broadcasting.
1 置換言語モデル生成装置(言語モデル生成装置)
2 音声認識装置
11 テキストデータ取得部
12 三つ組生成・頻度計算部
13 同義語置換部
14 頻度推定部
15 置換言語モデル生成部
16 置換言語モデル記憶部
17 モデル適応部
21 置換テーブル生成部
22 置換テーブル記憶部
31 小規模話題言語モデル記憶部
32 大規模話題言語モデル記憶部
51 適応言語モデル記憶部
52 発音辞書記憶部
53 音響モデル記憶部
61 入力音声取得部
62 認識処理部
63 認識結果出力部
1 Replacement language model generator (Language model generator)
2
Claims (6)
テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、
置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、
前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
を具備することを特徴とする言語モデル生成装置。 A replacement table storage unit that stores a relationship between a word and a synonym that can be replaced with the word;
A synonym of a word included in an n-word chain (n is a positive integer) extracted from text data is read from the replacement table storage unit, and a new n is obtained by replacing the word in the n-word chain with the synonym. A synonym replacement for generating word chains;
A frequency estimation unit that estimates an appearance frequency of the n word chain after the replacement based on an appearance frequency of the n word chain before the replacement;
A replacement language model generation unit that generates a replacement language model including the appearance frequency of the n word chain extracted from the text data and the appearance frequency of the n word chain after replacement estimated by the frequency estimation unit;
A language model generation apparatus comprising:
ことを特徴とする請求項1に記載の言語モデル生成装置。 The frequency estimation unit includes an m word chain including an occurrence frequency of the n word chain before replacement and a replacement source word of the n word chains before replacement (m is a positive integer, 1 ≦ m ≦ n) And the ratio of the occurrence probability of the replaced m word chain including the synonym corresponding to the m word chain in the new n word chain after replacement, based on the post-replacement Estimating the frequency of occurrence of n word chains of
The language model generation apparatus according to claim 1.
ことを特徴とする請求項1に記載の言語モデル生成装置。 The frequency estimation unit estimates the appearance frequency of the n word chain before replacement as the appearance frequency of the n word chain after replacement.
The language model generation apparatus according to claim 1.
をさらに具備することを特徴とする請求項1から3までのいずれか一項に記載の言語モデル生成装置。 The replacement language model generated by the replacement language model generation unit, a small topic language model based on the appearance frequency of n word chains extracted from the text data, and n in a large-scale language resource of a general topic A model adaptation unit that generates an adaptive language model by interpolating a large-scale topic language model based on the appearance frequency of word chains,
The language model generation device according to any one of claims 1 to 3, further comprising:
言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、
前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、
を具備することを特徴とする音声認識装置。 The language model generation device according to claim 4,
An acoustic model storage unit that stores acoustic feature data of language elements as an acoustic model;
Using the adaptive language model generated by the model adaptation unit as a language model, and using the acoustic model read from the acoustic model storage unit, a recognition processing unit for performing recognition processing of input speech;
A speech recognition apparatus comprising:
テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶手段から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換手段、
置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定手段、
前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定手段によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成手段、
としてコンピューターを機能させるためのプログラム。 A replacement table storage means for storing a relationship between a word and a synonym replaceable with the word;
A synonym of a word included in an n-word chain (n is a positive integer) extracted from text data is read from the replacement table storage means, and the word in the n-word chain is replaced with the synonym to create a new n Synonym replacement means for generating word chains,
A frequency estimating means for estimating an appearance frequency of the n-word chain after the replacement based on an appearance frequency of the n-word chain before the replacement;
A replacement language model generating means for generating a replacement language model including the appearance frequency of the n word chain extracted from the text data and the appearance frequency of the n word chain after the replacement estimated by the frequency estimation means;
As a program to make the computer function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014148223A JP6485941B2 (en) | 2014-07-18 | 2014-07-18 | LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014148223A JP6485941B2 (en) | 2014-07-18 | 2014-07-18 | LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016024325A true JP2016024325A (en) | 2016-02-08 |
JP6485941B2 JP6485941B2 (en) | 2019-03-20 |
Family
ID=55271109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014148223A Active JP6485941B2 (en) | 2014-07-18 | 2014-07-18 | LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6485941B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146604A (en) * | 2017-04-27 | 2017-09-08 | 北京捷通华声科技股份有限公司 | A kind of language model optimization method and device |
WO2018057166A1 (en) | 2016-09-23 | 2018-03-29 | Intel Corporation | Technologies for improved keyword spotting |
JP2019185400A (en) * | 2018-04-10 | 2019-10-24 | 日本放送協会 | Sentence generation device, sentence generation method, and sentence generation program |
US11545144B2 (en) | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091967A (en) * | 2000-09-14 | 2002-03-29 | Nippon Hoso Kyokai <Nhk> | Language model preparing device and recording medium with language model preparation program recorded thereon |
JP2005031255A (en) * | 2003-07-09 | 2005-02-03 | Mitsubishi Electric Corp | Dictionary creating device and speech recognizing device |
JP2006085179A (en) * | 2003-01-15 | 2006-03-30 | Matsushita Electric Ind Co Ltd | Broadcast reception method, broadcast receiving system, recording medium, and program |
WO2007138875A1 (en) * | 2006-05-31 | 2007-12-06 | Nec Corporation | Speech recognition word dictionary/language model making system, method, and program, and speech recognition system |
WO2010125736A1 (en) * | 2009-04-30 | 2010-11-04 | 日本電気株式会社 | Language model creation device, language model creation method, and computer-readable recording medium |
JP2011164175A (en) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | Language model generating device, program thereof, and speech recognition system |
-
2014
- 2014-07-18 JP JP2014148223A patent/JP6485941B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091967A (en) * | 2000-09-14 | 2002-03-29 | Nippon Hoso Kyokai <Nhk> | Language model preparing device and recording medium with language model preparation program recorded thereon |
JP2006085179A (en) * | 2003-01-15 | 2006-03-30 | Matsushita Electric Ind Co Ltd | Broadcast reception method, broadcast receiving system, recording medium, and program |
JP2005031255A (en) * | 2003-07-09 | 2005-02-03 | Mitsubishi Electric Corp | Dictionary creating device and speech recognizing device |
WO2007138875A1 (en) * | 2006-05-31 | 2007-12-06 | Nec Corporation | Speech recognition word dictionary/language model making system, method, and program, and speech recognition system |
WO2010125736A1 (en) * | 2009-04-30 | 2010-11-04 | 日本電気株式会社 | Language model creation device, language model creation method, and computer-readable recording medium |
JP2011164175A (en) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | Language model generating device, program thereof, and speech recognition system |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018057166A1 (en) | 2016-09-23 | 2018-03-29 | Intel Corporation | Technologies for improved keyword spotting |
EP3516651A4 (en) * | 2016-09-23 | 2020-04-22 | Intel Corporation | Technologies for improved keyword spotting |
CN107146604A (en) * | 2017-04-27 | 2017-09-08 | 北京捷通华声科技股份有限公司 | A kind of language model optimization method and device |
CN107146604B (en) * | 2017-04-27 | 2020-07-03 | 北京捷通华声科技股份有限公司 | Language model optimization method and device |
JP2019185400A (en) * | 2018-04-10 | 2019-10-24 | 日本放送協会 | Sentence generation device, sentence generation method, and sentence generation program |
JP7084761B2 (en) | 2018-04-10 | 2022-06-15 | 日本放送協会 | Statement generator, statement generator and statement generator |
US11545144B2 (en) | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
Also Published As
Publication number | Publication date |
---|---|
JP6485941B2 (en) | 2019-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (en) | Error correction model learning device and program | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
WO2017061027A1 (en) | Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
JP6051004B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP2016075740A (en) | Voice processing device, voice processing method, and program | |
JP6485941B2 (en) | LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE | |
CN107767858B (en) | Pronunciation dictionary generating method and device, storage medium and electronic equipment | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
JP6810580B2 (en) | Language model learning device and its program | |
JP2012018201A (en) | Text correction and recognition method | |
JP6183988B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
JP6300394B2 (en) | Error correction model learning device and program | |
JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
JP2010175765A (en) | Speech recognition device and speech recognition program | |
JP2008241970A (en) | Speaker adaptation device, speaker adaptation method and speaker adaptation program | |
JP2013182260A (en) | Language model creation device, voice recognition device and program | |
JP2004348552A (en) | Voice document search device, method, and program | |
JP5268825B2 (en) | Model parameter estimation apparatus, method and program | |
JP4362054B2 (en) | Speech recognition apparatus and speech recognition program | |
JP5264649B2 (en) | Information compression model parameter estimation apparatus, method and program | |
JP5860439B2 (en) | Language model creation device and method, program and recording medium | |
WO2023036283A1 (en) | Online class interaction method and online class system | |
JP2014119559A (en) | Speech recognition device, error correction model learning method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170529 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180815 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6485941 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |