JP2016024325A - Language model generation device, program for the same, and voice recognition device - Google Patents

Language model generation device, program for the same, and voice recognition device Download PDF

Info

Publication number
JP2016024325A
JP2016024325A JP2014148223A JP2014148223A JP2016024325A JP 2016024325 A JP2016024325 A JP 2016024325A JP 2014148223 A JP2014148223 A JP 2014148223A JP 2014148223 A JP2014148223 A JP 2014148223A JP 2016024325 A JP2016024325 A JP 2016024325A
Authority
JP
Japan
Prior art keywords
word
replacement
language model
chain
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014148223A
Other languages
Japanese (ja)
Other versions
JP6485941B2 (en
Inventor
麻乃 一木
Manon Ichiki
麻乃 一木
和穂 尾上
Kazuho Onoe
和穂 尾上
彰夫 小林
Akio Kobayashi
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014148223A priority Critical patent/JP6485941B2/en
Publication of JP2016024325A publication Critical patent/JP2016024325A/en
Application granted granted Critical
Publication of JP6485941B2 publication Critical patent/JP6485941B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To generate a language model adapted to a topic, showing wide variations in expression, and highly accurate.SOLUTION: A language model generation device includes: a substitution table storage part which stores a relation between a word and a synonym substituted by the word; a synonym substitution part which reads from the substitution table storage part the synonym of the word included in an n word chain (n is an integer) extracted from text data and generates a new n word chain by substituting the word in the n word chain with the synonym; and a frequency estimation part which estimates appearance frequency of the n word chain after substitution on the basis of appearance frequency of the n word chain before substitution. The substitution language model generation part generates a substitution language model by using the appearance frequency estimated by the frequency estimation part.SELECTED DRAWING: Figure 1

Description

本発明は、言語モデル生成装置、およびそのプログラム、ならびに音声認識装置に関する。   The present invention relates to a language model generation device, a program thereof, and a speech recognition device.

テレビ放送などの番組の制作において、音声認識処理を用いて番組の字幕テキストを自動的に作成する技術が用いられている。この技術は、番組の出演者、アナウンサー、ナレーターなどが発した音声を認識し、テキストを出力して、字幕制作に用いるものである。   In the production of a program such as a television broadcast, a technique for automatically creating a caption text of a program using a voice recognition process is used. This technology recognizes audio produced by program performers, announcers, narrators, etc., outputs text, and uses it for subtitle production.

音声認識処理は、一般に、入力される音声データに対して、音素などといった言語要素の音響的特徴を表す音響モデルと、文字や語などといった言語要素の列の出現頻度の特徴を表す言語モデルとを利用し、統計的計算により最尤テキストを得るものである。   Speech recognition processing generally includes an acoustic model that represents acoustic features of language elements such as phonemes for input speech data, and a language model that represents characteristics of appearance frequency of a string of language elements such as characters and words. Is used to obtain the maximum likelihood text by statistical calculation.

非特許文献1には、次の事項が記載されている。即ち、「1.はじめに」には、汎用性の高い言語モデルを構築するとともに、少量のタスク適合データを用いて言語モデル適応を行う手法などが提案されている旨が記載されている。また、適合度の高い言語モデルを構築する手法として、適合度の高いデータを疑似的に自動生成する手法があることが記載されている。また、「2.学習データの自動生成による言語モデル学習」には、学習データ中の単語を類似単語と置換することにより言語データを自動生成して学習データを増加させることが記載されている。また、「3.用法の違いを考慮した単語の置換」には、単語の置換をした場合にも適切な文を生成するために、格フレームを知識として用いることにより、名詞と動詞の係り受け関係を文脈として利用することが記載されている。非特許文献1に記載されている技術は、この文脈を利用することにより、置換する語を選択する。   Non-Patent Document 1 describes the following matters. That is, “1. Introduction” describes that a method for constructing a highly versatile language model and adapting a language model using a small amount of task matching data has been proposed. In addition, it is described that there is a technique for automatically generating data with a high degree of fitness as a method for constructing a language model with a high degree of fitness. Further, “2. Language model learning by automatically generating learning data” describes that language data is automatically generated by replacing words in learning data with similar words to increase learning data. Also, in “3. Word substitution taking account of differences in usage”, in order to generate an appropriate sentence even when a word is replaced, the case frame is used as knowledge, and the dependency between nouns and verbs is used. It describes the use of relationships as context. The technique described in Non-Patent Document 1 uses this context to select a replacement word.

清水信哉,齋藤大輔,鈴木雅之,峯松信明,広瀬啓吉,用法の違いを考慮した類似単語の置換とそれを用いた言語モデル学習データ自動生成(Automatic sentence generation for training language models based on word replacement considering the changes of word usage),人工知能学会全国大会論文集(CD−ROM),第24巻,2G1−OS3−4,2010年Nobuya Shimizu, Daisuke Saito, Masayuki Suzuki, Nobuaki Hamamatsu, Keikichi Hirose, Automatic sentence generation for training language models based on word replacement considering the changes of word usage), National Conference of the Japanese Society for Artificial Intelligence (CD-ROM), Vol. 24, 2G1-OS3-4, 2010

放送される番組の中には、幅広いジャンルを扱うものがある。一般に、情報番組は、話題のバリエーションが大きいため、音声認識処理による字幕制作のためには、語彙や言語モデルを適応化する必要がある。そのために、放送番組の台本や進行表を利用することが考えられる。番組の台本や進行表には、出演者や、地名や、番組内で示される情報が簡潔に記載されているため、未知語を登録するための情報として用いることは有効である。しかしながら、台本中の表記が必ずしも番組出演者の発話と一致するわけではないため、台本や進行表を用いて言語モデルを適応化しても、適応化の効果が十分に得られない場合がある。例えば、番組出演者であるタレントのフルネーム(姓+名)が台本や進行表に記載されていても、番組の中ではその出演者がニックネームで呼ばれたり、姓+名のうちの名のみに「ちゃん」を付けて呼ばれたりする場合がある。また、台本や進行表の多くは書き言葉で表現されているが、番組出演者は、それらの書き言葉とは異なる言い回しで発話したり、会話調で発話したりする場合もある。   Some broadcast programs deal with a wide range of genres. In general, information programs have a large topic variation, so it is necessary to adapt the vocabulary and language model in order to produce subtitles by voice recognition processing. For this purpose, it is conceivable to use a script or progress table of a broadcast program. Since the program script and the progress table briefly describe the performers, place names, and information shown in the program, it is effective to use them as information for registering unknown words. However, since the notation in the script does not necessarily match the utterance of the program performer, the adaptation effect may not be sufficiently obtained even if the language model is adapted using the script or the progress table. For example, even if the full name (last name + first name) of the talent who is a program performer is listed in the script or progress sheet, the performer is called by a nickname in the program, or only the first name + first name Sometimes called with "chan". Although many scripts and progress tables are expressed in written language, program performers may speak in a different language from those written words or in a conversational manner.

これらの、台本や進行表の表記と、実際の発話との間の不一致による影響を軽減するために、台本や進行表に含まれる単語を同義語で置き換えることにより、言い換えのバリエーションを増やすことが考えられる。   In order to reduce the influence of the mismatch between the script and progress table notation and the actual utterance, the words in the script and progress table can be replaced with synonyms to increase the paraphrase variation. Conceivable.

しかしながら、単純に同義語を用いて単語の置換を行った文を生成しただけでは、置換するか否かによって生成される文の数にばらつきが出てしまう。つまり、単語が置換され得る部分であるか否かによって、単語連鎖の出現頻度に偏りが生じてしまう。また、置換前の単語と置換後の単語との間でその部分を含む単語連鎖の出現頻度を按分してしまうと、言語モデルの精度が低下してしまうおそれもある。   However, simply generating a sentence in which words are replaced using synonyms results in variations in the number of sentences generated depending on whether or not replacement is performed. That is, the appearance frequency of word chains is biased depending on whether or not the word can be replaced. In addition, if the appearance frequency of the word chain including the portion between the pre-substitution word and the post-substitution word is apportioned, the accuracy of the language model may be lowered.

例えば、非特許文献1に記載されている手法で単語を置換して言語モデルを適応化する場合、同手法では文章単位で単語を置換しており、置換によって生成される文章の数が増加するため、評価データに対する単語連鎖のヒット率が増加する一方で、言語モデルの予測能力は低下(パープレキシティが増加)する。その理由の一つは、文章内に複数の置換候補があった場合に生成文章数が多くなり、置換されていない単語を含む単語連鎖の頻度にも影響を与えてしまうためである。また、もう一つの理由は、単語連鎖内の単語を置換した部分において、置換元の単語の頻度を置換前後の単語で按分してしまい、置換元単語の連鎖頻度が小さくなってしまうためである。これに対して、非特許文献1の手法では、文章生成数に制約を設けている。   For example, when adapting a language model by replacing words with the method described in Non-Patent Document 1, the method replaces words in units of sentences, and the number of sentences generated by the replacement increases. Therefore, while the word chain hit rate for the evaluation data increases, the prediction ability of the language model decreases (perplexity increases). One reason for this is that when there are a plurality of replacement candidates in a sentence, the number of generated sentences increases, which also affects the frequency of word chain including unreplaced words. Another reason is that, in the part where the words in the word chain are replaced, the frequency of the replacement source word is divided by the words before and after the replacement, and the chain frequency of the replacement source word is reduced. . On the other hand, in the method of Non-Patent Document 1, there is a restriction on the number of sentence generations.

本発明は、上記の課題認識に基づいて行なわれたものであり、例えば台本や進行表などといった話題に適合した言語資源を用いて、表現のバリエーションにも対応でき、且つ精度の高い話題適応言語モデルを生成するための言語モデル生成装置やそのプログラム、その言語モデル生成装置を応用した音声認識装置を提供するものである。   The present invention has been made on the basis of the above problem recognition. For example, a language resource suitable for a topic such as a script or a progress table can be used to cope with variations in expression, and a topic adaptation language with high accuracy. The present invention provides a language model generation device for generating a model, a program thereof, and a speech recognition device to which the language model generation device is applied.

上記の課題を解決するため、本発明の一態様による言語モデル生成装置は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、を具備する。   In order to solve the above problem, a language model generation device according to an aspect of the present invention includes a replacement table storage unit that stores a relationship between a word and a synonym that can be replaced with the word, and an n word extracted from text data. Synonym substitution that reads a synonym of a word included in a chain (n is a positive integer) from the replacement table storage unit and generates a new n-word chain by replacing the word in the n-word chain with the synonym A frequency estimation unit that estimates the appearance frequency of the n-word chain after replacement based on the appearance frequency of the n-word chain before replacement, the appearance frequency of the n-word chain extracted from the text data, and A replacement language model generation unit that generates a replacement language model including the appearance frequency of the n word chain after replacement estimated by the frequency estimation unit.

これによれば、同義語置換部がn単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源(入力されるテキストデータ)から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のn単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。   According to this, since the synonym replacement unit replaces the word included in the n-word chain, the variation of expression is widened. That is, it is possible to generate a language model that is strong against fluctuation of expression from relatively small language resources (input text data). Moreover, since the frequency estimation unit estimates the appearance frequency of the n word chain after replacement, a language model based on the estimation result can be generated.

また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記n単語連鎖の出現頻度と、置換前の前記n単語連鎖のうちの置換された単語(置換元単語)を含むm単語連鎖(mは正整数であり、1≦m<≦n)の出現確率と、置換後の前記新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のn単語連鎖の出現頻度を推定する、ことを特徴とする。
一例としては、置換前のn単語連鎖の出現頻度に、上記の比率を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
Further, according to one aspect of the present invention, in the language model generation device, the frequency estimation unit may include the appearance frequency of the n word chain before replacement and the replaced word (n) of the n word chain before replacement ( The m word chain including m (replacement source word) (m is a positive integer, 1 ≦ m <≦ n) and the synonym corresponding to the m word chain in the new n word chain after replacement The appearance frequency of the n word chain after the replacement is estimated based on the ratio of the appearance probability of the m word chain after the replacement including the word.
As an example, the appearance frequency of the n word chain after replacement is estimated by multiplying the appearance frequency of the n word chain before replacement by the above ratio.

また、本発明の一態様は、上記の言語モデル生成装置において、前記頻度推定部は、置換前の前記n単語連鎖の出現頻度を、前記置換後のn単語連鎖の出現頻度と推定する、ことを特徴とする。
この構成により、置換後のn単語連鎖の出現頻度の推定のための処理が簡素化される。
Further, according to one aspect of the present invention, in the language model generation device, the frequency estimation unit estimates the appearance frequency of the n word chain before replacement as the appearance frequency of the n word chain after replacement. It is characterized by.
With this configuration, the process for estimating the appearance frequency of the n-word chain after replacement is simplified.

また、本発明の一態様は、上記の言語モデル生成装置において、前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたn単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるn単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部、をさらに具備することを特徴とする。   Further, according to one aspect of the present invention, in the language model generation device described above, the replacement language model generated by the replacement language model generation unit and a small scale based on the appearance frequency of n word chains extracted from the text data A model adaptation unit that generates an adaptive language model by interpolating a topic language model and a large-scale topic language model based on the appearance frequency of n word chains in a large-scale language resource of a general topic It is characterized by.

また、本発明の一態様は、上記の言語モデル生成装置と、言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、を具備する音声認識装置である。   According to another aspect of the present invention, there is provided the language model generation device, an acoustic model storage unit that stores acoustic feature data of a language element as an acoustic model, and the adaptive language model generated by the model adaptation unit. The speech recognition apparatus includes a recognition processing unit that performs input speech recognition processing by using the acoustic model read from the acoustic model storage unit while being used as a language model.

また、本発明の一態様は、単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶手段、テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶手段から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換手段、置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定手段、前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定手段によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成手段、としてコンピューターを機能させるためのプログラムである。   Further, according to one aspect of the present invention, a replacement table storage unit that stores a relationship between a word and a synonym that can be replaced with the word, a word included in an n-word chain (n is a positive integer) extracted from text data A synonym replacement unit that reads a synonym from the replacement table storage unit and generates a new n word chain by replacing the word in the n word chain with the synonym, and an appearance frequency of the n word chain before replacement The frequency estimation means for estimating the appearance frequency of the n word chain after replacement, the appearance frequency of the n word chain extracted from the text data, and the n word after replacement estimated by the frequency estimation means This is a program for causing a computer to function as replacement language model generation means for generating a replacement language model including the occurrence frequency of a chain.

本発明によれば、テキストデータを元にして、特定の話題に合う言語モデルを作成できる。また、同義語置換部がn単語連鎖に含まれる単語を置換するため、表現のバリエーションが広がる。つまり、比較的小規模な言語資源(入力されるテキストデータ)から、表現の揺れに対して強い言語モデルを生成することができる。また、頻度推定部が、置換後のn単語連鎖の出現頻度を推定するため、その推定結果に基づく言語モデルを生成することができる。
これによって、特定の話題や、発話スタイルに適応した言語モデルを作成することができる。
According to the present invention, a language model suitable for a specific topic can be created based on text data. In addition, since the synonym replacement unit replaces words included in the n-word chain, variations in expression are widened. That is, it is possible to generate a language model that is strong against fluctuation of expression from relatively small language resources (input text data). Moreover, since the frequency estimation unit estimates the appearance frequency of the n word chain after replacement, a language model based on the estimation result can be generated.
As a result, a language model adapted to a specific topic or utterance style can be created.

本発明の実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。It is a functional block diagram which shows schematic structure of the replacement language model production | generation apparatus by embodiment of this invention. 同実施形態による置換言語モデル生成装置を利用した音声認識装置の概略構成を示す機能ブロック図である。It is a functional block diagram which shows schematic structure of the speech recognition apparatus using the substitution language model production | generation apparatus by the embodiment. 同実施形態による置換テーブル記憶部が記憶する置換テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and example of a replacement table which the replacement table memory | storage part by the same embodiment memorize | stores. 同実施形態による置換言語モデル生成装置が言語モデルを生成する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process in which the replacement language model production | generation apparatus by the embodiment produces | generates a language model. 同実施形態による置換言語モデル生成装置における、より詳細な処理手順を示すフローチャートである。It is a flowchart which shows the more detailed process sequence in the replacement language model production | generation apparatus by the embodiment.

以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本実施形態では、n単語連鎖の具体例として、3単語連鎖を用いる。
[第1の実施形態]
図1は、本実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。図示するように、置換言語モデル生成装置1は、テキストデータ取得部11と、三つ組生成・頻度計算部12と、同義語置換部13と、頻度推定部14と、置換言語モデル生成部15と、置換言語モデル記憶部16と、モデル適応部17と、置換テーブル生成部21と、置換テーブル記憶部22と、小規模話題言語モデル記憶部31と、大規模話題言語モデル記憶部32とを含んで構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In this embodiment, a three-word chain is used as a specific example of the n-word chain.
[First Embodiment]
FIG. 1 is a functional block diagram showing a schematic configuration of a replacement language model generation device according to the present embodiment. As shown in the figure, the replacement language model generation device 1 includes a text data acquisition unit 11, a triple generation / frequency calculation unit 12, a synonym replacement unit 13, a frequency estimation unit 14, a replacement language model generation unit 15, It includes a replacement language model storage unit 16, a model adaptation unit 17, a replacement table generation unit 21, a replacement table storage unit 22, a small topic language model storage unit 31, and a large topic language model storage unit 32. Composed.

テキストデータ取得部11は、テキストデータ91を外部から取得する。このテキストデータ91は、例えば、放送番組の台本や進行表のデータであり、そのテキストの内容は、特定の話題に属するものである。
三つ組生成・頻度計算部12は、テキストデータ取得部11が取得したテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の種類ごとの出現頻度を算出する。
The text data acquisition unit 11 acquires the text data 91 from the outside. The text data 91 is, for example, a script or progress table data of a broadcast program, and the contents of the text belong to a specific topic.
The triplet generation / frequency calculation unit 12 extracts a three-word chain from the text data acquired by the text data acquisition unit 11 and calculates an appearance frequency for each type of the three-word chain.

同義語置換部13は、テキストデータから抽出された3単語連鎖に含まれる単語の同義語を置換テーブル記憶部22から読み出し、その3単語連鎖における当該単語を当該同義語で置換することにより新たな3単語連鎖を生成する。   The synonym replacement unit 13 reads a synonym of a word included in the three-word chain extracted from the text data from the replacement table storage unit 22, and replaces the word in the three-word chain with the synonym. Generate a three word chain.

頻度推定部14は、置換前の3単語連鎖の出現頻度に基づいて、置換後の3単語連鎖の出現頻度を推定する。より具体的には、頻度推定部14は、置換前の3単語連鎖の出現頻度と、次に述べる所定の比率とに基づいて、置換後の3単語連鎖の出現頻度を推定する。その比率とは、3単語連鎖のうちの置換される単語を含むm単語連鎖(mは正整数であり、1≦m≦3)の出現確率に対する、3単語連鎖のうちの置換された単語を含むm単語連鎖の出現確率の比率である。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前の3単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後の3単語連鎖の出現頻度を推定する。なお、本実施形態においては、m=1である。3単語連鎖を用いることは、連鎖数として充分であり、適切である。また、言語モデルのデータの規模が大きくなり過ぎない。また、出現頻度に統計的な誤差が出にくい。置換後の3単語連鎖の出現頻度を推定するために、単語ユニグラム(m=1)の出現確率の比率(置換前後の比率)を用いることは、計算の規模として適切である。なお、3単語連鎖ではないn単語連鎖の一般的な場合については後述する(変形例2)。   The frequency estimation unit 14 estimates the appearance frequency of the three-word chain after replacement based on the appearance frequency of the three-word chain before replacement. More specifically, the frequency estimation unit 14 estimates the appearance frequency of the three-word chain after replacement based on the appearance frequency of the three-word chain before replacement and a predetermined ratio described below. The ratio refers to the replaced word in the three word chain with respect to the appearance probability of the m word chain (m is a positive integer, 1 ≦ m ≦ 3) including the replaced word in the three word chain. It is the ratio of the appearance probability of m word chain including. In other words, the ratio is a value with the appearance probability of the m word chain including the replacement source word as the denominator and the appearance probability of the m word chain after replacement corresponding to the m word chain as the numerator. For example, the frequency estimation unit 14 estimates the appearance frequency of the three-word chain after replacement by multiplying the appearance frequency of the three-word chain before replacement by the value of this ratio. In the present embodiment, m = 1. Using a three-word chain is sufficient as the number of chains and is appropriate. Moreover, the scale of the language model data does not become too large. Further, it is difficult for a statistical error to appear in the appearance frequency. In order to estimate the appearance frequency of the three-word chain after replacement, it is appropriate as the scale of calculation to use the ratio of the appearance probability (ratio before and after replacement) of the word unigram (m = 1). Note that a general case of n-word chain that is not three-word chain will be described later (Modification 2).

置換言語モデル生成部15は、テキストデータ91から抽出されたn単語連鎖の出現頻度、および頻度推定部14によって推定された置換後のn単語連鎖の出現頻度を含んだ、置換言語モデルを生成する。
置換言語モデル記憶部16は、置換言語モデル生成部15によって生成された置換言語モデルを、記憶する。
The replacement language model generation unit 15 generates a replacement language model including the appearance frequency of the n word chain extracted from the text data 91 and the appearance frequency of the n word chain after replacement estimated by the frequency estimation unit 14. .
The replacement language model storage unit 16 stores the replacement language model generated by the replacement language model generation unit 15.

モデル適応部17は、置換言語モデル生成部15によって生成された置換言語モデルと、テキストデータ91から抽出された3単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源における3単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成する。モデル適応部17は、上記の小規模話題言語モデルを、小規模話題言語モデル記憶部31から読みだす。また、モデル適応部17は、上記の大規模話題言語モデルを、大規模話題言語モデル記憶部32から読み出す。モデル適応部17は、生成した適応言語モデルを、適応言語モデル記憶部51に書き込む。
言い換えれば、モデル適応部17は、複数の言語モデル(特定の話題に基づき、且つ同義語による置換を用いて表現のバリエーションを持たされた言語モデルを含む)を線形補間することにより、言語モデルの適応化を行う。
The model adaptation unit 17 includes a replacement language model generated by the replacement language model generation unit 15, a small topic language model based on the appearance frequency of the three-word chain extracted from the text data 91, and a large scale based on a general topic. An adaptive language model is generated by interpolating a large-scale topic language model based on the appearance frequency of a three-word chain in a simple language resource. The model adaptation unit 17 reads the small topic language model from the small topic language model storage unit 31. The model adaptation unit 17 reads the large-scale topic language model from the large-scale topic language model storage unit 32. The model adaptation unit 17 writes the generated adaptive language model in the adaptive language model storage unit 51.
In other words, the model adaptation unit 17 linearly interpolates a plurality of language models (including a language model based on a specific topic and having an expression variation using substitution with synonyms), thereby Adapt.

置換テーブル生成部21は、外部の同義語対データベース92から読み込んだデータに基づいて、置換テーブルを生成し、置換テーブル記憶部22に書き込む。
置換テーブル記憶部22は、単語(置換元単語)と、その単語(置換元単語)と置換可能な同義語(置換単語)との対応関係を、テーブルとして記憶する。
The replacement table generation unit 21 generates a replacement table based on the data read from the external synonym pair database 92 and writes the replacement table in the replacement table storage unit 22.
The replacement table storage unit 22 stores a correspondence relationship between a word (replacement source word) and a synonym (replacement word) that can be replaced with the word (replacement source word) as a table.

小規模話題言語モデル記憶部31は、三つ組生成・頻度計算部12によって計算された出現頻度に基づく言語モデル(小規模話題言語モデル)を記憶する。つまり、小規模話題言語モデル記憶部31は、テキストデータ91に基づいた言語モデルを記憶する。つまり、この小規模話題言語モデルは、特定の話題における3単語連鎖の出現の特徴を表している。   The small topic language model storage unit 31 stores a language model (small topic language model) based on the appearance frequency calculated by the triplet generation / frequency calculation unit 12. That is, the small-scale topic language model storage unit 31 stores a language model based on the text data 91. That is, this small topic language model represents the feature of the appearance of a three-word chain in a specific topic.

大規模話題言語モデル記憶部32は、話題の偏りのない一般的な大規模言語モデルを記憶するものである。本実施形態では、大規模話題言語モデル記憶部32は、3単語連鎖の出現頻度を記憶するとともに、単語ユニグラムの出現確率をも記憶している。   The large-scale topic language model storage unit 32 stores a general large-scale language model without topic bias. In the present embodiment, the large-scale topic language model storage unit 32 stores the appearance frequency of the three-word chain and also stores the appearance probability of the word unigram.

図2は、置換言語モデル生成装置1を利用した音声認識装置の概略構成を示す機能ブロック図である。図示するように、音声認識装置2は、置換言語モデル生成装置1と、適応言語モデル記憶部51と、発音辞書記憶部52と、音響モデル記憶部53と、入力音声取得部61と、認識処理部62と、認識結果出力部63とを含んで構成される。   FIG. 2 is a functional block diagram showing a schematic configuration of a speech recognition device using the replacement language model generation device 1. As illustrated, the speech recognition device 2 includes a replacement language model generation device 1, an adaptive language model storage unit 51, a pronunciation dictionary storage unit 52, an acoustic model storage unit 53, an input speech acquisition unit 61, and a recognition process. A unit 62 and a recognition result output unit 63 are configured.

適応言語モデル記憶部51は、置換言語モデル生成装置1におけるモデル適応部17によって生成された適応言語モデルを記憶する。
発音辞書記憶部52は、単語ごとの発音辞書のデータを記憶する。発音辞書のデータは、外部のデータベースから予め得られるものである。
音響モデル記憶部53は、言語要素(音素や単語など)ごとの音響的特徴のデータを音響モデルとして記憶する。
The adaptive language model storage unit 51 stores the adaptive language model generated by the model adaptation unit 17 in the replacement language model generation device 1.
The pronunciation dictionary storage unit 52 stores pronunciation dictionary data for each word. The pronunciation dictionary data is obtained in advance from an external database.
The acoustic model storage unit 53 stores acoustic feature data for each language element (phonemes, words, etc.) as an acoustic model.

入力音声取得部61は、認識処理の対象となる入力音声のデータを外部から取得し、認識処理部62に供給する。
認識処理部62は、モデル適応部17によって生成された適応言語モデルを言語モデルとして用いるとともに、発音辞書記憶部52を用いて音響モデル記憶部53から読み出した音響モデルを用いることによって、入力音声の認識処理を行う。認識処理部62は、入力音声のデータを、入力音声取得部61から受け取る。また、認識処理部62は、認識結果のテキストデータを認識結果出力部63に渡す。
認識結果出力部63は、認識処理部62から渡された認識結果のテキストデータを出力する。
The input voice acquisition unit 61 acquires input voice data to be subjected to recognition processing from the outside, and supplies it to the recognition processing unit 62.
The recognition processing unit 62 uses the adaptive language model generated by the model adaptation unit 17 as a language model, and uses the acoustic model read from the acoustic model storage unit 53 by using the pronunciation dictionary storage unit 52, thereby Perform recognition processing. The recognition processing unit 62 receives input voice data from the input voice acquisition unit 61. In addition, the recognition processing unit 62 passes the recognition result text data to the recognition result output unit 63.
The recognition result output unit 63 outputs the text data of the recognition result passed from the recognition processing unit 62.

図3は、置換テーブル記憶部22が記憶する置換テーブルの構成とデータ例を示す概略図である。図示するように、置換テーブルは、置換元単語と置換単語とを対応づけて記憶する。置換元単語とは、置換対象となる単語、言い換えれば置換される単語である。置換単語とは、置換によって使用される新たな単語、言い換えれば置換元単語を置換する単語である。一例として、置換テーブルは二次元の表形式のデータ構造を有する。1個の置換元単語に対して、単数あるいは複数の置換単語が存在し得る。同図において、置換単語の欄は、それぞれ複数の単語を格納し、それらはスラッシュ「/」で区切られている。例えば、置換元単語「テレビ」に対する置換単語として「テレビ放送」、「テレビジョン」、「テレヴィジョン」、「テレビセット」、「テレビ受信機」、「受像機」という単語が、この置換テーブルに登録されている。これは、置換元単語「テレビ」が、これらの置換単語のいずれかと置き換え得ることを表している。他の置換元単語についても同様である。   FIG. 3 is a schematic diagram showing a configuration of the replacement table stored in the replacement table storage unit 22 and data examples. As illustrated, the replacement table stores a replacement source word and a replacement word in association with each other. The replacement source word is a word to be replaced, in other words, a word to be replaced. The replacement word is a new word used for replacement, in other words, a word that replaces the replacement source word. As an example, the replacement table has a two-dimensional tabular data structure. There can be one or more replacement words for one replacement source word. In the figure, the replacement word column stores a plurality of words, which are separated by a slash “/”. For example, the words “television broadcasting”, “television”, “television”, “television set”, “television receiver”, and “receiver” are registered in this substitution table as substitution words for the substitution source word “television”. Has been. This indicates that the replacement source word “TV” can be replaced with any of these replacement words. The same applies to other replacement source words.

次に、置換言語モデルの生成、さらに適応言語モデルの生成のための処理の手順について説明する。
図4は、置換言語モデル生成装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、装置の動作を説明する。
Next, a procedure for processing for generating a replacement language model and further generating an adaptive language model will be described.
FIG. 4 is a flowchart illustrating a processing procedure performed by the replacement language model generation device 1. Hereinafter, the operation of the apparatus will be described with reference to this flowchart.

まずステップS1において、置換テーブル生成部21が、外部の同義語対データベース92からデータを読み込み、そのデータを元に置換テーブルを生成する。置換テーブル生成部21は、同義語が互いに置換元単語と置換単語の関係になるように、置換テーブルを生成する。同義語対データベース92としては、一例として、独立行政法人情報通信研究機構(NICT)が公開している「日本語WordNet同義語対データベース」を用いることができる。   First, in step S1, the replacement table generation unit 21 reads data from an external synonym pair database 92, and generates a replacement table based on the data. The replacement table generation unit 21 generates a replacement table so that synonyms have a relationship between a replacement source word and a replacement word. As an example of the synonym pair database 92, “Japanese WordNet synonym pair database” published by the National Institute of Information and Communications Technology (NICT) can be used.

次に、ステップS2において、置換テーブル生成部21が、外部の同義語対データベース92から読み込んだ単語について、その発音のデータを発音辞書記憶部52に追加登録する。   Next, in step S <b> 2, the replacement table generation unit 21 additionally registers the pronunciation data of the words read from the external synonym pair database 92 in the pronunciation dictionary storage unit 52.

次に、ステップS3において、大規模話題言語モデル記憶部32に、大規模話題言語モデルを書き込み、利用可能とする。大規模話題言語モデルは、特定の話題に偏らず、汎用の話題に関する言語資源(新聞記事、雑誌記事、ウェブ文書等)から構築された言語モデルである。大規模話題言語モデルは、単語のNグラムごとの(出現確率)値をもっているものである。本実施形態では、3つ単語の連鎖を用い、以下では、「3単語連鎖」と呼ぶ。   Next, in step S3, the large-scale topic language model is written in the large-scale topic language model storage unit 32 to be usable. The large-scale topic language model is a language model constructed from language resources (newspaper articles, magazine articles, web documents, etc.) related to general-purpose topics, without being biased toward specific topics. The large-scale topic language model has a value of (appearance probability) for each N-gram of a word. In the present embodiment, a chain of three words is used, and hereinafter referred to as “three-word chain”.

次に、ステップS4において、テキストデータ取得部11が、テキストデータ91を読み込む。テキストデータ91は、番組の台本や進行表等から得られるものである。   Next, in step S4, the text data acquisition unit 11 reads the text data 91. The text data 91 is obtained from a program script or a progress table.

次に、ステップS5において、三つ組生成・頻度計算部12が、テキストデータ取得部11によって読み込まれたテキストデータから、三つ組(3単語連鎖)を生成し、3単語連鎖の種類ごとに出現頻度を計算する。三つ組生成・頻度計算部12は、計算された出現頻度により、小規模話題言語モデルを構築する。小規模話題言語モデルは、単語のNグラムごとの(出現確率)値をもっているものである。三つ組生成・頻度計算部12は、構築した小規模話題言語モデルを、小規模話題言語モデル記憶部31に書き込む。   Next, in step S5, the triple generation / frequency calculation unit 12 generates a triple (three word chain) from the text data read by the text data acquisition unit 11, and calculates the appearance frequency for each type of three word chain. To do. The triplet generation / frequency calculation unit 12 constructs a small topic language model based on the calculated appearance frequency. The small-scale topic language model has a value of (appearance probability) for each N-gram of a word. The triplet generation / frequency calculation unit 12 writes the constructed small topic language model in the small topic language model storage unit 31.

次に、ステップS6において、同義語置換部13が、置換テーブル記憶部22から読み出した置換テーブルを用いて、三つ組生成・頻度計算部12によって求められた3単語連鎖に含まれる単語の置換を行い、置換後の3単語連鎖を生成する。   Next, in step S <b> 6, the synonym replacement unit 13 replaces words included in the three-word chain obtained by the triplet generation / frequency calculation unit 12 using the replacement table read from the replacement table storage unit 22. , Generate a three-word chain after replacement.

次に、ステップS7において、頻度推定部14が、同義語置換部13によって拡張された3単語連鎖について、出現頻度を推定する。このとき、頻度推定部14が、大規模話題言語モデル記憶部32から読み出した出現確率を用いる。頻度推定の具体的な方法については、後述する。なおここで、「拡張された3単語連鎖」とは、ステップS6における置換によって得られた3単語連鎖である。つまり、3単語連鎖に含まれる単語のうちの少なくとも一つが同義語によって置換されることにより、字面上の表記のバリエーションが増えることを意味している。
Next, in step S <b> 7, the frequency estimation unit 14 estimates the appearance frequency for the three-word chain expanded by the synonym replacement unit 13. At this time, the frequency estimation unit 14 uses the appearance probability read from the large-scale topic language model storage unit 32. A specific method of frequency estimation will be described later. Here, the “extended three-word chain” is a three-word chain obtained by the replacement in step S6. That is, when at least one of the words included in the three-word chain is replaced with a synonym, it means that variations in the notation on the face are increased.

次に、ステップS8において、置換言語モデル生成部15が、頻度推定部14によって推定された頻度に基づいて、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。なお、置換言語モデル推定の具体的な方法については、後述する。   Next, in step S <b> 8, the replacement language model generation unit 15 generates a replacement language model based on the frequency estimated by the frequency estimation unit 14 and writes the replacement language model in the replacement language model storage unit 16. A specific method for estimating the replacement language model will be described later.

次に、ステップS9において、モデル適応部17は、大規模話題言語モデル記憶部32から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部31から読み出した小規模話題言語モデルと、置換言語モデル記憶部16から読み出した置換言語モデルとに基づき、モデル適応の処理を行う。モデル適応の処理は、ある3単語連鎖の出現確率について、各言語モデルから読み出した出現確率値に基づく線形補間を行うものである。モデル適応部17によって生成される言語モデルは、入力されたテキストデータ91に対応して特定の話題に適応した適応言語モデルである。モデル適応部17は、生成した適応言語モデルを、適応言語モデル記憶部51に書き込む。   Next, in step S9, the model adaptation unit 17 replaces the large-scale topic language model read from the large-scale topic language model storage unit 32 with the small-scale topic language model read from the small-scale topic language model storage unit 31. Model adaptation processing is performed based on the replacement language model read from the language model storage unit 16. In the model adaptation process, linear interpolation based on the appearance probability value read from each language model is performed for the appearance probability of a certain three-word chain. The language model generated by the model adaptation unit 17 is an adaptive language model adapted to a specific topic corresponding to the input text data 91. The model adaptation unit 17 writes the generated adaptive language model in the adaptive language model storage unit 51.

なお、図2を参照して説明した通り、上記のような処理手順で生成され、適応言語モデル記憶部51に書き込まれた適応言語モデルは、認識処理部62によって読み出され、認識処理のために利用される。つまり、認識処理部62は、発音辞書記憶部52から読み出す発音辞書を参照しながら、適応言語モデル記憶部51から読み出した適応言語モデルと、音響モデル記憶部53から読み出した音響モデルとを用いて、入力音声の認識処理を行う。認識処理部62によって得られた認識結果を、認識結果出力部63が出力する。具体的には、認識処理部62は、上記の通り、言語モデルと音響モデルを適用し、統計的な処理を行うことにより、入力音声取得部61が取得した入力音声に対する、最尤テキストを出力する。なお、認識処理部62による認識処理自体は、既存技術を用いて行うことができる。   As described with reference to FIG. 2, the adaptive language model generated by the processing procedure as described above and written in the adaptive language model storage unit 51 is read out by the recognition processing unit 62 and is used for recognition processing. Used for That is, the recognition processing unit 62 uses the adaptive language model read from the adaptive language model storage unit 51 and the acoustic model read from the acoustic model storage unit 53 while referring to the pronunciation dictionary read from the pronunciation dictionary storage unit 52. The input voice is recognized. The recognition result output unit 63 outputs the recognition result obtained by the recognition processing unit 62. Specifically, as described above, the recognition processing unit 62 applies the language model and the acoustic model, and performs statistical processing, thereby outputting the maximum likelihood text for the input speech acquired by the input speech acquisition unit 61. To do. Note that the recognition processing itself by the recognition processing unit 62 can be performed using existing technology.

次に、置換言語モデルを生成するための、より詳細な処理の手順について説明する。
図5は、置換言語モデル生成装置1における、より詳細な手順を示すフローチャートである。この図5に示す手順は、図4におけるステップS5からステップS9までの処理を、より詳細に説明するものである。
Next, a more detailed processing procedure for generating a replacement language model will be described.
FIG. 5 is a flowchart showing a more detailed procedure in the replacement language model generation device 1. The procedure shown in FIG. 5 explains the processing from step S5 to step S9 in FIG. 4 in more detail.

まずステップS51において、三つ組生成・頻度計算部12は、テキストデータ取得部11が取得した話題適応のテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の頻度を求める。例えば、そのテキストデータ中に「衣装を補強」という3単語連鎖が2回出現した場合、その3単語連鎖を抽出するとともに、この3単語連鎖の出現頻度をカウントし、
「衣装−を−補強:頻度2」
というデータを一時的に生成する。テキストデータ内のすべての3単語連鎖についても、同様に、頻度を求める。
First, in step S51, the triplet generation / frequency calculation unit 12 extracts a three-word chain from the topic-adapted text data acquired by the text data acquisition unit 11, and obtains the frequency of the three-word chain. For example, when a three-word chain “reinforce costume” appears twice in the text data, the three-word chain is extracted and the frequency of appearance of the three-word chain is counted,
“Costumes-Reinforcement: Frequency 2”
Is temporarily generated. Similarly, the frequency is obtained for all three word chains in the text data.

次にステップS52において、同義語置換部13は、上のステップS51で求めた3単語連鎖に含まれる単語の置換を行う。具体的には、同義語置換部13は、三つ組生成・頻度計算部12が生成した3単語連鎖(頻度情報付)の集合を取得し、各3単語連鎖に含まれる単語の各々を鍵として、置換テーブル記憶部22に記憶されている置換テーブルを検索する。そして、鍵の単語が置換テーブルにおける置換元単語に該当する場合には、その置換元単語に対応する単数または複数の置換単語を置換テーブルから読み出し、それらの置換単語を用いてその3単語連鎖に含まれている単語を置換する。これにより、新たな3単語連鎖が生成される。なお、同義語置換部13は、ある置換元単語に対応する置換単語が複数存在する場合には、それぞれの置換単語を用いた置換を行い、新たな3単語連鎖を生成する。また、同義語置換部13は、元の3単語連鎖に含まれる単語のうちの複数が置換可能である場合には、すべての置換の組み合わせにより、新たな3単語連鎖を生成する。例えば、元の3単語連鎖が「A−B−C」(A,B,Cはそれぞれ単語)であって、単語Aが5通りに置換可能であり、単語Bが3通りに置換可能であり、単語Cが4通りに置換可能である場合には、通常は(5+1)×(3+1)×(4+1)−1で、119通りの置換を行う。つまりこの場合、元の1個の3単語連鎖と、新たに生成される119個の3単語連鎖とを合わせて、120通りの3単語連鎖への拡張が行われる。   In step S52, the synonym replacement unit 13 replaces words included in the three-word chain obtained in step S51 above. Specifically, the synonym replacement unit 13 acquires a set of three word chains (with frequency information) generated by the triplet generation / frequency calculation unit 12, and uses each of the words included in each three word chain as a key. The replacement table stored in the replacement table storage unit 22 is searched. If the key word corresponds to a replacement source word in the replacement table, one or more replacement words corresponding to the replacement word are read from the replacement table, and these three replacement words are used in the three-word chain. Replace contained words. As a result, a new three-word chain is generated. When there are a plurality of replacement words corresponding to a certain replacement source word, the synonym replacement unit 13 performs replacement using each replacement word and generates a new three-word chain. Moreover, the synonym replacement part 13 produces | generates a new 3 word chain | strand by the combination of all substitution, when the some of the words contained in the original 3 word chain | part can be replaced. For example, the original three-word chain is “A-B-C” (A, B, and C are words respectively), the word A can be replaced in five ways, and the word B can be replaced in three ways. In the case where the word C can be replaced in four ways, normally, 119 ways of substitution are performed with (5 + 1) × (3 + 1) × (4 + 1) −1. In other words, in this case, the original one three-word chain and the newly generated 119 three-word chains are combined and expanded to 120 three-word chains.

具体例として、「衣装 を 補強」という3単語連鎖に対して、図3で例示した置換テーブルを適用する。単語「衣装」が置換元単語に該当し、この置換元単語に対応する置換単語として、「お召し物」、「着物」、「ウェア」、「衣類」、「衣服」、(以下、続く)が存在する。そして、同義語置換部13は、すべての置換単語を用いた新たな3単語連鎖を生成する。元の3単語連鎖が、
「衣装−を−補強:頻度2」
であったため、新たに生成される3単語連鎖は、
「お召し物−を−補強:頻度2」
「着物−を−補強:頻度2」
「ウェア−を−補強:頻度2」
「衣類−を−補強:頻度2」
「衣服−を−補強:頻度2」(以下、続く)
である。なお、同義語置換部13は、ここで、元の3単語連鎖の出現頻度を引き継いで、新たに生成される3単語連鎖に適用する。上の例では、頻度が2である。
As a specific example, the replacement table illustrated in FIG. 3 is applied to a three-word chain “reinforcing costume”. The word “costume” corresponds to the replacement source word, and there are “sales”, “kimono”, “wear”, “clothing”, “clothes” (following) as replacement words corresponding to the replacement source word. To do. Then, the synonym replacement unit 13 generates a new three-word chain using all replacement words. The original 3-word chain is
“Costumes-Reinforcement: Frequency 2”
Therefore, the newly generated 3-word chain is
"Observations-Reinforcement: Frequency 2"
"Kimono-Reinforcement: Frequency 2"
“Wear-reinforcement: Frequency 2”
“Clothing-reinforcement: Frequency 2”
"Clothing-reinforced-frequency 2" (followed)
It is. Here, the synonym replacement unit 13 takes over the appearance frequency of the original three-word chain and applies it to the newly generated three-word chain. In the above example, the frequency is 2.

次にステップS53において、頻度推定部14は、同義語置換部13によって新たに生成された3単語連鎖の頻度を推定する。
単語連鎖のうち、置換対象の単語が1個だけの場合には、具体的には、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度Csynを、下の式(1)により算出する。言い換えれば、頻度Csynは推定によって得られた頻度である。
Next, in step S53, the frequency estimation unit 14 estimates the frequency of the three-word chain newly generated by the synonym replacement unit 13.
In the case where there is only one replacement target word in the word chain, specifically, the frequency estimation unit 14 calculates the frequency C syn of the three-word chain newly generated by replacement by the following formula (1 ). In other words, the frequency C syn is a frequency obtained by estimation.

Figure 2016024325
Figure 2016024325

ここで、Corigは、置換前の元の3単語連鎖の頻度であり、三つ組生成・頻度計算部12によって算出されたものである。また、worigとwsynは、それぞれ、置換元単語とそれに対応する置換単語である。また、p(worig)とp(wsyn)は、それぞれ、置換元単語と置換単語の単語ユニグラム確率である。頻度推定部14は、p(worig)とp(wsyn)の値を、大規模話題言語モデル記憶部32から取得する。 Here, C orig is the frequency of the original three-word chain before replacement, and is calculated by the triplet generation / frequency calculation unit 12. Further, w orig and w syn are a replacement source word and a replacement word corresponding thereto. Further, p (w orig ) and p (w syn ) are word unigram probabilities of the replacement source word and the replacement word, respectively. The frequency estimation unit 14 acquires the values of p (w orig ) and p (w syn ) from the large-scale topic language model storage unit 32.

なお、置換元単語worigと置換単語wsynとが置換テーブルにおいて対応付けて登録されていても、これらのいずれかが未知語で、言語モデルからその出現確率を得られない場合もある。例えば、置換元単語worigが未知語である場合には、上の式(1)での計算によらず、Csyn=10とする。また、置換単語wsynが未知語である場合には、これも式(1)での計算によらず、Csyn=0.01とする。 Even if the replacement source word w orig and the replacement word w syn are registered in association with each other in the replacement table, there is a case where any of these is an unknown word and its appearance probability cannot be obtained from the language model. For example, when the replacement source word w orig is an unknown word, C syn = 10 is set regardless of the calculation in the above equation (1). Further, when the replacement word w syn is an unknown word, this is also set to C syn = 0.01 regardless of the calculation in the equation (1).

上では、3単語連鎖のうちの1単語のみが置換対象となる場合を説明した。しかしながら、3単語連鎖の種類によっては、その単語に含まれる単語のうちの複数が置換対象となる場合もある。最大では、3個の単語が、置換対象となり得る。このように3単語連鎖のうちの複数の単語が置換された場合には、各々の1個の単語の置換を行った場合におけるCsynの値を前の式(1)によりそれぞれ計算し、それらのCsynの値のうちの最小の値を、置換後の3単語連鎖の頻度とする。つまり、頻度推定部14は、下の式(2)により、頻度Csynを算出する。 In the above description, the case where only one word in the three-word chain is to be replaced has been described. However, depending on the type of the three-word chain, a plurality of words included in the word may be subject to replacement. At most, three words can be replaced. In this way, when a plurality of words in the three-word chain are replaced, the value of C syn in the case where each one word is replaced is calculated by the previous equation (1), The minimum value among the values of C syn of is set as the frequency of the three-word chain after replacement. That is, the frequency estimation unit 14 calculates the frequency C syn by the following equation (2).

Figure 2016024325
Figure 2016024325

ここで、iは、3単語連鎖に含まれる単語のうちの置換対象となる単語のための指標である。また、p(worig,i)は、その3単語連鎖における第i番目の置換元単語の単語ユニグラム確率である。また、p(wsyn,i)は、第i番目の置換単語の単語ユニグラム確率である。各単語のユニグラム確率は、大規模話題言語モデル記憶部32から読み出され、計算に使用される。 Here, i is an index for a word to be replaced among words included in the three-word chain. P (w orig, i ) is a word unigram probability of the i-th replacement source word in the three-word chain. P (w syn, i ) is the word unigram probability of the i-th replacement word. The unigram probability of each word is read from the large-scale topic language model storage unit 32 and used for calculation.

ここで、単語の置換によって得られた一つの3単語連鎖の頻度の計算例について説明する。元の3単語連鎖「衣装−を−補強」に含まれる単語「衣装」を、置換単語「着物」で置換した場合を例にとると、置換後によって新たに生成された3単語連鎖「着物−を−補強」の頻度Csynは、次のように計算される。即ち、置換元単語worigは「衣装」である。また、置換単語wsynは「着物」である。これらの単語それぞれの単語ユニグラム確率は、大規模話題言語モデル記憶部32に格納されており、次の通りである。
p(worig)=2.81×10−5
p(wsyn)=4.07×10−5
つまり、
p(wsyn)/p(worig)=1.45
であり、また、
orig=2
であるから、
syn=2×1.45=2.90
である。
Here, a calculation example of the frequency of one three-word chain obtained by word replacement will be described. Taking the case where the word “costume” included in the original three-word chain “costume-reinforcement” is replaced with the replacement word “kimono”, for example, the newly generated three-word chain “kimono-” The frequency C syn of “reinforcement” is calculated as follows. That is, the replacement source word w orig is “costume”. The replacement word w syn is “kimono”. The word unigram probabilities of each of these words are stored in the large-scale topic language model storage unit 32 and are as follows.
p (w orig ) = 2.81 × 10 −5
p (w syn ) = 4.07 × 10 −5
That means
p (w syn ) / p (w orig ) = 1.45
And also
C orig = 2
Because
C syn = 2 × 1.45 = 2.90
It is.

なお、値として扱いやすくするために、3単語連鎖の頻度にすべて一律に100を掛けて整数値とする。つまり、上の3単語連鎖「着物−を−補強」の頻度も、2.90に100を掛け、290とする。   In order to make it easy to handle as a value, all three-word chain frequencies are uniformly multiplied by 100 to obtain an integer value. In other words, the frequency of the upper three-word chain “kimono-reinforce” is also set to 290 by multiplying 2.90 by 100.

次にステップS54において、置換言語モデル生成部15は、上記の通り算出された、3単語連鎖の頻度を用いて、置換言語モデルを構築し、置換言語モデル記憶部16に書き込む。   In step S54, the replacement language model generation unit 15 constructs a replacement language model using the three-word chain frequency calculated as described above, and writes the replacement language model in the replacement language model storage unit 16.

次にステップS55において、モデル適応部17は、大規模話題言語モデル記憶部32から読み出した大規模話題言語モデルと、小規模話題言語モデル記憶部31から読み出した小規模話題言語モデルと、置換言語モデル記憶部16から読み出した置換言語モデルとを用いて、線形補間により、話題適応言語モデルを算出する。具体的には、モデル適応部17は、下の式(3)による計算を行い、適応言語モデルを算出する。   In step S55, the model adaptation unit 17 then reads the large-scale topic language model read from the large-scale topic language model storage unit 32, the small-scale topic language model read from the small-scale topic language model storage unit 31, and the replacement language. The topic adaptive language model is calculated by linear interpolation using the replacement language model read from the model storage unit 16. Specifically, the model adaptation unit 17 performs calculation according to the following expression (3) to calculate an adaptive language model.

Figure 2016024325
Figure 2016024325

ここで、p(w)は、ある3単語連鎖についての適応後の確率値であり、補間計算によって得られるものである。また、p(w)は、その3単語連鎖についての大規模話題言語モデルにおける確率値である。また、p(w)は、その3単語連鎖についての小規模話題言語モデルにおける確率値である。また、p(w)は、その3単語連鎖についての置換言語モデルにおける確率値である。そして、α、β、γは、それぞれの重み係数である。これらの係数α、β、γは、予め適宜設定される。一例としては、教師データに基づいた機械学習処理により、これらの係数α、β、γの最適値、または最適値に準ずる値を得ることもできる。 Here, p (w i ) is a probability value after adaptation for a certain three-word chain, and is obtained by interpolation calculation. In addition, p L (w i ) is a probability value in the large-scale topic language model for the three-word chain. Further, p S (w i ) is a probability value in the small topic language model for the three-word chain. P R (w i ) is a probability value in the replacement language model for the three-word chain. Α, β, and γ are respective weighting factors. These coefficients α, β, and γ are appropriately set in advance. As an example, an optimum value of these coefficients α, β, γ, or a value equivalent to the optimum value can be obtained by machine learning processing based on teacher data.

なお、上述した実施形態における置換言語モデル生成装置、および音声認識装置の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   In addition, you may make it implement | achieve the function of the replacement language model production | generation apparatus and speech recognition apparatus in embodiment mentioned above with a computer. In that case, the program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

本実施形態を用いることにより、入力されるテキストデータに出現する通りの表現に限らず、それらの表現のバリエーションに対応した言語モデルを構築することができる。   By using the present embodiment, it is possible to construct a language model corresponding to variations of expressions as well as expressions that appear in input text data.

つまり、幅広いジャンルを取り扱う情報番組などの番組は、放送番組ごとに話題が大きく異なるため、音声認識に用いる語彙や言語モデルを適応化する必要がある。この適応化言語モデルには、話題の偏りのない一般的な大規模言語モデルと各放送番組の台本や進行表を利用した番組ごとの小規模言語モデルを混合した言語モデルが有用である。台本・進行表には、出演者や地名、番組内で示される情報が簡潔に記載されており未知語登録等には有効だが、台本中の表記が必ずしも番組出演者の発話と一致するわけではなく適応の効果が十分でない場合がある。さらに、台本・進行表の多くは書き言葉で表現されており、出演者は台本や進行表とは異なる言い回しや会話調で発話する場合もある。このような台本・進行表と発話の不一致を軽減するため、台本・進行表内の単語を同義語で置き換え、言い換えのバリエーションを増やすことにより、より有効な適応データを生成できる。本実施形態によれば、単語を同義語で置換した場合にも、頻度推定部が、置換前の単語連鎖の出現頻度に基づいて適切な頻度を推定することができる。よって、言語モデルの精度を向上させることができる。本実施形態では、台本や進行表等のテキストデータから同義語の置換に基づいて、単語連鎖のバリエーションを前後のn組の単語間でのみ増やすと共に、事前知識(大規模話題言語モデルにおける、n単語連鎖の部分連鎖の出現頻度。典型的には、単語ユニグラムの出現確率。)を利用して置換単語を含む単語連鎖の頻度を推定する。これにより、音声認識の性能を改善するための話題適応言語モデルの生成が可能となる。   That is, programs such as information programs that deal with a wide range of genres have different topics for each broadcast program, so it is necessary to adapt the vocabulary and language model used for speech recognition. As this adaptive language model, a language model in which a general large-scale language model without topical bias and a small-scale language model for each program using a script or a progress table of each broadcast program is useful. In the script / progress table, the performers, place names, and information shown in the program are succinctly written, which is effective for registering unknown words, etc. In some cases, the effect of adaptation is not sufficient. In addition, many scripts and progress tables are expressed in written language, and performers may utter in different phrases and conversations from the scripts and progress tables. In order to reduce the mismatch between the script / progress table and the utterance, more effective adaptation data can be generated by replacing words in the script / progress table with synonyms and increasing paraphrase variations. According to this embodiment, even when a word is replaced with a synonym, the frequency estimation unit can estimate an appropriate frequency based on the appearance frequency of the word chain before replacement. Therefore, the accuracy of the language model can be improved. In this embodiment, based on synonym substitution from text data such as a script and a progress table, the word chain variation is increased only between the preceding and following n sets of words, and prior knowledge (n in a large-scale topic language model, n The frequency of occurrence of the partial chain of the word chain (typically, the appearance probability of the word unigram) is used to estimate the frequency of the word chain including the replacement word. This makes it possible to generate a topic adaptive language model for improving speech recognition performance.

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、下記の変形例のいくつかを組み合わせて実施しても良い。   Although the embodiment has been described above, the present invention can also be implemented in the following modified example. In addition, you may implement combining some of the following modifications.

[変形例1]
上記の実施形態では、3単語連鎖による言語モデルを用いた。本変形例では、3単語連鎖に限らず、一般に、n単語連鎖(n=1,2,3,4,・・・)を用いる。つまり、言語モデルは、n単語連鎖の出現頻度を統計的に表すデータである。また、三つ組生成・頻度計算部12、同義語置換部13、頻度推定部14、置換言語モデル生成部15、モデル適応部17、認識処理部62等の各部も、3単語連鎖に限らず、n単語連鎖を処理対象とする。
[Modification 1]
In the above embodiment, a language model based on a three-word chain is used. In this modification, not only three word chains but generally n word chains (n = 1, 2, 3, 4,...) Are used. That is, the language model is data that statistically represents the appearance frequency of n word chains. Also, the triplet generation / frequency calculation unit 12, the synonym replacement unit 13, the frequency estimation unit 14, the replacement language model generation unit 15, the model adaptation unit 17, the recognition processing unit 62, and the like are not limited to the three-word chain, The word chain is processed.

[変形例2]
上記の実施形態では、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度を推定する際に、式(1)によって、置換元単語の単語ユニグラム確率p(worig)に対する、置換単語の単語ユニグラム確率p(wsyn)を用いた。本変形例では、ここで、単語ユニグラム確率の比率の代わりに、置換元の2単語連鎖の出現確率(バイグラム(bigram)確率)と置換後の2単語連鎖の出現確率との比率を用いる。
[Modification 2]
In the above embodiment, when estimating the frequency of the three-word chain newly generated by the replacement, the frequency estimation unit 14 uses the equation (1) to calculate the word unigram probability p (w orig ) of the replacement source word. The word unigram probability p (w syn ) of the replacement word was used. In this modification, the ratio of the appearance probability (bigram probability) of the replacement two-word chain and the appearance probability of the replacement two-word chain is used instead of the word unigram probability ratio.

変形例1と変形例2を組み合わせる場合には、つまり3単語連鎖をn単語連鎖に一般化した場合には、n単語連鎖による言語モデルを用いるとともに、同義語の置換前後におけるm単語連鎖の出現確率の比率を用いる。ここで、1≦m≦nである(m,nは整数)。
つまり、本変形例では、頻度推定部14は、式(1)を変形することにより、置換によって新たに生成されたn単語連鎖の出現確率を、m単語連鎖の出現確率の比率を用いて推定する。具体的には、頻度推定部14は、置換前のn単語連鎖の出現頻度と、置換前のn単語連鎖のうちの置換元単語を含むm単語連鎖の出現確率と、置換後の新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、置換後のn単語連鎖の出現頻度を推定する。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前のn単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
なお、m単語連鎖の出現確率は、大規模話題言語モデル記憶部32から読み出される。
When modification 1 and modification 2 are combined, that is, when a three-word chain is generalized to an n-word chain, a language model based on the n-word chain is used, and the appearance of m-word chains before and after synonym substitution Use the probability ratio. Here, 1 ≦ m ≦ n (m and n are integers).
That is, in the present modification, the frequency estimation unit 14 modifies Equation (1) to estimate the appearance probability of the n word chain newly generated by the replacement using the ratio of the appearance probability of the m word chain. To do. Specifically, the frequency estimation unit 14 generates the appearance frequency of the n-word chain before replacement, the appearance probability of the m-word chain including the replacement source word in the n-word chain before replacement, and the new n after replacement. Based on the ratio of the appearance probability of the m word chain after replacement including the synonym corresponding to the m word chain in the word chain, the appearance frequency of the n word chain after replacement is estimated. In other words, the ratio is a value with the appearance probability of the m word chain including the replacement source word as the denominator and the appearance probability of the m word chain after replacement corresponding to the m word chain as the numerator. For example, the frequency estimation unit 14 estimates the appearance frequency of the n word chain after replacement by multiplying the appearance frequency of the n word chain before replacement by the value of this ratio.
The appearance probability of the m word chain is read from the large-scale topic language model storage unit 32.

本変形例の場合、式(1)の代わりに、下の式(4)を用いる。   In the case of this modification, the following formula (4) is used instead of formula (1).

Figure 2016024325
Figure 2016024325

式(4)において、p(worig|wm−1,wm−2,・・・)は、置換元の単語を含むm単語連鎖の出現確率である。また、p(wsyn|wm−1,wm−2,・・・)は、これに対応するものであり、置換後の単語を含むm単語連鎖の出現確率である。 In equation (4), p (w orig | w m−1 , w m−2 ,...) Is the appearance probability of the m word chain including the replacement source word. Further, p (w syn | w m−1 , w m−2 ,...) Corresponds to this, and is the appearance probability of the m word chain including the replaced word.

[変形例3]
本変形例では、頻度推定部14は、置換によって新たに生成された3単語連鎖の出現頻度を、置換前の3単語連鎖の出現頻度と同一であると推定する。
本変形例と変形例1とを組み合わせる場合には、頻度推定部14は、置換によって新たに生成されたn単語連鎖の出現頻度を、置換前のn単語連鎖の出現頻度と同一であると推定する。言い換えれば、頻度推定部14は、置換前のn単語連鎖の出現頻度を、そのまま用いて、置換後のn単語連鎖の出現頻度であると推定する。
[Modification 3]
In this modification, the frequency estimation unit 14 estimates that the appearance frequency of the three-word chain newly generated by the replacement is the same as the appearance frequency of the three-word chain before the replacement.
When combining this modification and Modification 1, the frequency estimation unit 14 estimates that the appearance frequency of the n word chain newly generated by the replacement is the same as the appearance frequency of the n word chain before the replacement. To do. In other words, the frequency estimation unit 14 uses the appearance frequency of the n word chain before replacement as it is, and estimates that it is the appearance frequency of the n word chain after replacement.

[変形例4]
本変形例では、置換言語モデル生成装置1は、モデル適応部17を具備しない。置換言語モデル生成装置1において、置換言語モデル生成部15は、上の実施形態に記載した通り、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。この置換言語モデルは、特定の話題に特化した言語モデルである。この置換言語モデルは、元のテキストデータ91に出現する単語連鎖の出現頻度、およびそれらの単語連鎖に含まれる単語を同義語で置換したことによって得られる単語連鎖の出現頻度(推定された出現頻度)にもとづく出現頻度のデータを保持する。
[Modification 4]
In this modification, the replacement language model generation device 1 does not include the model adaptation unit 17. In the replacement language model generation device 1, the replacement language model generation unit 15 generates a replacement language model and writes it in the replacement language model storage unit 16 as described in the above embodiment. This replacement language model is a language model specialized for a specific topic. This replacement language model is based on the appearance frequency of word chains appearing in the original text data 91, and the appearance frequency (estimated appearance frequency) of word chains obtained by replacing words included in those word chains with synonyms. ) Based on the frequency of appearance.

[変形例5]
上記の実施形態においては、テキストデータ91として、放送番組の台本や進行表のテキストを用いることとしたが、利用するテキストデータはこれには限られない。本変形例では、学会や講演会等において事前に入手可能な発表概要やプレゼン資料を、テキストデータ91として用いる。そして、その学会や講演会等の音声認識による書き起こしテキストを生成するために、本変形例を適用できる。また、利用するテキストデータ91の例はこれらに限定されず、任意である。
[Modification 5]
In the above embodiment, the script data of the broadcast program and the text of the progress table are used as the text data 91, but the text data to be used is not limited to this. In this modified example, a presentation summary or presentation material that can be obtained in advance at an academic conference or a lecture is used as the text data 91. Then, this modified example can be applied to generate a transcription text by speech recognition of the academic society or lecture. Moreover, the example of the text data 91 to utilize is not limited to these, but is arbitrary.

以上、この発明の実施形態およびその変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   As mentioned above, although embodiment of this invention and its modification were explained in full detail with reference to drawings, the concrete composition is not restricted to this embodiment, the design of the range which does not deviate from the gist of this invention, etc. included.

本発明は、音声認識処理全般に利用可能である。また、例えば、テレビの放送番組等、番組によって話題が大きく異なるようなコンテンツの音声を認識するために利用可能である。また、その一例として、放送のための字幕テキストの自動生成または半自動生成に利用可能である。   The present invention can be used for voice recognition processing in general. Also, for example, it can be used for recognizing the sound of content such as TV broadcast programs whose topics vary greatly depending on the program. As an example, it can be used for automatic generation or semi-automatic generation of subtitle text for broadcasting.

1 置換言語モデル生成装置(言語モデル生成装置)
2 音声認識装置
11 テキストデータ取得部
12 三つ組生成・頻度計算部
13 同義語置換部
14 頻度推定部
15 置換言語モデル生成部
16 置換言語モデル記憶部
17 モデル適応部
21 置換テーブル生成部
22 置換テーブル記憶部
31 小規模話題言語モデル記憶部
32 大規模話題言語モデル記憶部
51 適応言語モデル記憶部
52 発音辞書記憶部
53 音響モデル記憶部
61 入力音声取得部
62 認識処理部
63 認識結果出力部
1 Replacement language model generator (Language model generator)
2 Speech recognition device 11 Text data acquisition unit 12 Triple generation / frequency calculation unit 13 Synonym replacement unit 14 Frequency estimation unit 15 Replacement language model generation unit 16 Replacement language model storage unit 17 Model adaptation unit 21 Replacement table generation unit 22 Replacement table storage Unit 31 Small topic language model storage unit 32 Large topic language model storage unit 51 Adaptive language model storage unit 52 Pronunciation dictionary storage unit 53 Acoustic model storage unit 61 Input voice acquisition unit 62 Recognition processing unit 63 Recognition result output unit

Claims (6)

単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、
置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、
前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
を具備することを特徴とする言語モデル生成装置。
A replacement table storage unit that stores a relationship between a word and a synonym that can be replaced with the word;
A synonym of a word included in an n-word chain (n is a positive integer) extracted from text data is read from the replacement table storage unit, and a new n is obtained by replacing the word in the n-word chain with the synonym. A synonym replacement for generating word chains;
A frequency estimation unit that estimates an appearance frequency of the n word chain after the replacement based on an appearance frequency of the n word chain before the replacement;
A replacement language model generation unit that generates a replacement language model including the appearance frequency of the n word chain extracted from the text data and the appearance frequency of the n word chain after replacement estimated by the frequency estimation unit;
A language model generation apparatus comprising:
前記頻度推定部は、置換前の前記n単語連鎖の出現頻度と、置換前の前記n単語連鎖のうちの置換元単語を含むm単語連鎖(mは正整数であり、1≦m≦n)の出現確率と、置換後の前記新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のn単語連鎖の出現頻度を推定する、
ことを特徴とする請求項1に記載の言語モデル生成装置。
The frequency estimation unit includes an m word chain including an occurrence frequency of the n word chain before replacement and a replacement source word of the n word chains before replacement (m is a positive integer, 1 ≦ m ≦ n) And the ratio of the occurrence probability of the replaced m word chain including the synonym corresponding to the m word chain in the new n word chain after replacement, based on the post-replacement Estimating the frequency of occurrence of n word chains of
The language model generation apparatus according to claim 1.
前記頻度推定部は、置換前の前記n単語連鎖の出現頻度を、前記置換後のn単語連鎖の出現頻度と推定する、
ことを特徴とする請求項1に記載の言語モデル生成装置。
The frequency estimation unit estimates the appearance frequency of the n word chain before replacement as the appearance frequency of the n word chain after replacement.
The language model generation apparatus according to claim 1.
前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたn単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるn単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部、
をさらに具備することを特徴とする請求項1から3までのいずれか一項に記載の言語モデル生成装置。
The replacement language model generated by the replacement language model generation unit, a small topic language model based on the appearance frequency of n word chains extracted from the text data, and n in a large-scale language resource of a general topic A model adaptation unit that generates an adaptive language model by interpolating a large-scale topic language model based on the appearance frequency of word chains,
The language model generation device according to any one of claims 1 to 3, further comprising:
請求項4に記載の言語モデル生成装置と、
言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、
前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、
を具備することを特徴とする音声認識装置。
The language model generation device according to claim 4,
An acoustic model storage unit that stores acoustic feature data of language elements as an acoustic model;
Using the adaptive language model generated by the model adaptation unit as a language model, and using the acoustic model read from the acoustic model storage unit, a recognition processing unit for performing recognition processing of input speech;
A speech recognition apparatus comprising:
単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶手段、
テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶手段から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換手段、
置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定手段、
前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定手段によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成手段、
としてコンピューターを機能させるためのプログラム。
A replacement table storage means for storing a relationship between a word and a synonym replaceable with the word;
A synonym of a word included in an n-word chain (n is a positive integer) extracted from text data is read from the replacement table storage means, and the word in the n-word chain is replaced with the synonym to create a new n Synonym replacement means for generating word chains,
A frequency estimating means for estimating an appearance frequency of the n-word chain after the replacement based on an appearance frequency of the n-word chain before the replacement;
A replacement language model generating means for generating a replacement language model including the appearance frequency of the n word chain extracted from the text data and the appearance frequency of the n word chain after the replacement estimated by the frequency estimation means;
As a program to make the computer function as.
JP2014148223A 2014-07-18 2014-07-18 LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE Active JP6485941B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014148223A JP6485941B2 (en) 2014-07-18 2014-07-18 LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014148223A JP6485941B2 (en) 2014-07-18 2014-07-18 LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE

Publications (2)

Publication Number Publication Date
JP2016024325A true JP2016024325A (en) 2016-02-08
JP6485941B2 JP6485941B2 (en) 2019-03-20

Family

ID=55271109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014148223A Active JP6485941B2 (en) 2014-07-18 2014-07-18 LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE

Country Status (1)

Country Link
JP (1) JP6485941B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146604A (en) * 2017-04-27 2017-09-08 北京捷通华声科技股份有限公司 A kind of language model optimization method and device
WO2018057166A1 (en) 2016-09-23 2018-03-29 Intel Corporation Technologies for improved keyword spotting
JP2019185400A (en) * 2018-04-10 2019-10-24 日本放送協会 Sentence generation device, sentence generation method, and sentence generation program
US11545144B2 (en) 2018-07-27 2023-01-03 Samsung Electronics Co., Ltd. System and method supporting context-specific language model

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091967A (en) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> Language model preparing device and recording medium with language model preparation program recorded thereon
JP2005031255A (en) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp Dictionary creating device and speech recognizing device
JP2006085179A (en) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd Broadcast reception method, broadcast receiving system, recording medium, and program
WO2007138875A1 (en) * 2006-05-31 2007-12-06 Nec Corporation Speech recognition word dictionary/language model making system, method, and program, and speech recognition system
WO2010125736A1 (en) * 2009-04-30 2010-11-04 日本電気株式会社 Language model creation device, language model creation method, and computer-readable recording medium
JP2011164175A (en) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> Language model generating device, program thereof, and speech recognition system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091967A (en) * 2000-09-14 2002-03-29 Nippon Hoso Kyokai <Nhk> Language model preparing device and recording medium with language model preparation program recorded thereon
JP2006085179A (en) * 2003-01-15 2006-03-30 Matsushita Electric Ind Co Ltd Broadcast reception method, broadcast receiving system, recording medium, and program
JP2005031255A (en) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp Dictionary creating device and speech recognizing device
WO2007138875A1 (en) * 2006-05-31 2007-12-06 Nec Corporation Speech recognition word dictionary/language model making system, method, and program, and speech recognition system
WO2010125736A1 (en) * 2009-04-30 2010-11-04 日本電気株式会社 Language model creation device, language model creation method, and computer-readable recording medium
JP2011164175A (en) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> Language model generating device, program thereof, and speech recognition system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018057166A1 (en) 2016-09-23 2018-03-29 Intel Corporation Technologies for improved keyword spotting
EP3516651A4 (en) * 2016-09-23 2020-04-22 Intel Corporation Technologies for improved keyword spotting
CN107146604A (en) * 2017-04-27 2017-09-08 北京捷通华声科技股份有限公司 A kind of language model optimization method and device
CN107146604B (en) * 2017-04-27 2020-07-03 北京捷通华声科技股份有限公司 Language model optimization method and device
JP2019185400A (en) * 2018-04-10 2019-10-24 日本放送協会 Sentence generation device, sentence generation method, and sentence generation program
JP7084761B2 (en) 2018-04-10 2022-06-15 日本放送協会 Statement generator, statement generator and statement generator
US11545144B2 (en) 2018-07-27 2023-01-03 Samsung Electronics Co., Ltd. System and method supporting context-specific language model

Also Published As

Publication number Publication date
JP6485941B2 (en) 2019-03-20

Similar Documents

Publication Publication Date Title
JP6222821B2 (en) Error correction model learning device and program
EP4018437B1 (en) Optimizing a keyword spotting system
WO2017061027A1 (en) Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor
JP5932869B2 (en) N-gram language model unsupervised learning method, learning apparatus, and learning program
JP6051004B2 (en) Speech recognition apparatus, error correction model learning method, and program
JP2016075740A (en) Voice processing device, voice processing method, and program
JP6485941B2 (en) LANGUAGE MODEL GENERATION DEVICE, ITS PROGRAM, AND VOICE RECOGNIZING DEVICE
CN107767858B (en) Pronunciation dictionary generating method and device, storage medium and electronic equipment
JP5180800B2 (en) Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program
JP6810580B2 (en) Language model learning device and its program
JP2012018201A (en) Text correction and recognition method
JP6183988B2 (en) Speech recognition apparatus, error correction model learning method, and program
JP6366166B2 (en) Speech recognition apparatus and program
JP6300394B2 (en) Error correction model learning device and program
JP6027754B2 (en) Adaptation device, speech recognition device, and program thereof
JP2010175765A (en) Speech recognition device and speech recognition program
JP2008241970A (en) Speaker adaptation device, speaker adaptation method and speaker adaptation program
JP2013182260A (en) Language model creation device, voice recognition device and program
JP2004348552A (en) Voice document search device, method, and program
JP5268825B2 (en) Model parameter estimation apparatus, method and program
JP4362054B2 (en) Speech recognition apparatus and speech recognition program
JP5264649B2 (en) Information compression model parameter estimation apparatus, method and program
JP5860439B2 (en) Language model creation device and method, program and recording medium
WO2023036283A1 (en) Online class interaction method and online class system
JP2014119559A (en) Speech recognition device, error correction model learning method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180815

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190218

R150 Certificate of patent or registration of utility model

Ref document number: 6485941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250