JP2014002257A - 言語モデル生成装置、その方法及びプログラム - Google Patents
言語モデル生成装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP2014002257A JP2014002257A JP2012137187A JP2012137187A JP2014002257A JP 2014002257 A JP2014002257 A JP 2014002257A JP 2012137187 A JP2012137187 A JP 2012137187A JP 2012137187 A JP2012137187 A JP 2012137187A JP 2014002257 A JP2014002257 A JP 2014002257A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- text
- pseudo
- language model
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】言語モデル生成装置は、形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、オリジナルテキストにおけるn−gramパタンの出現頻度及び疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含む。
【選択図】図2
Description
bigram:P(食べる|を)=C(を-食べる)/C(を)
trigram:P(食べる|りんご-を)=C(りんご-を-食べる)/C(りんご-を)
通常、音声認識の分野ではn=2(bigram)やn=3(trigram)が用いられることが多い。
「私はあのりんごを今日友達と食べる(私/は/あの/りんご/を/今日/友達/と/食べる)」という一文からは以下の七つのtrigramパタンが学習される。ただし、括弧内は形態素単位に分割した結果である。
1.私−は−あの
2.は−あの−りんご
3.あの−りんご−を
4.りんご−を−今日
5.を−今日−友達
6.今日−友達−と
7.友達−と−食べる
本実施形態では、ある一文から得られるn−gramパタン(例えばtrigramパタン)を増やしたい。
オリジナルテキスト:私はあのりんごを今日友達と食べる
疑似テキスト(1):今日私は友達とあのりんごを食べる
疑似テキスト(2):私は今日あのりんごを友達と食べる
疑似テキスト(3):私は今日友達とあのりんごを食べる
疑似テキスト(4):私は友達と今日あのりんごを食べる
疑似テキスト(5):私は友達とあのりんごを今日食べる
疑似テキスト(6):今日あのりんごを私は友達と食べる
…
上記のような並び替えにより、元々の文には含まれなかった「今日−あの−りんご」「友達−と−今日」「今日−私−は」等のtrigramパタンも学習することが可能になる。例えば、疑似テキスト(1)「今日私は友達とあのりんごを食べる」からは以下の7つのtrigramパタン(1)1〜(1)7が学習される。(1)1〜(1)5及び(1)7が疑似テキスト(1)により新しく獲得されたtrigramパタンである。
(1)1.今日−私−は
(1)2.私−は−友達
(1)3.は−友達−と
(1)4.友達−と−あの
(1)5.と−あの−りんご
(1)6.あの−りんご−を
(1)7.りんご−を−食べる
このように並び替えによりオリジナルテキストから疑似テキストを生成することで、オリジナルテキストからは得られなかった新たなn−gramパタンを抽出することが可能となる。
オリジナルテキスト:私はあのりんごを今日友達と食べる
文節:私は/あの/りんごを/今日/友達と/食べる
このような区切られた文節において、それぞれの文節は、図1Aのような係り受け関係を抽出できる。図1Aの例の場合、「私は→食べる」「あの→りんごを」「りんごを→食べる」「今日→食べる」「友達と→食べる」の計5個の係り受け関係が抽出される。係り受け関係にある文節間は、修飾するものから修飾されるものに対して直接の接続関係が成り立つ。また、係り受け関係が同じ深さにある各文節は互いに独立の関係にある。
図2は言語モデル生成装置100の機能ブロック図を、図3はその処理フローを示す。
・入力:オリジナルテキストtext
・出力:形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mort
・処理内容:オリジナルテキストtextを形態素解析して(s110)、オリジナルテキストを形態素単位に分割し、形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mortを出力する。なお、形態素とは、言語的に意味を持つ最小単位のことである。形態素解析技術としては、従来技術を用いる。例えば「私はあのりんごを今日友達と食べる」というリジナルテキストを形態素解析すると、以下のように、単語が「/」で区切られた形式の形態素解析結果mortが得られる。
⇒私/は/あの/りんご/を/今日/友達/と/食べる
・入力:形態素解析結果(形態素単位に分かち書きされたオリジナルテキスト)mort
・出力:構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)synt
・処理内容:形態素解析結果mortを構文解析して(s120)、形態素解析結果mortを文節に分割し、分割された複数の文節間の係り受け関係を解析し、構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)syntを出力する。なお、本実施形態において構文解析とは、文節の係り受け関係を解析することを意味する。構文解析技術としては、従来技術を用いる。例えば「私/は/あの/りんご/を/今日/友達/と/食べる」という形態素解析結果に対して構文解析を行うと図1Bのような構文解析結果syntが得られる。なお、図1Bのような係り受け関係を本明細書では便宜上「私/は(6)あの(3)りんご/を(6)今日(6)友達/と(6)食べる」と記す。括弧中の数字は、直前の文節が、係っている文節の番号を意味する。例えば第一文節「私/は」は第六文節「食べる」に係っている。
・入力:構文解析結果(形態素解析結果と文節の係り受け関係を示す情報)synt
・出力:疑似テキストtext,u
・処理内容:構文解析結果syntを用いて、各文節を並び替えてUt個の疑似テキストtext,uを生成する(s130)。ただし、u=1,2,…,Utである。並び替えは、係り受け先が同じ文節である複数の文節を並び替えることによって行う。例えば、「私/は(6)あの(3)りんご/を(6)今日(6)友達/と(6)食べる」を受け取った場合、第六文節「食べる」を係り受け先とする第一文節「私/は」、第三文節「(あの)/りんごを」、第四文節「今日」及び第五文節「友達/と」の四つの文節を並び替える。この四つの文節を順列組合せに従って並び替えることで疑似テキストtext,uを生成する。よって、(4!−1=4×3×2×1−1=23通り)の疑似テキストtext,uが生成される(図4参照)。なお、「−1」はオリジナルテキストtextに相当する。なお、ある構文解析結果syntに対して、係り受け先が同じとなる文節が存在しない場合、Ut=0であり、疑似テキストtext,uを生成しない。
・入力:オリジナルテキストtext、疑似テキストtext,u
・出力:言語モデル(n−gramモデル)
・処理内容:T個のオリジナルテキストtextにおけるn−gramパタンの出現頻度CountGと(U1+U2+…+UT)個の疑似テキストtext,uにおけるn−gramパタンの出現頻度CountSとからn−gram確率を求め、言語モデルを生成する(s140)。なお、n−gram確率を求める際に、T個のオリジナルテキストtextから得られるn−gramパタンの出現頻度CountG及び(U1+U2+…+UT)個の疑似テキストtext,uから得られるn−gramパタンの出現頻度CountSに対して重み付けに行ってもよい。例えば、重みWで重み付け混合をしたbigram確率は次式によって計算される。
このような構成により、一文(オリジナルテキストtext)から獲得されるn−gramパタンを増加させることができ、従来技術と比べて、少量のテキストコーパスから、精度の高い言語モデルを生成できる。
言語モデル生成装置100は、形態素解析部110や構文解析部120を備えずに、例えば他の装置により予め求められた形態素解析結果mortや構文解析結果syntを入力としてもよい。
第一実施形態と異なる部分についてのみ説明する。
・入力:オリジナルテキストtext
・出力:形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’t
・処理内容:オリジナルテキストtextを形態素解析して(s210)、オリジナルテキストを形態素単位に分割し、分割した各形態素に品詞を付与して、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたたオリジナルテキスト)mor’tを出力する。形態素解析技術としては、従来技術を用いる。例えば「私はあのりんごを今日友達と食べる」というリジナルテキストを形態素解析すると、以下のように、単語が「/」で区切られ、品詞を付加された形式の形態素解析結果mor’tが得られる。
⇒私(名詞:代名詞)/は(連用助詞)/あの(連体詞)/りんご(名詞)/を(格助詞:連用)/今日(名詞:日時:連用)/友達(名詞)/と(格助詞:連用)/食べる(動詞)
・入力:(品詞情報が付加された形態素解析結果mor’tと文節の係り受け関係を示す情報とからなる構文解析結果syn’tを用いて生成されるため、品詞情報が付加されている)疑似テキストtex’t,u、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’t
・出力:選択疑似テキストtex’t,y
・処理内容:オリジナルテキストtextの言葉の並びを用いて、疑似テキストtex’t,uの言葉の並びが正しいか否かを判定し、正しいと判定された疑似テキストtex’t,uを選択し(s250)、言語モデル生成部140に出力し、言語モデルの学習に用いる。正しくないと判定された場合にはその疑似テキストtex’t,uを選択せず言語モデル学習に用いない。本実施形態では、言葉の並びが正しいか否かを判定する際に品詞の語順を利用し、オリジナルテキストtextの品詞の語順と疑似テキストtex’t,uの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストtex’t,uを選択する。疑似テキストtex’t,uの品詞の語順が正しいか否かを判定する方法を以下に二つ説明する。
図7及び図8を用いて、第一判定方法について説明する。疑似テキスト選択部250は、第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255及び判定部257を含む。まず、第一品詞情報取得部251は、形態素解析結果mor’tからオリジナルテキストtextに付加された品詞情報を取り出し(s251)、T個のオリジナルテキストtextの品詞の語順の集合を、出現品詞列集合として、出現品詞列集合記憶部253に格納する(s253)。次に、第二品詞情報取得部255は、疑似テキストtex’t,uに付加された品詞情報から、疑似テキストtex’t,uの品詞の語順を取り出し(s255)、判定部257に出力する。判定部257は、疑似テキストtex’t,uの品詞の語順を受け取り、出現品詞列集合記憶部253内の出現品詞列集合に同様の品詞の語順が存在するか否かを判定し(s257)、存在する場合には、その品詞の語順は確からしいと判断し、その品詞の語順に対応する疑似テキストtex’t,uを選択し(s258)、選択疑似テキストtex’t,yとして言語モデル生成部140に出力する。ただし、y=1,2,…,Ytであり、Ytはあるオリジナルテキストtextから得られるUt個の疑似テキストtex’t,uから選択される選択疑似テキストtex’t,yの個数である。存在しない場合には、その疑似テキストtex’t,uは本来正しくない文型であると判断し、選択しない。
図9及び図10を用いて、第二判定方法について説明する。疑似テキスト選択部250は、第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255及び判定部257に加えて、品詞n−gram確率計算部258及び品詞n−gram確率記憶部259をさらに含む。第一品詞情報取得部251、出現品詞列集合記憶部253、第二品詞情報取得部255における処理は第一判定方法と同様である。
品詞bigram確率:P(A|B)=C(B-A)/C(B)
品詞trigram確率:P(A|B-C)=C(B-C-A)/C(B-C)
1.(連体詞)−(名詞:代名詞)−(連用助詞)
2.(名詞:代名詞)−(連用助詞)−(名詞)
3.(連用助詞)−(名詞)−(格助詞:連用)
4.(名詞)−(格助詞:連用)−(名詞)
5.(格助詞:連用)−(名詞)−(格助詞:連用)
6.(名詞)−(格助詞:連用)−(名詞:日時:連用)
7.(格助詞:連用)−(名詞:日時:連用)−(動詞)
取り出した品詞n−gram確率と事前に定めた閾値と比較し(s257b)、閾値以上の場合、その品詞の語順は確からしいと判断し、その品詞の語順に対応する疑似テキストtex’t,uを選択し(s258)、選択疑似テキストtex’t,yとして言語モデル生成部140に出力する。閾値未満の場合には、その疑似テキストtex’t,uは本来正しくない文型であると判断し、選択しない。
言語モデル生成部140は、入力として、疑似テキスト生成部130で生成された(U1+U2+…+UT)個の疑似テキストtex’t,u全てではなく、その中から疑似テキスト選択部250で選択された(Y1+Y2+…+YT)個の選択疑似テキストtex’t,yのみを用いて、言語モデルを生成する(s140)。言語モデルを生成方法は第一実施形態と同様である。
このような構成により、第一実施形態と同様の効果を得ることができる。さらに、本来正しくない文型の疑似テキストtex’t,uを用いて言語モデルを生成することを防ぎ、言語モデルの性能劣化を防止することができる。
第二実施形態と異なる部分についてのみ説明する。
・入力:(品詞情報が付加されている)選択疑似テキストtex’t,y、形態素解析結果(形態素単位に分かち書きされ、品詞情報が付加されたオリジナルテキスト)mor’t
・出力:選択疑似テキストtex’t,y毎の重みWt,y
・処理内容:T個のオリジナルテキストtextの品詞の語順と同じ品詞の語順を多く持つ選択疑似テキストtex’t,yほど、大きな重みWt,yを算出し(s370)、選択疑似テキストtex’t,yとともに言語モデル生成部140に出力する。重みWt,yの算出方法としては、例えば以下の方法がある。
疑似テキスト重み算出部370は、出現品詞列集合記憶部253内の出現品詞列集合に含まれる何れかの品詞の語順と疑似テキストtex’t,uの品詞の語順とが所定の割合(例えば、95%)以上一致するか否かを判定し、一致する場合には、その疑似テキストtex’t,uの品詞の語順は確からしいと判断し、重みWt,yの値を大きな値A1とする。一致しない場合には、その疑似テキストtex’t,yは本来正しくない文型であると判断し、重みWt,yの値を小さな値A2とする。
取り出した品詞n−gram確率と事前に定めた閾値Xとを比較し、閾値X以上の場合、その品詞の語順は確からしいと判断し、重みWt,yの値を大きな値A1とする。閾値X未満の場合には、その疑似テキストtex’t,yは本来正しくない文型であると判断し、重みWt,yの値を小さな値A2とする。ただし、A1>A2である。X、A1、A2は事前に開発セットの認識精度が最大になるように定めておく。例えば、X、A1、A2は、様々な値の組合せを用意して、言語モデルとしての認識精度がよくなるように実験的に定める。なお、Xは、0に近づけると全ての品詞の語順が許容されることになるため、品詞の語順による重み付けの意味がなくなる。また、この例では、閾値X以上、または、閾値X未満の二つのパタンに分類したが、N個の閾値Xnを設け(ただし、Nは2以上の整数であり、n=1,2,…,Nであり、X1<X2<…<XN)、(N+1)個のパタンに分類しても問題ない。閾値の個数が増えることで、重みWt,yの表現能力が向上し、言語モデルの性能が向上すると考えられる。一方で事前に決めるパラメータ数(閾値X1,X2,…,XNや、(N+1)個のパタンに対応する(N+1)個の値A1、A2,…,AN+1)が増えるため計算コストが増大する。
そもそも品詞n−gram確率が大きければ、「語順的に確からしい」ことを意味し、品詞n−gram確率が小さければ「語順的に誤りらしい」ことを意味するので、取り出した品詞n−gram確率の平均値を求め、その平均値(または平均値に所定の値を乗じた値)を重みとして利用する。
言語モデル生成部140は、オリジナルテキストtext、選択疑似テキストtex’t,y及び重みWt,yを受け取り、式(1)または(2)等により、n−gram確率を計算し、言語モデルを生成する(s140)。言語モデルを生成方法は第二実施形態と同様である。ただし、式(1)または(2)等において、選択疑似テキストtex’t,y毎に、重みWに代えて、重みWt,yを用いて計算する。
このような構成により、第二実施形態と同様の効果を得ることができる。さらに、より確からしい語順を持つ選択疑似テキストtex’t,yに対して、大きな重みWt,yを与え、言語モデルの精度を向上させることができる。
第二実施形態の言語モデル生成装置200に疑似テキスト重み算出部370を加えた構成となっているが、第一実施形態の言語モデル生成装置100に加えてもよい。この場合、疑似テキスト重み算出部370や言語モデル生成部140では、選択疑似テキストtex’t,yに代えて、品詞情報が付加されている疑似テキストtex’t,uを用いる。よって、第一実施形態の形態素解析部110に代えて、第二実施形態の形態素解析部210を用い、オリジナルテキストtextを形態素単位に分割し、分割した各形態素に品詞を付与して、形態素解析結果mor’tを出力する。また、この場合、疑似テキスト重み算出部370において、品詞n−gram確率を求め、図示しない記憶部に格納する。
また、本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述した言語モデル生成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
110,210 形態素解析部
120 構文解析部
130 疑似テキスト生成部
140 言語モデル生成部
250 疑似テキスト選択部
251 第一品詞情報取得部
253 出現品詞列集合記憶部
255 第二品詞情報取得部
257 判定部
258 確率計算部
259 確率記憶部
370 疑似テキスト重み算出部
Claims (7)
- 形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成部と、
前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成部とを含む、
言語モデル生成装置。 - 請求項1記載の言語モデル生成装置であって、
前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
前記オリジナルテキストの品詞の語順と前記疑似テキストの品詞の語順とを比較して、確からしい品詞の語順を持つ疑似テキストを選択する疑似テキストを選択する疑似テキスト選択部とをさらに含み、
前記言語モデル生成部は、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキスト選択部において選択された前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する、
言語モデル生成装置。 - 請求項2記載の言語モデル生成装置であって、
前記疑似テキスト選択部は、
前記オリジナルテキストに付加されている品詞情報を取り出す第一品詞情報取得部と、
前記オリジナルテキストの品詞の語順の集合である出現品詞列集合を記憶する出現品詞列集合記憶部と、
前記疑似テキストに付加された品詞情報から、前記疑似テキストの品詞の語順を取り出す第二品詞情報取得部と、
前記疑似テキストの品詞の語順と前記出現品詞列集合に含まれる何れかの品詞の語順とが所定の割合以上一致する場合に、その疑似テキストを選択する判定部と、を含む、
言語モデル生成装置。 - 請求項2記載の言語モデル生成装置であって、
前記疑似テキスト選択部は、
前記オリジナルテキストに付加されている品詞情報を取り出す第一品詞情報取得部と、
前記オリジナルテキストの品詞の語順の集合である出現品詞列集合を記憶する出現品詞列集合記憶部と、
前記疑似テキストに付加された品詞情報から、前記疑似テキストの品詞の語順を取り出す第二品詞情報取得部と、
前記出現品詞列集合に含まれる品詞n−gramパタンについての品詞n−gram確率を計算する品詞n−gram確率計算部と、
前記品詞n−gram確率を記憶する品詞n−gram確率記憶部と、
前記疑似テキストの品詞の語順から得られる品詞n−gramパタンに対応する品詞n−gram確率を前記品詞n−gram確率記憶部から取り出し、取り出した品詞n−gram確率と事前に定めた閾値とを比較し、閾値以上の場合、その品詞の語順に対応する疑似テキストを選択する判定部と、を含む、
言語モデル生成装置。 - 請求項1から請求項4の何れかに記載の言語モデル生成装置であって、
前記オリジナルテキストには、さらに各形態素に対して品詞情報が付加されているものとし、
前記オリジナルテキストの品詞の語順と同じ品詞の語順を多く持つ疑似テキストほど、大きな重みを算出する言語モデル重み算出部をさらに含み、
前記言語モデル生成部は、前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度に対して前記重みにより重み付けを行い、n−gram確率を求め、言語モデルを生成する、
言語モデル生成装置。 - 形態素単位に分かち書きされ、文節の係り受け関係が付加されたオリジナルテキストを用いて、係り受け先が同じである複数の文節を並び替えて、疑似テキストを生成する疑似テキスト生成ステップと、
前記オリジナルテキストにおけるn−gramパタンの出現頻度及び前記疑似テキストにおけるn−gramパタンの出現頻度を用いてn−gram確率を求め、言語モデルを生成する言語モデル生成ステップとを含む、
言語モデル生成方法。 - 請求項1から請求項5の何れかに記載の言語モデル生成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012137187A JP5766152B2 (ja) | 2012-06-18 | 2012-06-18 | 言語モデル生成装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012137187A JP5766152B2 (ja) | 2012-06-18 | 2012-06-18 | 言語モデル生成装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014002257A true JP2014002257A (ja) | 2014-01-09 |
JP5766152B2 JP5766152B2 (ja) | 2015-08-19 |
Family
ID=50035480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012137187A Expired - Fee Related JP5766152B2 (ja) | 2012-06-18 | 2012-06-18 | 言語モデル生成装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5766152B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016180849A (ja) * | 2015-03-24 | 2016-10-13 | 日本電信電話株式会社 | 学習データ生成装置、言語モデル学習装置、学習データ生成方法、プログラム |
CN109800421A (zh) * | 2018-12-19 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种游戏剧本生成方法及其装置、设备、存储介质 |
CN112466292A (zh) * | 2020-10-27 | 2021-03-09 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置和电子设备 |
JP2022110098A (ja) * | 2018-11-30 | 2022-07-28 | グーグル エルエルシー | 音声処理 |
WO2023073886A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0785042A (ja) * | 1993-09-16 | 1995-03-31 | Canon Inc | 文章処理装置 |
JP2002091967A (ja) * | 2000-09-14 | 2002-03-29 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体 |
JP2002279354A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 文字認識装置、文字認識方法および記録媒体 |
JP2004271615A (ja) * | 2003-03-05 | 2004-09-30 | Canon Inc | 情報処理装置 |
JP2009151630A (ja) * | 2007-12-21 | 2009-07-09 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、及びプログラム |
JP2012078647A (ja) * | 2010-10-04 | 2012-04-19 | National Institute Of Information & Communication Technology | 言語モデル学習装置及びコンピュータプログラム |
-
2012
- 2012-06-18 JP JP2012137187A patent/JP5766152B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0785042A (ja) * | 1993-09-16 | 1995-03-31 | Canon Inc | 文章処理装置 |
JP2002091967A (ja) * | 2000-09-14 | 2002-03-29 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体 |
JP2002279354A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 文字認識装置、文字認識方法および記録媒体 |
JP2004271615A (ja) * | 2003-03-05 | 2004-09-30 | Canon Inc | 情報処理装置 |
JP2009151630A (ja) * | 2007-12-21 | 2009-07-09 | National Institute Of Information & Communication Technology | 情報処理装置、情報処理方法、及びプログラム |
JP2012078647A (ja) * | 2010-10-04 | 2012-04-19 | National Institute Of Information & Communication Technology | 言語モデル学習装置及びコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
JPN6014014727; 清水信哉他: '"用法の違いを考慮した類似単語の置換による学習データ生成とそれを用いた主題の違いに頑健な言語モデルの' 情報処理学会研究報告2010June[CD-ROM] No.196, 201006, pp.1-6 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016180849A (ja) * | 2015-03-24 | 2016-10-13 | 日本電信電話株式会社 | 学習データ生成装置、言語モデル学習装置、学習データ生成方法、プログラム |
JP2022110098A (ja) * | 2018-11-30 | 2022-07-28 | グーグル エルエルシー | 音声処理 |
CN109800421A (zh) * | 2018-12-19 | 2019-05-24 | 武汉西山艺创文化有限公司 | 一种游戏剧本生成方法及其装置、设备、存储介质 |
CN112466292A (zh) * | 2020-10-27 | 2021-03-09 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置和电子设备 |
CN112466292B (zh) * | 2020-10-27 | 2023-08-04 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置和电子设备 |
US11900918B2 (en) | 2020-10-27 | 2024-02-13 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for training a linguistic model and electronic device |
WO2023073886A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP5766152B2 (ja) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN104854654B (zh) | 用于使用搜索查询信息的言语识别处理的方法和系统 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
EP2157570B1 (en) | Automatic conversation system and conversation scenario editing device | |
US11675975B2 (en) | Word classification based on phonetic features | |
JP4968036B2 (ja) | 韻律語グルーピング方法及び装置 | |
US20030046078A1 (en) | Supervised automatic text generation based on word classes for language modeling | |
EP1580667A2 (en) | Representation of a deleted interpolation N-gram language model in ARPA standard format | |
CN107797984A (zh) | 智能交互方法、设备及存储介质 | |
KR101326354B1 (ko) | 문자 변환 처리 장치, 기록 매체 및 방법 | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
JP2004070959A (ja) | 適応型文脈依存解析 | |
Kumar | Answer-level calibration for free-form multiple choice question answering | |
JP2018084627A (ja) | 言語モデル学習装置およびそのプログラム | |
JP2004342104A (ja) | テキストを圧縮するシステム、方法及びコンピュータ可読記憶媒体 | |
CN110020429A (zh) | 语义识别方法及设备 | |
JP2014044363A (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
CN105632500B (zh) | 语音识别装置及其控制方法 | |
JP2013134753A (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
CN114398875A (zh) | 一种纠错模型的训练方法、检索词纠错方法、设备及介质 | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2004046775A (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP5225219B2 (ja) | 述語項構造解析方法、その装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5766152 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |