JP6441203B2 - 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム - Google Patents

音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム Download PDF

Info

Publication number
JP6441203B2
JP6441203B2 JP2015221844A JP2015221844A JP6441203B2 JP 6441203 B2 JP6441203 B2 JP 6441203B2 JP 2015221844 A JP2015221844 A JP 2015221844A JP 2015221844 A JP2015221844 A JP 2015221844A JP 6441203 B2 JP6441203 B2 JP 6441203B2
Authority
JP
Japan
Prior art keywords
word
reliability
speech recognition
recognition result
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015221844A
Other languages
English (en)
Other versions
JP2017090731A (ja
Inventor
賢昭 佐藤
賢昭 佐藤
亮 増村
亮 増村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015221844A priority Critical patent/JP6441203B2/ja
Publication of JP2017090731A publication Critical patent/JP2017090731A/ja
Application granted granted Critical
Publication of JP6441203B2 publication Critical patent/JP6441203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、文を短縮する技術に関し、特に音声認識の結果として得られた文を短縮するものに関する。
音声には、スマートフォンに人が話しかけるようなゆっくりはっきりとした音声(読み上げ音声)、人と人の会話のような音声(話し言葉音声)がある。話し言葉音声の認識結果には、ラフな話し方特有の現象である、誤認識による意味不明な単語、フィラー、言い間違い、相槌、その他特に重要な意味を持たない単語が多く含まれることがある。
以下、誤認識による意味不明な単語、フィラー、言い間違い、相槌、その他特に重要な意味を持たない単語について例を挙げながら説明する。
1)誤認識による意味不明な単語
例)「興味みなさん遅い時間に集まって頂き」
この文の「興味」は、この文だけ見ると意味不明な単語である。真の発話「今日は」を誤認識したものと推察される。この「興味」は、この文の音声認識結果としては不要な単語であるとして削除対象となる。
2)フィラー
例)「えー」、「あのー」、「うーん」、「なんかー」
これは、発話者が主に考え中の際に出現する、どんな文脈で出現しても重要な意味を持たない単語である。これらの単語も削除対象となる。
3)言い間違い
例)「明日、いや、今日全部終わらせよう」、「かる、カレーを食べたいな」
1文目の「明日」は、本来「今日」と言おうとしたが誤って発した単語である。また、2文目の「かる」は、本来「カレー」と言おうとしたが発音に失敗した(いわゆる噛んだ)単語である。「明日」、「いや」、「かる」は削除対象となるものである。
4)相槌
例)「うんうんうん、これは難しいよね」
この文の「うんうんうん」は、単なる相槌であり、重要な意味を持たない。したがって、これも削除対象となる。
5)その他特に重要な意味を持たない単語
例)「これはなんていうのかな、無駄だっていう感じがするんだよねえ」
この文は、意味上重要でない部分を取り去ると、「これは無駄だ」という文となる。「なんて」、「いう」、「の」、「かな」、「って」、「いう」、「感じ」、「が」、「する」、「んだよねえ」は、重要でないため削除対象となる。
従来の文短縮技術(特許文献1)は、文の短縮率や単語の重要度などを用いて文を短縮しているが、音声認識の結果として得られた文のみを対象とするものではないため、上述の話し言葉音声に出現するような不要な単語であっても短縮に際して削除対象とならない可能性がある。その結果として、話し言葉音声の認識結果を対象とする場合、不要な単語が残ってしまい、文が十分に短縮されない可能性があった。
そこで、音声認識の結果得られた文を対象として不要な単語を削除する(つまり、重要な単語のみを残す)ことにより文を短縮する方法(以下、音声認識結果圧縮方法という)を考えると、大きく2つの方法、教師あり学習による方法と教師なし学習による方法が考えられる。教師あり学習による方法は、“この文のこの単語は不要である”というラベルデータを人手で付与したデータを大量に用意し、文から削除していい単語のパターンを学習する方法である。一方、教師なし学習による方法は、ラベルデータが付与されていないデータから学習する方法である。ラベルデータを付与したデータの準備は手間がかかるものであり、現時点において日本語によるラベルのついた音声資源は非常に数が限られる。
したがって、以下では、音声認識の結果得られた文にはラベルデータが付与されていないものとし、教師なし学習を用いた音声認識結果圧縮方法に焦点をあてる。この教師なしの学習による音声認識結果圧縮方法として、文中の各単語に対して文全体から見たその単語の重要度を表すtf・idfを基準に重要度の低い単語を削除し、N―gram確率を用いて削除した結果得られた文に不自然な単語の並びができないようにする方法が考えられる。
特開2010−55236号公報
しかし、音声認識の結果得られる単語が正解である程度(信頼度)を用いていないため、音声認識結果を十分に生かした形での圧縮方法にはなっていない。また、音声認識の結果得られる単語には最も正解である確率が高いもののほかにもいくつか認識候補となる単語があるのが通常であるが、上述の方法では、複数の認識候補についての考慮が払われていないため、この点においても音声認識結果を十分に生かした形での圧縮方法にはなっていない。その結果、不要な単語の削除が不十分となり、音声認識結果の圧縮が十分でない場合もある。
そこで本発明では、音声認識に際して得られる情報を用いて圧縮することにより、より精度のよい音声認識結果に対する圧縮結果を生成する音声認識結果圧縮装置を提供することを目的とする。
本発明の一態様は、Mを2以上の整数、mを1≦m≦Mなる整数とし、音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、前記音声データから音声認識結果としてM個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、前記M個の仮説から選択したm個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算部と、前記m個の仮説に含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算部と、前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部とを含む。
本発明によれば、音声認識に際して得られる情報を十分に用いてより的確に不要な単語を削除することが可能となる。その結果、音声認識結果に対する圧縮結果をより精度よく生成することが可能となる。また、当該圧縮結果を入力として別の言語処理アプリケーションを実行することにより、当該アプリケーションによる解析誤りを減らしたり、文の可読性を高めたりすることが可能となる。
実施例1の音声認識結果圧縮装置100の構成を示すブロック図。 実施例1の音声認識結果圧縮装置100の動作を示すフローチャート。 仮説に含まれる単語の信頼度の一例を示す表。 実施例1の音声認識結果圧縮装置100’の構成を示すブロック図。 実施例2の音声認識結果圧縮装置200の構成を示すブロック図。 実施例2の音声認識結果圧縮装置200の動作を示すフローチャート。 音声認識結果を表現するコンフュージョンネットワークの一例を示す図。 実施例3の音声認識結果圧縮装置300の構成を示すブロック図。 実施例3の音声認識結果圧縮装置300の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、図2を参照して実施例1の音声認識結果圧縮装置100について説明する。図1は、実施例1の音声認識結果圧縮装置100の構成を示すブロック図である。図2は、実施例1の音声認識結果圧縮装置100の動作を示すフローチャートである。図1に示すように音声認識結果圧縮装置100は、音声認識部110と、3−gram確率計算部120と、3−gram確率記録部102と、idf計算部130と、idf記録部103と、信頼度tf計算部140と、信頼度tf・idf計算部150と、音声認識結果圧縮部160を含む。音声認識結果圧縮装置100は、テキストデータ記録部101と接続している。
テキストデータ記録部101には、事前に用意した大量のテキストデータを記録しておく。例えば、1本30文程度で構成される新聞記事が150000本程度あるコーパスを記録する。なお、テキストデータ記録部101に記録されるテキストデータは、音声認識部110が音声データを認識した結果として生成する音声認識結果とは異なるものとする。
音声認識部110は、音声データから音声認識によりP個(Pは1以上の整数)の仮説集合H,…,Hを生成する。その際、仮説集合H(1≦p≦P)の要素である仮説に含まれる各単語の信頼度を計算する(S110)。音声データとは、音圧の時系列データのことであり、pcm、wavなどの形式がある。音声データをテキストとして表現したものの例を以下に示す。
例)音声データSをテキストとして表現したもの
0.13−2.55:「今日はかるカレーを食べた」
2.66−3.57:「カレー屋ってどこにあるの」
5.66−7.85:「横須賀駅の近くにあるよ」
ここで、「:」の前にあるXXX−YYYは音声データの再生時刻情報(秒単位)を示す。「今日はかるカレーを食べた」、「カレー屋ってどこにあるの」、「横須賀駅の近くにあるよ」のことを音声データの文ということにする。
音声データの文を音声認識部110が認識した結果得られる文を仮説という。一般に1つの音声データの文に対して複数の仮説、すなわち仮説集合が生成される。つまり、生成される仮説集合の数Pは、音声データに含まれる文の数と一致する。例えば、先ほどの音声データSについては、3つの文が含まれているので、3つの仮説集合が生成されることになる。
仮説集合の中で音声認識部110が1番もっともらしいとして判断した文を音声認識結果文、それ以外の、音声認識の過程で候補として挙がった文を候補文という。例えば、音声データSの文「今日はかるカレーを食べた」に対して、仮説集合{「今日 は かる カレー を 食べた」、「今日 は 軽い カレー を 食べた」、「今日 は かん カレー を 食べた」}が生成され、この順に尤もらしさが高いとすれば、「今日 は かる カレー を 食べた」が音声認識結果文、「今日 は 軽い カレー を 食べた」、「今日 は かん カレー を 食べた」が候補文となる。
例)音声データSの文「今日はかるカレーを食べた」の仮説
1位:「今日 は かる カレー を 食べた」 → 音声認識結果文
2位:「今日 は 軽い カレー を 食べた」 → 候補文1
3位:「今日 は かん カレー を 食べた」 → 候補文2
なお、生成する仮説集合の大きさを制限してもよい。例えば、音声データの文に対して上位M個の仮説のみを仮説集合に含めるようにするなどしてもよい。つまり、仮説集合Hの濃度|H|=Mとなる。なお、このMは音声認識部110に対して音声データとともに入力してもよいし、また、音声認識部110にあらかじめ設定しておいてもよい。先ほどの音声データSとともにMとして2が入力された場合、音声データの文「今日はかるカレーを食べた」に対して仮説集合{「今日 は かる カレー を 食べた」、「今日 は 軽い カレー を 食べた」}が生成されることになる。
また、以下では、仮説集合Hを構成する上位M個の仮説を1位からh (1),…,h (M)と表す。つまり、H={h (1),…,h (M)}となる。
信頼度とは、仮説に含まれる単語が音声認識の結果としてどの程度のもっともらしさで正解しているかを示す値であり、0より大きい1以下の値をとる。先ほどの音声データSの第1文と第2文に対する仮説の各単語の信頼度の例を図3に示す。
なお、入力される音声データについては、例えば、約30分の音声データが7会議分あるなど、複数あってもよい。この場合は音声データごとにS110の音声認識処理を実行し、仮説集合の生成、信頼度の計算をする。
また、音声データの文には文ごとに再生時刻情報が付与されており、この再生時刻情報を用いて文ごとに認識、仮説集合を生成してもよい。このような情報が付与されていると認識精度の向上が期待できる。
3−gram確率計算部120は、テキストデータ記録部101に記録されるテキストデータから3つ並びの単語列が出現する確率である3−gram確率を計算し、3−gram確率記録部102に記録する(S120)。3つ並びの単語列w,wi+1,wi+2の3−gram確率p(wi+2|w,wi+1)は、テキストデータ記録部101に記録されるテキストデータにw,wi+1,wi+2が出現する回数N(w,wi+1,wi+2)、w,wi+1が出現する回数N(w,wi+1)を用いてP(wi+2|w,wi+1)=N(w,wi+1,wi+2)/N(w,wi+1)と計算される。
例えば、3−gram「今日,は,暑い」が出現する3−gram確率p(暑い|今日,は)を計算したいとする。p(暑い|今日,は)を計算するには、「今日,は,○○○」となっている3つ並びの単語列をすべてのテキストデータから探し出し、その個数を計算する。その結果、以下の3パターンのみが見つかり、各3つ並びの個数は以下であったとする。
「今日,は,暑い」の出現回数 N(暑い|今日,は)=100
「今日,は,晴れ」の出現回数 N(晴れ|今日,は)=95
「今日,は,まれ」の出現回数 N(まれ|今日,は)=5
このとき、p(暑い|今日,は)=N(暑い|今日,は)/(N(暑い|今日,は)+N(晴れ|今日,は)+N(まれ|今日,は))=100/(100+95+5)=0.5と計算される。
このようにして、テキストデータ記録部101に記録されるテキストデータに出現するすべての単語に対して考えられるすべての3つ並びの単語列w,w,wに対して3−gram確率p(w|w,w)を計算する。ここで、ある3つ並びの単語列がテキストデータに1回も出現しないことがある。このような3つ並びの単語列に対しては3−gram確率が計算できないが、バックオフという方法(2−gramや1−gramを用いる方法)で対処する。バックオフについては、参考非特許文献2が参考となる。
(参考非特許文献2)北研二、辻井潤一、“言語と計算(4)確率的言語モデル”、東京大学出版会、1999年11月、pp.67-69.
また、文頭の直後にwという単語が出現する確率p(w|start)、w,wという2つ並びの後文末になる確率p(end|w,w)も計算する。これらの確率も3−gram確率と呼ぶことにする。文頭、文末の判断は、テキストデータにおける改行記号に基づいて行えばよい。
ここでは、単語列の並びの自然さを示す値として3−gram確率を用いたが、N=3以外のN−gram確率を用いてもよい。
idf計算部130は、テキストデータ記録部101に記録されるテキストデータから単語のidfを計算し、idf記録部103に記録する(S130)。テキストデータ記録部101に記録されるテキストデータに出現するすべての単語に対してidfを計算する。
単語wのidf(w)とは、テキストデータ記録部101に記録されるテキストデータのドキュメントの総数D、wが出現するドキュメントの数d(w)を用いてidf(w)=logD/d(w)と計算される。なお、対数の底は1より大きい正の実数であればよいが、ここでは10を用いる。ドキュメントとは、文章のあるまとまった区切りのことであり、テキストデータ記録部101に記録されるテキストデータに対して区切りが付与されているものとする。先ほどのコーパスを例にとると、新聞記事1本が1ドキュメントとなる。このidfはテキストデータのドキュメント内での単語の重要度を示す指標であり、一般的な単語であるほど多くのドキュメントに出現するためその値が小さくなる。
idfの例を示す。D=150000とし、「今日」、「は」、「カレー」、「を」、「食べ」、「た」が出現するドキュメントの数をそれぞれ400、300、3000、50000、40000、50000とすると、
idf(今日)=log150000/400=2.24
idf(は)=log150000/300=2.70
idf(カレー)=log150000/3000=1.70
idf(を)=log150000/50000=0.478
idf(食べ)=log150000/40000=0.57
idf(た)=log150000/50000=0.478
と計算される。
信頼度tf計算部140は、音声認識部110の出力である仮説集合H(1≦p≦P)と各仮説に含まれる単語の信頼度から1位の仮説である音声認識結果文h (1)(1≦p≦P)に含まれる単語の信頼度tfを計算する(S140)。当該単語が音声認識部110の出力である仮説集合Hの和集合中に出現するすべての個所における信頼度の和として信頼度tfを計算する。
図3の例を用いて信頼度tfの計算方法について説明する。単語「カレー」は1文目の1位の仮説に信頼度0.5、1文目の2位の仮説に信頼度0.5、1文目の3位の仮説に信頼度0.5、2文目の1位の仮説に0.3で出現している。これ以外には出現しないとすれば、信頼度tf(カレー)=0.5+0.5+0.5+0.3=1.8となる。
また、入力される音声データが複数ある場合には、複数の仮説集合の和集合を音声データごととする。
なお、信頼度の和をとる範囲はこれに限定されるものではない。例えば、音声認識結果文h (1)の単語が仮説集合H中に出現するすべての個所における信頼度の和を信頼度tfとしてもよい。さらに、ある単語の信頼度tfは、その単語の信頼度及び複数の出現を考慮して算出するものであればどのようなものを用いてもよい。つまり、ある単語の信頼度tfは、当該単語の信頼度と仮説での出現頻度といった音声認識に際して付随的に得られる情報を考慮して算出した値となる。
信頼度tf・idf計算部150は、idf記録部103に記録されているテキストデータの単語のidfを用いて、音声認識部110の出力の一部である音声認識結果文h (1)(1≦p≦P)と信頼度tf計算部140の出力である音声認識結果文の単語の信頼度tfから音声認識結果文h (1)(1≦p≦P)の単語の信頼度tf・idfを計算する(S150)。音声認識結果文の単語それぞれについて、idfと信頼度tfの積として信頼度tf・idfを計算する。音声認識結果文「今日 は かる カレー を 食べた」の単語「カレー」を例に説明する。idf(カレー)=1.70、信頼度tf(カレー)=1.8であるので、信頼度tf・idf(カレー)=idf(カレー)×信頼度tf(カレー)=1.70×1.8=3.06となる。
なお、信頼度tf・idfの計算方法はこれに限定されるものではない。ある単語の信頼度tf・idfは、その単語の信頼度及び複数の出現を考慮して算出された信頼度tfと、idfのように音声認識の結果に関係のない単語そのものの重要度を考慮して算出するものであればどのようなものを用いてもよい。
音声認識結果圧縮部160は、3−gram確率記録部102に記録されているテキストデータの単語の3−gram確率、音声認識部110の出力の一部である音声認識結果文h (1)(1≦p≦P)及び音声認識結果文の単語の信頼度、信頼度tf・idf計算部150の出力である音声認識結果文の単語の信頼度tf・idfを用いて各音声認識結果文h (1)を圧縮し、圧縮結果h (1)(1≦p≦P)を生成する(S160)。圧縮結果h (1)は音声認識結果文h (1)から不要な単語を削除したものである。
以下、その削除手順を説明する。音声認識結果文の単語列w,w,…,wN−1,wから、3つ並びの単語列の自然さの程度を示す3−gram確率、単語の重要度(削除してはいけない程度)を示す信頼度tf・idf、単語が音声認識結果として正しいと考えられる程度を示す信頼度を考慮して不要な単語を削除する。削除すべき単語を決定する方法を整数計画問題として定式化する。
まず、この整数計画問題で用いる変数を定義する。Nを1以上の整数、i、j、kを1≦i,j,k≦Nなる整数として、δ、α、βij、γijkを1か0の値を取る変数とする。δを、1ならば音声認識結果文に単語wを残す(つまり、削除しない)こと、0ならば削除することを表す変数とする。αを、1ならば単語wが音声認識結果文の先頭の単語であること、0ならば先頭の単語でないことを表す変数とする。βijを、0≦i<j≦Nを満たすすべての(i,j)の組に対して、1ならば2つ並びの単語列w,wの直後が音声認識結果文の文末となること、0ならば2つ並びの単語列w,wの直後が文末でないことを表す変数とする。γijkを、0≦i<j<k≦Nを満たすすべての(i,j,k)の組に対して、1ならば3つ並びの単語列w,w,wが音声認識結果文から不要な単語を削除した後の文に存在すること、0ならば3つ並びの単語列w,w,wが存在しないことを示す変数とする。
このように変数δ、α、βij、γijkを定義すると、これらの定義から変数δ、α、βij、γijkは以下の式(1)〜(5)を満たす必要がある。
なお、N=1のとき、βijについてはβ01のみ定義可能となる。またγijkについてはi<j<kとなる組み合わせを選択することができない。そこで、式(1)、(5)を考慮して、α=1、β01=1とする。また、γijkについては0とする。
Figure 0006441203
式(1)〜(5)を制約条件として、次の式で表現される整数計画問題を解く。なお、記号“:”以下の式を評価関数という。つまり、この評価関数を最大化するδ、α、βij、γijkの組み合わせ(以下、解という)を求める。
Figure 0006441203
ここで、Sig(w)は単語wの信頼度tf・idf、p(w|w,w)は3つ並び単語列w,w,wの3−gram確率、p(end|w,w)は2つ並び単語列w,wの直後が文末となる3−gram確率、p(w|start)は文頭の直後が単語wとなる3−gram確率、q(w)は単語wの信頼度を表す。また、λは0≦λ<1の実数であり、Sig(w)とp(w|w,w)の重みを調整する定数である。
解のうちδを用いて、音声認識結果文の単語列w,w,…,wN−1,wの各単語wに対して、δ=1の場合は、単語wをそのまま出力、δ=0の場合は、不要な単語に相当する空文字列εを出力することによって、圧縮結果を生成する。
この評価関数を最大にする解は、重要度(信頼度tf・idf)が高くない単語を削除した後の3つ並び単語列が自然である(3−gram確率が高い)場合にこの単語を削除したものになっている。例えば、音声認識結果文「今日 は かる カレー を 食べた」において、単語「かる」のSig(かる)が低く、単語「かる」を削除した後の3つ並びの単語列「は,カレー,を」の3−gram確率p(を|は,カレー)が高いならば、単語「かる」は削除しても構わないはずである。このことを数式として定式化したものが上記の式となっている。
つまり、信頼度tf・idfのように単語の重要度を示す指標に基づき削除してもよいと判断される単語を削除した後の文(単語列)の並びの自然さを示す評価値を計算する評価関数を用いて不要と判断される単語を決定し圧縮するのであれば、どのような形の評価関数を用いてもよい。
なお、音声認識結果圧縮装置100は、音声データを入力する度に、3−gram確率計算部120、idf計算部130を実行する構成になっているが、必ずしもこのように構成する必要はない。つまり、事前に3−gram確率及びidfを計算しておいてもよい。この場合、図4に示すように音声認識結果圧縮装置100’は、3−gram確率計算部120、3−gram確率記録部102、idf計算部130、idf記録部103を含まない構成となる。事前に計算した3−gram確率、idfを3−gram確率記録部102、idf記録部103にそれぞれ記録しておく。
音声認識に際して得られる情報である単語の信頼度及び仮説での出現頻度を用いることにより、音声認識結果から不必要な単語を的確に削除することが可能になる。その結果、音声認識結果に対する圧縮結果をより精度よく生成することが可能となる。また、当該圧縮結果を入力として別の言語処理アプリケーションを実行することにより、当該アプリケーションによる解析誤りを減らしたり、文の可読性を高めたりすることが可能となる。
実施例1の音声認識結果圧縮部160では、音声認識部110で得られた仮説のうち、1位の仮説である音声認識結果文のみを用いて評価関数を最大にする解を求めたが、音声認識部110で得られた音声認識結果文を含む仮説集合を用いて仮説ごとに解を求め、その解の中で評価関数の値を最大とする仮説の解を用いて圧縮結果を生成してもよい。なお、仮説集合のすべての仮説を用いるのでなく、その一部、例えば、上位m個(2≦m<M)の仮説のみを用いて計算するようにしてもよい。
以下、図5、図6を参照して実施例2の音声認識結果圧縮装置200について説明する。図5は、実施例2の音声認識結果圧縮装置200の構成を示すブロック図である。図6は、実施例2の音声認識結果圧縮装置200の動作を示すフローチャートである。図5に示すように音声認識結果圧縮装置200は、音声認識部110と、信頼度tf計算部240と、信頼度tf・idf計算部250と、音声認識結果圧縮部260を含む。音声認識結果圧縮装置200は、実施例1の変形である音声認識結果圧縮装置100’と同様、3−gram確率記録部102、idf記録部103と接続している。
信頼度tf計算部240は、音声認識部110の出力である仮説集合H(1≦p≦P)と各仮説に含まれる単語の信頼度からm個の仮説h (1),…,h (m)(1≦p≦P)に含まれる単語の信頼度tfを計算する(S240)。信頼度tfの計算方法は、実施例1と同様であるが、信頼度tfを計算する単語が音声認識結果文のそれだけでなく、音声認識結果文と候補文1〜候補文m−1、つまり上位m個の仮説h (1),…,h (m)に含まれる単語すべてである点で相違する。なお、mは事前に音声認識部110に設定されているものとする。
信頼度tf・idf計算部250は、idf記録部103に記録されているテキストデータの単語のidfを用いて、音声認識部110の出力の一部であるm個の仮説h (1),…,h (m)(1≦p≦P)と信頼度tf計算部240の出力である仮説に含まれる単語の信頼度tfからm個の仮説h (1),…,h (m)(1≦p≦P)に含まれる単語の信頼度tf・idfを計算する(S250)。信頼度tf・idfを計算する単語は、信頼度tf計算部240が信頼度tfを計算する単語すべてである。つまり、信頼度tf・idf計算部250は、計算の対象となる範囲において信頼度tf・idf計算部150と異なる。
音声認識結果圧縮部260は、3−gram確率記録部102に記録されているテキストデータの単語の3−gram確率、音声認識部110の出力の一部であるm個の仮説h (1),…,h (m)(1≦p≦P)及び仮説の単語の信頼度、信頼度tf・idf計算部250の出力である仮説の単語の信頼度tf・idfを用いて各仮説h (1),…,h (m)(1≦p≦P)について実施例1の整数計画問題を解く。これらの解を用いて計算される各仮説の評価関数の値の中で最大となる仮説(これをm^位の仮説であるとする)を圧縮し、圧縮結果h (m^)を生成する(S260)。圧縮結果の生成方法は実施例1と同様である。
例えば、仮説集合{「今日 は かる カレー を 食べた」、「今日 は 軽い カレー を 食べた」、「今日 は かん カレー を 食べた」}の上位2個の仮説から圧縮結果を生成する場合、音声認識結果文「今日 は かる カレー を 食べた」と候補文1「今日 は 軽い カレー を 食べた」のそれぞれに対して実施例1のように定式化される整数計画問題の解を求め、当該解に対応する評価関数の値をそれぞれ計算、大きい値をとる仮説を圧縮対象の仮説として圧縮結果を生成する。
音声認識結果文を含む複数の仮説について評価関数を最大にする解を求め、これらの解を代入した評価関数の値のうち最大値を実現する解に対応する仮説から圧縮結果を生成することにより、音声認識結果文のみを対象に処理する場合より圧縮された結果を得ることが可能となる。
実施例1の音声認識部110は、1つの音声データの文に対して音声認識結果として複数の仮説を生成した。実施例3では、音声認識結果を表現するのに、コンフュージョンネットワーク(Confusion Network)を用いることとする。つまり、1つの音声データの文に対して1つのコンフュージョンネットワークを生成する。
コンフュージョンネットワークとは、ネットワーク構造を用いて音声認識結果を表現するものであり、その一例を図7に示す。図7に示すように、コンフュージョンネットワークでは、認識結果の候補を文単位で生成するのではなく、単語ごとに複数の候補を生成する。コンフュージョンネットワークは、音声認識結果の標準的な表現形式の1つであり、音声認識の分野ではよく用いられるものである。
図7中の各円弧(アーク)は単語を表す。左から1単語目の、信頼度1位の単語は「今日」であり、その値は0.7である。信頼度2位の単語は「京」であり、その値は0.7の次に高い0.3が付与されている。左からk単語目の各位置において、この位置に出現するすべての候補単語の信頼度の和をとると、音声認識の正しさの程度を示す信頼度の定義から1となる。各位置におけるアークの数は図7の例にあるような1個、2個に限られるものではなく、音声認識部で決めた所定の値(例えば、0.05)以上の信頼度を持つ単語すべてがコンフュージョンネットワーク上に出現する。以下、左からk番目のアークをアークkと呼ぶことにする。
以下、図8、図9を参照して実施例3の音声認識結果圧縮装置300について説明する。図8は、実施例3の音声認識結果圧縮装置300の構成を示すブロック図である。図9は、実施例3の音声認識結果圧縮装置300の動作を示すフローチャートである。図8に示すように音声認識結果圧縮装置300は、音声認識部310と、信頼度tf計算部340と、信頼度tf・idf計算部350と、音声認識結果圧縮部360を含む。音声認識結果圧縮装置300は、実施例1の変形である音声認識結果圧縮装置100’と同様、3−gram確率記録部102、idf記録部103と接続している。
音声認識部310は、音声データから音声認識によりP個(Pは1以上の整数)のコンフュージョンネットワーク C,…,Cを生成する。その際、コンフュージョンネットワーク C(1≦p≦P)に含まれる単語の信頼度を計算する(S310)。信頼度は実施例1の信頼度と同様である。
信頼度tf計算部340は、音声認識部110の出力であるコンフュージョンネットワーク C(1≦p≦P)とコンフュージョンネットワークに含まれる単語の信頼度からコンフュージョンネットワーク C(1≦p≦P)に含まれる単語の信頼度tfを計算する(S340)。コンフュージョンネットワーク Cに含まれる単語の信頼度tfを、当該単語がコンフュージョンネットワーク C中に出現するすべての個所における信頼度の和として算出する。なお、算出対象となる単語はコンフュージョンネットワーク C(1≦p≦P)に含まれる単語すべてとなる。
信頼度tf・idf計算部350は、idf記録部103に記録されているテキストデータの単語のidfを用いて、音声認識部310の出力であるコンフュージョンネットワーク C(1≦p≦P)と信頼度tf計算部340の出力であるコンフュージョンネットワークに含まれる単語の信頼度tfからコンフュージョンネットワーク C(1≦p≦P)に含まれる単語の信頼度tf・idfを計算する(S350)。信頼度tf・idfの値は、実施例1と同様、idfと信頼度tfの積として計算する。なお、算出対象となる単語はコンフュージョンネットワーク C(1≦p≦P)に含まれる単語すべてとなる。
音声認識結果圧縮部360は、3−gram確率記録部102に記録されているテキストデータの単語の3−gram確率、音声認識部310の出力コンフュージョンネットワーク C(1≦p≦P)及びコンフュージョンネットワークに含まれる単語の信頼度、信頼度tf・idf計算部350の出力であるコンフュージョンネットワークに含まれる単語の信頼度tf・idfから音声認識部310の出力コンフュージョンネットワーク Cから生成されるm個の仮説について実施例1の整数計画問題を解く。このm個の解を用いて計算される評価関数の値の中で最大となる仮説を圧縮し、圧縮結果を生成する(S360)。圧縮結果の生成方法は実施例1と同様であり、m個の解から1つの解を決定する方法は実施例2と同様である。なお、mはあらかじめ指定された任意の整数である。
以下、コンフュージョンネットワークからm個の仮説を生成する方法について説明する。左から1単語目の信頼度1位の単語w、左から2単語目の信頼度1位の単語w、…、左からN単語目の信頼度1位の単語wを選択し、単語の集合W={w,w,…,w}を生成する。この仮説Wに対して実施例1の整数計画問題を解く。また、そのときの評価関数の値を計算する。
次に、コンフュージョンネットワークに含まれる単語すべての中からWに含まれない単語のうち、最大となる信頼度を持つ単語w(1)を選ぶ。単語w(1)の位置がアークk(1)であるとき、Wの要素のうち、アークk(1)の位置にある単語とw(1)を入れ替えた集合W(1)生成し、この仮説W(1)に対して実施例1の整数計画問題を解く。また、そのときの評価関数の値を計算する。
同様に、コンフュージョンネットワークに含まれる単語すべての中からWとW(1)の和集合に含まれない単語のうち、最大となる信頼度を持つ単語w(2)を選ぶ。単語w(2)の位置がアークk(2)であるとき、Wの要素のうち、アークk(2)の位置にある単語とw(2)を入れ替えた集合W(2)生成し、この仮説W(2)に対して実施例1の整数計画問題を解く。また、そのときの評価関数の値を計算する。以下同様に、W(m−1)まで生成し、実施例1の整数計画問題を解き、そのときの評価関数の値を計算する。
なお、コンフュージョンネットワークからm個の仮説を生成する処理を音声認識部で実行し、信頼度tf計算部240、信頼度tf・idf計算部250、音声認識結果圧縮部260を用いて実施例2と同様に圧縮結果を生成するように、音声認識結果圧縮装置を構成することもできる。
コンフュージョンネットワークから生成される複数の仮説について、実施例2と同様、評価関数を最大にする解を求め、これらの解を代入した評価関数の値のうち最大値を実現する解に対応する仮説から圧縮結果を生成することにより、音声認識結果文のみを対象に処理する場合より圧縮された結果を得ることが可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. Mを2以上の整数、mを1≦m≦Mなる整数とし、
    音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、
    前記音声データから音声認識結果としてM個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、
    前記M個の仮説から選択したm個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算部と、
    前記m個の仮説に含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算部と、
    前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部と
    を含む音声認識結果圧縮装置。
  2. mを1以上の整数とし、
    音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、
    前記音声データから音声認識結果としてコンフュージョンネットワークを生成し、前記コンフュージョンネットワークに含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、
    前記コンフュージョンネットワークに含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算部と、
    前記コンフュージョンネットワークに含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算部と、
    前記コンフュージョンネットワークからm個の仮説を生成し、前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部と
    を含む音声認識結果圧縮装置。
  3. 請求項1または2に記載の音声認識結果圧縮装置であって、
    Nを1以上の整数、i、j、kを1≦i,j,k≦Nなる整数、wを単語、w,w,…,wN−1,wを仮説の単語列、δを1ならば単語wを仮説に残すこと、0ならば仮説から削除することを表す変数、αを1ならば単語wが仮説の先頭の単語であること、0ならば仮説の先頭の単語でないことを表す変数、βijを0≦i<j≦Nを満たすすべての(i,j)の組に対して1ならば2つ並びの単語列w,wの直後が仮説の文末となること、0ならば2つ並びの単語列w,wの直後が仮説の文末でないことを表す変数、γijkを0≦i<j<k≦Nを満たすすべての(i,j,k)の組に対して1ならば3つ並びの単語列w,w,wが仮説から不要な単語を削除した後の文に存在すること、0ならば3つ並びの単語列w,w,wが仮説から不要な単語を削除した後の文に存在しないことを示す変数、Sig(w)を単語wの信頼度tf・idf、p(w|w,w)を3つ並びの単語列w,w,wの3−gram確率、p(end|w,w)を2つ並びの単語列w,wの直後が文末となる3−gram確率、p(w|start)を文頭の直後が単語wとなる3−gram確率、q(w)を単語wの信頼度、λを0≦λ<1の実数とし、
    前記音声認識結果圧縮部は
    Figure 0006441203

    を制約条件として、評価関数
    Figure 0006441203

    の値を最大化するδ、α、βij、γijkの組み合わせのうち、δを用いて前記圧縮結果を生成することを特徴とする音声認識結果圧縮装置。
  4. Mを2以上の整数、mを1≦m≦Mなる整数とし、
    音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮方法であって、
    前記音声データから音声認識結果としてM個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識ステップと、
    前記M個の仮説から選択したm個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算ステップと、
    前記m個の仮説に含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算ステップと、
    前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮ステップと
    を実行する音声認識結果圧縮方法。
  5. mを1以上の整数とし、
    音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮方法であって、
    前記音声データから音声認識結果としてコンフュージョンネットワークを生成し、前記コンフュージョンネットワークに含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識ステップと、
    前記コンフュージョンネットワークに含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算ステップと、
    前記コンフュージョンネットワークに含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算ステップと、
    前記コンフュージョンネットワークからm個の仮説を生成し、前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮ステップと
    を含む音声認識結果圧縮方法。
  6. 請求項4または5に記載の音声認識結果圧縮方法であって、
    Nを1以上の整数、i、j、kを1≦i,j,k≦Nなる整数、wを単語、w,w,…,wN−1,wを仮説の単語列、δを1ならば単語wを仮説に残すこと、0ならば仮説から削除することを表す変数、αを1ならば単語wが仮説の先頭の単語であること、0ならば仮説の先頭の単語でないことを表す変数、βijを0≦i<j≦Nを満たすすべての(i,j)の組に対して1ならば2つ並びの単語列w,wの直後が仮説の文末となること、0ならば2つ並びの単語列w,wの直後が仮説の文末でないことを表す変数、γijkを0≦i<j<k≦Nを満たすすべての(i,j,k)の組に対して1ならば3つ並びの単語列w,w,wが仮説から不要な単語を削除した後の文に存在すること、0ならば3つ並びの単語列w,w,wが仮説から不要な単語を削除した後の文に存在しないことを示す変数、Sig(w)を単語wの信頼度tf・idf、p(w|w,w)を3つ並びの単語列w,w,wの3−gram確率、p(end|w,w)を2つ並びの単語列w,wの直後が文末となる3−gram確率、p(w|start)を文頭の直後が単語wとなる3−gram確率、q(w)を単語wの信頼度、λを0≦λ<1の実数とし、
    前記音声認識結果圧縮ステップは
    Figure 0006441203

    を制約条件として、評価関数
    Figure 0006441203

    の値を最大化するδ、α、βij、γijkの組み合わせのうち、δを用いて前記圧縮結果を生成することを特徴とする音声認識結果圧縮方法。
  7. 請求項1ないし3のいずれか1項に記載の音声認識結果圧縮装置としてコンピュータを機能させるためのプログラム。
JP2015221844A 2015-11-12 2015-11-12 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム Active JP6441203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015221844A JP6441203B2 (ja) 2015-11-12 2015-11-12 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015221844A JP6441203B2 (ja) 2015-11-12 2015-11-12 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017090731A JP2017090731A (ja) 2017-05-25
JP6441203B2 true JP6441203B2 (ja) 2018-12-19

Family

ID=58770703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015221844A Active JP6441203B2 (ja) 2015-11-12 2015-11-12 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム

Country Status (1)

Country Link
JP (1) JP6441203B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287682B (zh) * 2020-12-28 2021-06-08 北京智慧星光信息技术有限公司 一种主题词提取方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265792A (ja) * 2000-03-15 2001-09-28 Rikogaku Shinkokai 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
JP5472641B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
JP4890518B2 (ja) * 2008-08-29 2012-03-07 ヤフー株式会社 複数言語モデルによる統合音声認識装置

Also Published As

Publication number Publication date
JP2017090731A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
US10176804B2 (en) Analyzing textual data
US11688391B2 (en) Mandarin and dialect mixed modeling and speech recognition
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
US20170337479A1 (en) Machine comprehension of unstructured text
WO2019156101A1 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP7205839B2 (ja) データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2017058507A (ja) 音声認識装置、音声認識方法、プログラム
JP2014044363A (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
JP2011028638A (ja) 要約文作成装置、要約文作成方法、プログラム
CN115577712B (zh) 一种文本纠错方法及装置
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
CN109344388A (zh) 一种垃圾评论识别方法、装置及计算机可读存储介质
US11289095B2 (en) Method of and system for translating speech to text
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
US11556783B2 (en) Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program
JP2016095399A (ja) 音声認識結果整形装置、方法及びプログラム
US20230252225A1 (en) Automatic Text Summarisation Post-processing for Removal of Erroneous Sentences
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置
RU2814808C1 (ru) Способ и система перефразирования текста

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181121

R150 Certificate of patent or registration of utility model

Ref document number: 6441203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150