JP2017219637A - 音声認識装置、音声認識方法、プログラム - Google Patents

音声認識装置、音声認識方法、プログラム Download PDF

Info

Publication number
JP2017219637A
JP2017219637A JP2016112982A JP2016112982A JP2017219637A JP 2017219637 A JP2017219637 A JP 2017219637A JP 2016112982 A JP2016112982 A JP 2016112982A JP 2016112982 A JP2016112982 A JP 2016112982A JP 2017219637 A JP2017219637 A JP 2017219637A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition result
word
importance
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016112982A
Other languages
English (en)
Other versions
JP6549064B2 (ja
Inventor
賢昭 佐藤
Takaaki Sato
賢昭 佐藤
中村 孝
Takashi Nakamura
孝 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016112982A priority Critical patent/JP6549064B2/ja
Publication of JP2017219637A publication Critical patent/JP2017219637A/ja
Application granted granted Critical
Publication of JP6549064B2 publication Critical patent/JP6549064B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】正解データを用いずに音声認識結果を修正することができる音声認識装置を提供する。【解決手段】入力された音声データに基づいて1位からN位の音声認識結果を出力する音声認識部と、予め用意されたテキストデータの3gram確率を計算する3gram計算部と、1位からN位の音声認識結果に含まれる各単語のtfとidfに基づき、1位の音声認識結果に含まれる各単語のtf−idfを計算するtf−idf計算部と、tf−idfに基づいて1位の音声認識結果に含まれる各単語のNRDを計算し、NRDに基づく値を各単語の重要度として出力する重要度計算部と、1位の音声認識結果に含まれる各単語の信頼度と、3gram確率と、重要度とを用いて定式化した整数計画問題の解に基づいて1位の音声認識結果に含まれる不要単語を削除する不要単語削除部を含む。【選択図】図1

Description

本発明は、音声認識装置、音声認識方法、プログラムに関する。
特許文献1に、文字数制限に柔軟に対応することができる文書要約装置が開示されている。特許文献1の文書要約装置は、文短縮装置と、文スコア決定装置と、文選択装置を備える。文短縮装置は、入力された文書中の文を、指定された複数の短縮率で短縮して原文および短縮文を出力する。文スコア決定装置は、文短縮装置により出力された原文および短縮文に対して、文短縮率、文の出現位置情報および入力されたパラメタにより求められた位置情報スコアと、単語スコアデータベースを参照して取得した、文を構成する単語の重みを示す尺度である単語スコアとに基づいて文スコアを決定する。文選択装置は、入力された文字数制限のもと、文スコア決定装置により決定された文スコアの和が最大となる文の組合せを要約として選択する。
特開2010−55236号公報
音声認識は、音声をテキストに変換する技術であるが、全ての状況下において100%の変換率で音声認識を行うことは現状難しく、多くの場合認識結果に誤りの単語が含まれてしまう。また、認識結果にはテキストに変換する必要のない冗長なフレーズが含まれている場合がある。例えば、認識結果「これはそうですね難しいですね」は、冗長なフレーズの削除により、「これは難しい」という表現に短縮すべき場合がある。
このように音声認識結果の誤りを修正し、不要部を削除することは、質の高い認識結果を得るためには必須の処理である。認識結果に対して上記2点の改善を行い、認識結果の可読性や、後段の言語処理の適用しやすさを向上させる処理を、「認識結果の整形技術」と称することにする。
通常の音声認識は、音響モデルと言語モデルを対象音声に最適な形にチューニングした後、デコーディング(両モデルを用いたリアルタイムなテキスト変換)することにより、行われている。上述の2つのモデルは音の確からしさ、言語の数、単語の並びの情報のみを用いるモデルである。上記2つのモデルはそれ以上の情報を利用することができない。
一方、音声認識結果と正解データのペアを用いて、通常の言語モデルでは考慮できないような長距離の情報(文単位での確からしさなど)を用いて認識結果の修正を行う識別的リランキングの研究が存在する。しかしながら、識別的リランキング法は音声認識の正解データを人手で作成しなければならず、このコストが高いことが課題であった。
そこで、本発明では正解データを用いずに音声認識結果を修正することができる音声認識装置を提供することを目的とする。
本発明の音声認識装置は、音声認識部と、3gram計算部と、tf−idf計算部と、重要度計算部と、不要単語削除部を含む。なお、Nを2以上の整数とする。
音声認識部は、入力された音声データに基づいて1位からN位の音声認識結果を出力する。3gram計算部は、予め用意されたテキストデータの3gram確率を計算する。tf−idf計算部は、1位からN位の音声認識結果に含まれる各単語のtfと、テキストデータに基づいて予め用意されたidfのうち1位の音声認識結果に含まれる各単語のidfに基づき、1位の音声認識結果に含まれる各単語のtf−idfを計算する。重要度計算部は、tf−idfに基づいて1位の音声認識結果に含まれる各単語のNRDを計算し、計算されたNRDに基づく値を各単語の重要度として出力する。不要単語削除部は、1位の音声認識結果に含まれる各単語の信頼度と、1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて1位の音声認識結果に含まれる不要単語を削除する。
本発明の音声認識装置によれば、正解データを用いずに音声認識結果を修正することができる。
実施例1の音声認識装置の構成を示すブロック図。 実施例1の音声認識装置の動作を示すフローチャート。 実施例2の音声認識装置の構成を示すブロック図。 実施例2の音声認識装置の動作を示すフローチャート。 実施例3の音声認識装置の構成を示すブロック図。 実施例3の音声認識装置の動作を示すフローチャート。 実施例4の音声認識装置の構成を示すブロック図。 実施例4の音声認識装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1、図2を参照して実施例1の音声認識装置1の構成、および動作を説明する。図1に示すように、本実施例の音声認識装置1は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、tf−idf計算部13と、重要度計算部14と、不要単語削除部15を含む。コーパス記憶部10には、予め用意されたテキストデータが記憶されているものとする。
音声認識部11は、入力された音声データに基づいて1位からN位の音声認識結果を出力する(S11)。3gram計算部12は、予め用意されたテキストデータの3gram確率を計算する(S12)。tf−idf計算部13は、1位からN位の音声認識結果に含まれる各単語のtfと、テキストデータに基づいて予め用意されたidfのうち1位の音声認識結果に含まれる各単語のidfに基づき、1位の音声認識結果に含まれる各単語のtf−idfを計算する(S13)。重要度計算部14は、tf−idfに基づいて1位の音声認識結果に含まれる各単語のNRD(Normalized Relevance Distance)を計算し、計算されたNRDに基づく値を各単語の重要度として出力する(S14)。不要単語削除部15は、1位の音声認識結果に含まれる各単語の信頼度と、1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて1位の音声認識結果に含まれる不要単語を削除する(S15)。
以下、各構成要件の動作について詳細に説明する。
<音声認識部11>
入力:音声データ(音圧の時系列データ。形式はpcm,wavなど)、順位数の上限N
出力:音声認識結果の1位〜N位の文、各文における各単語の信頼度
ここで、入力される音声データは、例えば1発話毎に文として処理されるものとする。
[入力される1発話毎の文例]
1発話目の文例:「今日はかるカレーを食べた」
音声認識部11は、音声データを入力として取得し、一般的な音声認識方法によって音声認識を実行し、1位からN位までの音声認識結果を出力する(S11)。ただし前述したようにNは2以上の整数である。
ステップS11により、音声データの各文(文は時刻情報を基に区切られる)に対し、以下のように順位と各単語に信頼度を持つ複数(=N個)仮説の認識結果が出力される。なお、Nは人手で指定してもよい。例えば、N=5としてもよい。
認識結果の複数仮説とは、音声認識結果のうち、音声認識システムにより1番尤もらしいと評価された文、音声認識の計算途中で上記以外に候補として挙がった文を含む複数の認識結果よりなる仮説を示す。
信頼度とは、認識結果の各単語に対してどれだけの尤もらしさでこの単語が正解しているかを表す確率値であり、0以上1以下の値を持つ。
[信頼度の例]
1位:今日 は かる カレー を 食べた
信頼度:今日→0.7 は→0.5 かる→0.4 カレー→0.5 を→0.7 食べた→0.9
2位:今日 は 軽い カレー を 食べた
信頼度:今日→0.7 は→0.5 軽い→0.35 カレー→0.5 を→0.7 食べた→0.9
・・・
N位: 今日 は かん カレー を 食べた
信頼度:今日→0.7 は→0.5 かん→0.2 カレー→0.5 を→0.7 食べた→0.9
<3gram計算部12>
入力:大量のテキストデータ
出力:テキストデータに対する3gram確率
3gram計算部12は、予め用意された大量のテキストデータ(音声認識結果でないもの)を用いる。本実施例では、大量のテキストデータはコーパス記憶部10に予め記憶されているものとする。大量のテキストデータとしては、例えば新聞の記事などを用いることができる。大量のテキストデータとしては、例えば1個30文程度の記事が150000記事程度あるようなコーパスが考えられる。
3gram計算部12は、大量のテキストデータの全ての文に対して、3gram確率を計算する。3gram確率とは、三つの単語が連続して文章に出現する確率を表す。ステップS12を具体例を用いて説明する。例えば、3gram(今日、は、暑い)という並びが出現する3gram確率p(暑い|今日、は)を計算したいとする。これを計算する際、「今日、は、○○○」と連続する3単語の並びをテキストデータすべてに対して探し出し、その個数を計算する。その結果例えば以下の3パターンのみが見つかり、各並びの個数は以下であったとする。
(1)今日 は 暑い 100
(2)今日 は 晴れ 95
(3)今日 は まれ 5
この場合、3gram確率p(暑い|今日、は)は、
Figure 2017219637
と計算される。3gram計算部12は、テキストデータに出現する任意の単語について、考えられる任意の三並びw,w,wが生じる条件付き確率p(w|w,w)を計算する(i、j、kは任意のインデックスを表す記号、以下の数式などにも登場する)。
ここで、任意の三並びw,w,wがテキストデータに1回も出現せず、p(w|w,w)が直接計算不可能な場合も存在する。このような場合には、バックオフと呼ばれる方法で対処すればよい。バックオフとは、上述のような場合に3gramの代わりに2gramや1gramを利用する方法である。バックオフについては、例えば参考非特許文献1に開示されている。
(参考非特許文献1:北研二、辻井潤一、「言語と計算(4)確率的言語モデル」、東京大学出版会、1999年11月、p.67-69)
また、p(○|start)とp(end|○,○)も計算する。p(○|start)は文頭の直後に○という単語が出現する確率である。p(end|○,○)は、○,○という並びの後文末になる確率である。文頭、文末は、テキストデータにおける改行記号を基に判断する。
<tf−idf計算部13>
入力:1位からN位の音声認識結果、大量のテキストデータ
出力:1位の音声認識結果に出現した全ての単語に対するtf−idf
tf−idfとは、tf(term frequency、単語の出現頻度)とidf(inverse document frequency、逆文書頻度)の二つの指標にもとづいて計算される指標であり、文章内での単語の重要度を表す指標である。
まず、ステップS12で用いた大量のテキストデータと同じデータを用意する。本実施例では、コーパス記憶部10に予め記憶されたテキストデータを流用すればよい。予め用意するテキストデータは前述したとおり、例えば新聞の記事、1個30文程度の記事が150000記事程度あるようなコーパスなどでよい。
以下、idfの計算方法について述べる。テキストデータのドキュメント(文書のあるまとまった区切り。当該区切りはあらかじめテキストデータに付与されているものとする。例えば新聞なら1記事など)の数をD、そのうち着目単語aが出現するドキュメントの数をdとすると、idfはlog(D/d)と計算される。対数の底は任意の1より大きい正の実数とする。以下の例では底は10であるものとする。
例えばコーパス記憶部10内のドキュメントの総数が150000で、
「今日」が出現するドキュメントの数・・・400
「は」が出現するドキュメントの数・・・300
「カレー」が出現するドキュメントの数・・・3000
「を」が出現するドキュメントの数・・・50000
「食べ」が出現するドキュメントの数・・・40000
「た」が出現するドキュメントの数・・・50000
であったとする。
この場合、tf−idf計算部13は各単語のidfを、
「今日」のidf=log10(150000/400)=2.24
「は」のidf=log10(150000/300)=2.70
「カレー」のidf=log10(150000/3000)=1.70
「を」のidf=log10(150000/50000)=0.478
「食べ」のidf=log10(150000/40000)=0.57
「た」のidf=log10(150000/50000)=0.478
と計算する。
次に、tfの計算方法について述べる。一般的にtfは、あるドキュメント内での単語の総数がMである場合に、当該ドキュメント内における、着目単語aの出現頻度Aを用いて、tf=A/Mと計算される。
従って、tf−idf計算部13は、1位からN位までの音声認識結果の集合を一つのドキュメントと捉え、少なくとも1位の音声認識結果に含まれる各単語についてtfを計算する。例えば、1位からN位までの音声認識結果の集合における単語の総数M=1000であり、1位の音声認識結果に含まれる単語「カレー」の出現頻度A=200であるものとすると、
「カレー」のtf=200/1000=0.20
と計算される。
tf−idf計算部13は、idfとtfの値を用いて、tf−idfを以下のように計算する。
tf−idf=tf×idf
例えば前述の例における「カレー」のtf−idfは、
tf−idf=0.20×1.70=0.34
である。
なお、tf−idf計算部13は、少なくとも1位の音声認識結果に含まれる各単語のtf−idfを計算すればよい。ここで重要なのは、tfの計算には1位からN位までの音声認識結果が必要であるものの、tf−idfとしては、必ずしも1位からN位までの音声認識結果に登場する全ての単語について必須ではないということである。
<重要度計算部14>
入力:1位の音声認識結果、1位の音声認識結果のtf−idf
出力:1位の音声認識結果に含まれる各単語のNRD(Normalized Relevance Distance)
重要度計算部14は、1位の音声認識結果のtf−idfに基づいて、1位の音声認識結果中の2単語間の類似性を表す尺度であるNRDを計算する(S14)。2単語間の類似性を表すNRDを計算する目的は、例えば、ある単語が他の単語との類似性が高ければ、その単語は誤認識ではない正解単語であり、削除すべき不要な単語ではないと判断できるためである。
ここで、NRDを計算するために、まず各単語に対するfNRD(w)と、2単語間のfNRD(w,w)を算出する。これらは、
Figure 2017219637
として定義される。なお、TFIDF(w,d)は、ドキュメントdにおける単語wのtf−idfを表す。Sはドキュメントの総数である。
重要度計算部14は、例えば上述の定義を用いて1位の音声認識結果に含まれる各単語のNRDを計算する。例えば、1位の音声認識結果に含まれる各単語がw,...,wだったとすると、この中の任意の単語wの単語一貫性スコアは、
Figure 2017219637
すなわち、インデクスj=1〜Mまでのうちiを除いた全ての単語と単語wのNRDの逆数の和として計算される。このスコアが高いほど、正解単語である可能性が高く、不要でない(必要な)単語である可能性が高い単語であるものと判断する。
<不要単語削除部15>
入力:1位の音声認識結果、1位の音声認識結果の各単語に対する信頼度、1位の音声認識結果の各単語に対する3gram確率、1位の音声認識結果の各単語に対する重要度
出力:不要な単語が削除された音声認識結果
不要単語削除部15は、1位の音声認識結果に対して、不要な単語を削除する処理を実行する。今、ある音声データの1位の音声認識結果が、単語w,w,...,wという並びで得られているとする。この文から不要な単語を、NRDに基づく値(単語一貫性スコア、その単語の重要度、削除してはいけない度合い)と、単語3つ並びの接続のしやすさの確率(3gram確率)、信頼度(その単語が音声認識結果として正しいと考えられる度合い)を用いて整数計画問題に定式化する。
ステップS15の説明にあたり、変数を定義する。δ,α,βij,γijkはいずれも1か0の整数値を取り、δはi=1〜Tに対して定義され、1ならば単語wを残し(削除しない)、0ならば削除することを表す変数である。αはi=1〜Tに対して定義され、1ならば単語wが文の先頭単語であり、0ならば先頭単語ではないことを表す変数である。βijは0≦i<j≦Tを満たす全ての(i,j)の組み合わせに対して定義され、w,wという並びの直後が文末となるならば1、そうでなければ0を表す変数である。γijkは、0≦i<j<k≦Tを満たすすべての(i,j,k)の組み合わせに対して定義され、w,w,wという三連続する単語が削除後の文に存在すれば1、存在しなければ0と定義される。
この変数を用いて、次の関数を最大化する解となるδ,α,βij,γijkを計算する(整数計画問題)。
Figure 2017219637
ここで、Sig(w)は単語wの重要度(NRDに基づく値)であり、p(w|w,w)は単語w,w,wが三連続する3gram確率、q(w)は単語wの信頼度である。不要単語削除部15は、この問題の解を算出し、w,w,...,wの各単語wに対して、δが1となるような単語はそのまま出力し、δが0となるような単語(不要語に相当する)は出力しないことによって、認識結果文の不要単語の削除を行う。
上記の評価関数を最大にすると、重要度が高くない単語は削除される。また任意の単語を削除した場合に他の単語の並びが自然な並びとなる場合、当該任意の単語は削除される。
例えば、音声認識結果である、「今日 は かる カレー を 食べた」という文に対してこの方法で不要単語を削除し、文圧縮を行うものとする。この場合、「かる」は、重要度が低い(NRDに基づく値が低い)ものとする。すると、「かる」を削除したと仮定した並びの、「は カレー を」が自然である(3gram確率が高い)ならば、該当の「かる」を削除しても構わないはずである。これを数式表現したものが上記の式となっている。
従って、不要単語削除部15は、上述の最大値問題の解のδを用いて不要語を除去した音声認識結果を出力する。
以下、図3、図4を参照して実施例2の音声認識装置の構成および動作について説明する。図3に示すように本実施例の音声認識装置2は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、重要度計算部24と、不要単語削除部15を含む。実施例1の音声認識装置1に存在したtf−idf計算部13が省略されていること、実施例1の重要度計算部14が本実施例において重要度計算部24に置き換えられていること以外については、実施例1と同様であるため、適宜説明を略する。
本実施例では、単語の重要度を計算する際、NRDの代わりにword2vecを用いる。word2vecは大量のテキストデータの各単語をDNN(Deep Neural Network)を用いてU次元(Uは2以上の整数)の実数値ベクトルに変換する方法である。word2vecについては例えば参考非特許文献2に開示されている。
(参考非特許文献2:Tomas Mikolov, Ilya Sutskever , Kai Chen, Greg Corrado, Jeffrey Dean, ”Distributed Representations of Words and Phrases and their Compositionality”, [online], Oct 2013, [平成28年5月30日検索]、インターネット<URL:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>)
次元Uは人手で指定する。例えば、U=100などが用いられる。以下、単語wのword2vecの実数値ベクトルをx(w)と書くことにする(このベクトルは縦ベクトルであるものとする)。これを用いて、前述の
Figure 2017219637
の代わりに、
Figure 2017219637
を用いる。すなわち、重要度計算部24は、テキストデータの各単語wを、DNNを用いてU次元の実数値ベクトルx(w)に変換し、当該U次元の実数値ベクトルx(w)に基づいて、1位の音声認識結果に含まれる各単語の重要度を計算する(S24)。
以下、図5、図6を参照して実施例3の音声認識装置の構成および動作について説明する。本実施例の音声認識装置3は、実施例2の音声認識装置2にさらに変更を加えたものである。図5に示すように本実施例の音声認識装置3は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、重要度計算部34と、不要単語削除部15を含み、実施例2の重要度計算部24が本実施例において重要度計算部34に置き換えられていること以外については、実施例2と同様であるため、適宜説明を略する。
本実施例の重要度計算部34は、単語の重要度を計算する際、word2vecによる実数値ベクトルのばらつきの度合いに基づいて重要度(文内での自然さ)を計算する。今、文中の各単語w,w,...,wのそれぞれに対し、実数値ベクトルx(w)を考える。
この実数値ベクトルの平均ベクトルである
Figure 2017219637
を計算する。これを用いて、
Figure 2017219637
をその単語の重要度(文内の自然さ)を表す指標とし、
Figure 2017219637
の代わりに用いる。
以下、図7、図8を参照して実施例4の音声認識装置の構成および動作について説明する。本実施例の音声認識装置4は、実施例2の音声認識装置2にさらに変更を加えたものである。図7に示すように本実施例の音声認識装置4は、コーパス記憶部10と、音声認識部11と、3gram計算部12と、重要度計算部44と、不要単語削除部15を含み、実施例2の重要度計算部24が本実施例において重要度計算部44に置き換えられていること以外については、実施例2と同様であるため、適宜説明を略する。
本実施例の重要度計算部44は、実施例3と同様に、単語の重要度を計算する際、word2vecによる実数値ベクトルのばらつきの度合いに基づいて重要度(文内での自然さ)を計算する。
今、文中の各単語w,w,...,wのそれぞれに対し、実数値ベクトルwを考える。この実数値ベクトル群が1混合正規分布に従うと仮定し、
Figure 2017219637
を用いて、対数ガウス確率
Figure 2017219637
を、その単語の重要度とする。これを、
Figure 2017219637
の代わりに用いる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. Nを2以上の整数とし、
    入力された音声データに基づいて1位からN位の音声認識結果を出力する音声認識部と、
    予め用意されたテキストデータの3gram確率を計算する3gram計算部と、
    前記1位からN位の音声認識結果に含まれる各単語のtfと、前記テキストデータに基づいて予め用意されたidfのうち前記1位の音声認識結果に含まれる各単語のidfに基づき、前記1位の音声認識結果に含まれる各単語のtf−idfを計算するtf−idf計算部と、
    前記tf−idfに基づいて前記1位の音声認識結果に含まれる各単語のNRDを計算し、計算された前記NRDに基づく値を各単語の重要度として出力する重要度計算部と、
    前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除する不要単語削除部
    を含む音声認識装置。
  2. 入力された音声データに基づいて1位の音声認識結果を出力する音声認識部と、
    予め用意されたテキストデータの3gram確率を計算する3gram計算部と、
    前記テキストデータの各単語を、DNNを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記1位の音声認識結果に含まれる各単語の重要度を計算する重要度計算部と、
    前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除する不要単語削除部
    を含む音声認識装置。
  3. 請求項2に記載の音声認識装置であって、
    前記重要度計算部は、
    前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
    音声認識装置。
  4. 音声認識装置が実行する音声認識方法であって、
    Nを2以上の整数とし、
    入力された音声データに基づいて1位からN位の音声認識結果を出力するステップと、
    予め用意されたテキストデータの3gram確率を計算するステップと、
    前記1位からN位の音声認識結果に含まれる各単語のtfと、前記テキストデータに基づいて予め用意されたidfのうち前記1位の音声認識結果に含まれる各単語のidfに基づき、前記1位の音声認識結果に含まれる各単語のtf−idfを計算するステップと、
    前記tf−idfに基づいて前記1位の音声認識結果に含まれる各単語のNRDを計算し、計算された前記NRDに基づく値を各単語の重要度として出力するステップと、
    前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除するステップ
    を含む音声認識方法。
  5. 音声認識装置が実行する音声認識方法であって、
    入力された音声データに基づいて1位の音声認識結果を出力するステップと、
    予め用意されたテキストデータの3gram確率を計算するステップと、
    前記テキストデータの各単語を、DNNを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記1位の音声認識結果に含まれる各単語の重要度を計算するステップと、
    前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除するステップ
    を含む音声認識方法。
  6. 請求項5に記載の音声認識方法であって、
    前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
    音声認識方法。
  7. コンピュータを、請求項1から3の何れかに記載の音声認識装置として機能させるプログラム。
JP2016112982A 2016-06-06 2016-06-06 音声認識装置、音声認識方法、プログラム Active JP6549064B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016112982A JP6549064B2 (ja) 2016-06-06 2016-06-06 音声認識装置、音声認識方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016112982A JP6549064B2 (ja) 2016-06-06 2016-06-06 音声認識装置、音声認識方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017219637A true JP2017219637A (ja) 2017-12-14
JP6549064B2 JP6549064B2 (ja) 2019-07-24

Family

ID=60657628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016112982A Active JP6549064B2 (ja) 2016-06-06 2016-06-06 音声認識装置、音声認識方法、プログラム

Country Status (1)

Country Link
JP (1) JP6549064B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111917850A (zh) * 2020-07-20 2020-11-10 湖北美和易思教育科技有限公司 一种智能物联网校园背包
CN112530417A (zh) * 2019-08-29 2021-03-19 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530417A (zh) * 2019-08-29 2021-03-19 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN112530417B (zh) * 2019-08-29 2024-01-26 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN111917850A (zh) * 2020-07-20 2020-11-10 湖北美和易思教育科技有限公司 一种智能物联网校园背包
CN111917850B (zh) * 2020-07-20 2022-07-05 武汉美和易思数字科技有限公司 一种智能物联网校园背包

Also Published As

Publication number Publication date
JP6549064B2 (ja) 2019-07-24

Similar Documents

Publication Publication Date Title
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
US11688391B2 (en) Mandarin and dialect mixed modeling and speech recognition
US7835902B2 (en) Technique for document editorial quality assessment
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
US20120262461A1 (en) System and Method for the Normalization of Text
CN111159359B (zh) 文档检索方法、装置及计算机可读存储介质
KR102254612B1 (ko) 텍스트 환언 방법, 장치, 서버, 및 기억 매체
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP6738436B2 (ja) 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JP7205839B2 (ja) データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
CN116484808A (zh) 一种公文用可控文本生成方法及装置
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
JP6301794B2 (ja) オートマトン変形装置、オートマトン変形方法およびプログラム
CN109344388A (zh) 一种垃圾评论识别方法、装置及计算机可读存储介质
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
CN111090720B (zh) 一种热词的添加方法和装置
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
JP2016095399A (ja) 音声認識結果整形装置、方法及びプログラム
RU2814808C1 (ru) Способ и система перефразирования текста
JP5700566B2 (ja) スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
JP6852167B2 (ja) コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
WO2022107328A1 (ja) 機械学習プログラム、機械学習方法および自然言語処理装置
RU2778380C2 (ru) Способ и система перевода речи в текст

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190626

R150 Certificate of patent or registration of utility model

Ref document number: 6549064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150