JP6441203B2 - 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム - Google Patents
音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム Download PDFInfo
- Publication number
- JP6441203B2 JP6441203B2 JP2015221844A JP2015221844A JP6441203B2 JP 6441203 B2 JP6441203 B2 JP 6441203B2 JP 2015221844 A JP2015221844 A JP 2015221844A JP 2015221844 A JP2015221844 A JP 2015221844A JP 6441203 B2 JP6441203 B2 JP 6441203B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- reliability
- speech recognition
- recognition result
- hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
例)「興味みなさん遅い時間に集まって頂き」
この文の「興味」は、この文だけ見ると意味不明な単語である。真の発話「今日は」を誤認識したものと推察される。この「興味」は、この文の音声認識結果としては不要な単語であるとして削除対象となる。
例)「えー」、「あのー」、「うーん」、「なんかー」
これは、発話者が主に考え中の際に出現する、どんな文脈で出現しても重要な意味を持たない単語である。これらの単語も削除対象となる。
例)「明日、いや、今日全部終わらせよう」、「かる、カレーを食べたいな」
1文目の「明日」は、本来「今日」と言おうとしたが誤って発した単語である。また、2文目の「かる」は、本来「カレー」と言おうとしたが発音に失敗した(いわゆる噛んだ)単語である。「明日」、「いや」、「かる」は削除対象となるものである。
例)「うんうんうん、これは難しいよね」
この文の「うんうんうん」は、単なる相槌であり、重要な意味を持たない。したがって、これも削除対象となる。
例)「これはなんていうのかな、無駄だっていう感じがするんだよねえ」
この文は、意味上重要でない部分を取り去ると、「これは無駄だ」という文となる。「なんて」、「いう」、「の」、「かな」、「って」、「いう」、「感じ」、「が」、「する」、「んだよねえ」は、重要でないため削除対象となる。
0.13−2.55:「今日はかるカレーを食べた」
2.66−3.57:「カレー屋ってどこにあるの」
5.66−7.85:「横須賀駅の近くにあるよ」
1位:「今日 は かる カレー を 食べた」 → 音声認識結果文
2位:「今日 は 軽い カレー を 食べた」 → 候補文1
3位:「今日 は かん カレー を 食べた」 → 候補文2
「今日,は,暑い」の出現回数 N(暑い|今日,は)=100
「今日,は,晴れ」の出現回数 N(晴れ|今日,は)=95
「今日,は,まれ」の出現回数 N(まれ|今日,は)=5
(参考非特許文献2)北研二、辻井潤一、“言語と計算(4)確率的言語モデル”、東京大学出版会、1999年11月、pp.67-69.
idf(今日)=log150000/400=2.24
idf(は)=log150000/300=2.70
idf(カレー)=log150000/3000=1.70
idf(を)=log150000/50000=0.478
idf(食べ)=log150000/40000=0.57
idf(た)=log150000/50000=0.478
と計算される。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- Mを2以上の整数、mを1≦m≦Mなる整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、
前記音声データから音声認識結果としてM個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、
前記M個の仮説から選択したm個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算部と、
前記m個の仮説に含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算部と、
前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部と
を含む音声認識結果圧縮装置。 - mを1以上の整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮装置であって、
前記音声データから音声認識結果としてコンフュージョンネットワークを生成し、前記コンフュージョンネットワークに含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識部と、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算部と、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算部と、
前記コンフュージョンネットワークからm個の仮説を生成し、前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮部と
を含む音声認識結果圧縮装置。 - 請求項1または2に記載の音声認識結果圧縮装置であって、
Nを1以上の整数、i、j、kを1≦i,j,k≦Nなる整数、wiを単語、w1,w2,…,wN−1,wNを仮説の単語列、δiを1ならば単語wiを仮説に残すこと、0ならば仮説から削除することを表す変数、αiを1ならば単語wiが仮説の先頭の単語であること、0ならば仮説の先頭の単語でないことを表す変数、βijを0≦i<j≦Nを満たすすべての(i,j)の組に対して1ならば2つ並びの単語列wi,wjの直後が仮説の文末となること、0ならば2つ並びの単語列wi,wjの直後が仮説の文末でないことを表す変数、γijkを0≦i<j<k≦Nを満たすすべての(i,j,k)の組に対して1ならば3つ並びの単語列wi,wj,wkが仮説から不要な単語を削除した後の文に存在すること、0ならば3つ並びの単語列wi,wj,wkが仮説から不要な単語を削除した後の文に存在しないことを示す変数、Sig(wi)を単語wiの信頼度tf・idf、p(wk|wi,wj)を3つ並びの単語列wi,wj,wkの3−gram確率、p(end|wi,wj)を2つ並びの単語列wi,wjの直後が文末となる3−gram確率、p(wi|start)を文頭の直後が単語wiとなる3−gram確率、q(wi)を単語wiの信頼度、λを0≦λ<1の実数とし、
前記音声認識結果圧縮部は
を制約条件として、評価関数
の値を最大化するδi、αi、βij、γijkの組み合わせのうち、δiを用いて前記圧縮結果を生成することを特徴とする音声認識結果圧縮装置。 - Mを2以上の整数、mを1≦m≦Mなる整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮方法であって、
前記音声データから音声認識結果としてM個の仮説を生成し、前記仮説に含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識ステップと、
前記M個の仮説から選択したm個の仮説に含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算ステップと、
前記m個の仮説に含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算ステップと、
前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮ステップと
を実行する音声認識結果圧縮方法。 - mを1以上の整数とし、
音声データから音声認識結果を圧縮した圧縮結果を生成する音声認識結果圧縮方法であって、
前記音声データから音声認識結果としてコンフュージョンネットワークを生成し、前記コンフュージョンネットワークに含まれる各単語について音声認識の正しさの程度を示す信頼度を計算する音声認識ステップと、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度から前記仮説での単語の出現頻度を考慮した信頼度tfを計算する信頼度tf計算ステップと、
前記コンフュージョンネットワークに含まれる各単語について、前記信頼度tfと単語の重要度を示すidfから信頼度tf・idfを計算する信頼度tf・idf計算ステップと、
前記コンフュージョンネットワークからm個の仮説を生成し、前記m個の仮説から、単語の並びの自然さの程度を示す3−gram確率と前記信頼度と前記信頼度tf・idfを用いて決定した不要な単語を削除することにより、前記圧縮結果を生成する音声認識結果圧縮ステップと
を含む音声認識結果圧縮方法。 - 請求項4または5に記載の音声認識結果圧縮方法であって、
Nを1以上の整数、i、j、kを1≦i,j,k≦Nなる整数、wiを単語、w1,w2,…,wN−1,wNを仮説の単語列、δiを1ならば単語wiを仮説に残すこと、0ならば仮説から削除することを表す変数、αiを1ならば単語wiが仮説の先頭の単語であること、0ならば仮説の先頭の単語でないことを表す変数、βijを0≦i<j≦Nを満たすすべての(i,j)の組に対して1ならば2つ並びの単語列wi,wjの直後が仮説の文末となること、0ならば2つ並びの単語列wi,wjの直後が仮説の文末でないことを表す変数、γijkを0≦i<j<k≦Nを満たすすべての(i,j,k)の組に対して1ならば3つ並びの単語列wi,wj,wkが仮説から不要な単語を削除した後の文に存在すること、0ならば3つ並びの単語列wi,wj,wkが仮説から不要な単語を削除した後の文に存在しないことを示す変数、Sig(wi)を単語wiの信頼度tf・idf、p(wk|wi,wj)を3つ並びの単語列wi,wj,wkの3−gram確率、p(end|wi,wj)を2つ並びの単語列wi,wjの直後が文末となる3−gram確率、p(wi|start)を文頭の直後が単語wiとなる3−gram確率、q(wi)を単語wiの信頼度、λを0≦λ<1の実数とし、
前記音声認識結果圧縮ステップは
を制約条件として、評価関数
の値を最大化するδi、αi、βij、γijkの組み合わせのうち、δiを用いて前記圧縮結果を生成することを特徴とする音声認識結果圧縮方法。 - 請求項1ないし3のいずれか1項に記載の音声認識結果圧縮装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015221844A JP6441203B2 (ja) | 2015-11-12 | 2015-11-12 | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015221844A JP6441203B2 (ja) | 2015-11-12 | 2015-11-12 | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017090731A JP2017090731A (ja) | 2017-05-25 |
JP6441203B2 true JP6441203B2 (ja) | 2018-12-19 |
Family
ID=58770703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015221844A Active JP6441203B2 (ja) | 2015-11-12 | 2015-11-12 | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6441203B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287682B (zh) * | 2020-12-28 | 2021-06-08 | 北京智慧星光信息技术有限公司 | 一种主题词提取方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265792A (ja) * | 2000-03-15 | 2001-09-28 | Rikogaku Shinkokai | 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体 |
JP4757599B2 (ja) * | 2005-10-13 | 2011-08-24 | 日本電気株式会社 | 音声認識システムと音声認識方法およびプログラム |
JP5472641B2 (ja) * | 2008-08-29 | 2014-04-16 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びプログラム |
JP4890518B2 (ja) * | 2008-08-29 | 2012-03-07 | ヤフー株式会社 | 複数言語モデルによる統合音声認識装置 |
-
2015
- 2015-11-12 JP JP2015221844A patent/JP6441203B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017090731A (ja) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176804B2 (en) | Analyzing textual data | |
US11688391B2 (en) | Mandarin and dialect mixed modeling and speech recognition | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
US20170337479A1 (en) | Machine comprehension of unstructured text | |
WO2019156101A1 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
JP7205839B2 (ja) | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2017058507A (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2014044363A (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6441203B2 (ja) | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム | |
JP2011028638A (ja) | 要約文作成装置、要約文作成方法、プログラム | |
CN115577712B (zh) | 一种文本纠错方法及装置 | |
JP6549064B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
US11289095B2 (en) | Method of and system for translating speech to text | |
JP4405542B2 (ja) | 音素モデルをクラスタリングする装置、方法およびプログラム | |
Sproat et al. | Applications of lexicographic semirings to problems in speech and language processing | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
US11556783B2 (en) | Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program | |
JP2016095399A (ja) | 音声認識結果整形装置、方法及びプログラム | |
US20230252225A1 (en) | Automatic Text Summarisation Post-processing for Removal of Erroneous Sentences | |
CN114398876B (zh) | 一种基于有限状态转换器的文本纠错方法和装置 | |
RU2814808C1 (ru) | Способ и система перефразирования текста |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6441203 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |