JP5480844B2 - 単語追加装置、単語追加方法及びそのプログラム - Google Patents
単語追加装置、単語追加方法及びそのプログラム Download PDFInfo
- Publication number
- JP5480844B2 JP5480844B2 JP2011109005A JP2011109005A JP5480844B2 JP 5480844 B2 JP5480844 B2 JP 5480844B2 JP 2011109005 A JP2011109005 A JP 2011109005A JP 2011109005 A JP2011109005 A JP 2011109005A JP 5480844 B2 JP5480844 B2 JP 5480844B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- appearance probability
- class
- unigram
- similarity distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
文献1:Daniel Jurafsky and James H.Martin,「Speech and Language Processing
(2nd Edition)」,Prentice Hall;2版,2008年5月,p.73-77
P(Wi)=P(Wi|Ci)P(Ci)
と表される。CiはWiの属するクラスである。
P(A)=P(Wmax)=P(A|CA)P(CA)
となる。クラスユニグラム出現確率P(CA)は言語モデルに保存されており、追加単語AのクラスCAは予め指定されて追加単語記憶部10に記憶されている。従って、
P(A|CA)=P(Wmax)/P(CA)
を計算することができ、これにより、追加単語Aのクラス内単語出現確率P(A|CA)を求めることができる(ステップS8)。
文献2:Savitha Srinivasan and Dragutin Petkovic,「Phonetic Confusion Matrix
Based Spoken Document Retrieval」,Proceedings of SIGIR 2000,2000年
7月,p.81-87
P(A|CA)=P(A)/P(CA)
より、追加単語Aのクラス内単語出現確率P(A|CA)を求める(ステップS13)。なお、他の処理ステップS1〜S5及びS9,S10では実施例1と同じ処理が実行される。
Claims (6)
- 追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算部と、
前記発音類似距離計算部で計算された発音類似距離が閾値以下か否かを判定する判定部と、
前記判定部で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出部と、
言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を前記言語モデルに追加し、追加単語を前記単語辞書に追加するクラス内単語出現確率付与部とを備え、
前記判定部における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、前記クラス内単語出現確率付与部は追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与することを特徴とする単語追加装置。 - 追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算部と、
前記発音類似距離計算部で計算された発音類似距離が閾値以下か否かを判定する判定部と、
前記判定部で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出部と、
言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、それらユニグラム出現確率の発音類似距離に応じた重み付き平均を計算し、その重み付き平均を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を前記言語モデルに追加し、追加単語を前記単語辞書に追加するクラス内単語出現確率付与部とを備え、
前記判定部における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、前記クラス内単語出現確率付与部は追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与することを特徴とする単語追加装置。 - 請求項1又は2記載の単語追加装置において、
前記発音類似距離計算部は前記DPマッチングのコストの決定にConfusion Matrixを用いることを特徴とする単語追加装置。 - 請求項1乃至3記載のいずれかの単語追加装置において、
前記発音類似距離計算部は発音類似距離の計算に用いる既存単語から機能語を除外することを特徴とする単語追加装置。 - 追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算過程と、
前記発音類似距離計算過程で計算された発音類似距離が閾値以下か否かを判定する判定過程と、
前記判定過程で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出過程と、
言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を前記言語モデルに追加し、追加単語を前記単語辞書に追加するクラス内単語出現確率付与過程とを含み、
前記判定過程における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与することを特徴とする単語追加方法。 - 請求項1乃至4記載のいずれかの単語追加装置としてコンピュータを動作させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011109005A JP5480844B2 (ja) | 2011-05-16 | 2011-05-16 | 単語追加装置、単語追加方法及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011109005A JP5480844B2 (ja) | 2011-05-16 | 2011-05-16 | 単語追加装置、単語追加方法及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242421A JP2012242421A (ja) | 2012-12-10 |
JP5480844B2 true JP5480844B2 (ja) | 2014-04-23 |
Family
ID=47464240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011109005A Active JP5480844B2 (ja) | 2011-05-16 | 2011-05-16 | 単語追加装置、単語追加方法及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5480844B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102166446B1 (ko) * | 2018-09-28 | 2020-10-15 | 우석대학교 산학협력단 | 음성을 이용한 키워드 추출 방법 및 서버 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3907880B2 (ja) * | 1999-09-22 | 2007-04-18 | 日本放送協会 | 連続音声認識装置および記録媒体 |
JP4245530B2 (ja) * | 2004-08-19 | 2009-03-25 | 三菱電機株式会社 | 言語モデル作成装置及び方法並びにプログラム |
CN101454826A (zh) * | 2006-05-31 | 2009-06-10 | 日本电气株式会社 | 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统 |
JP4897737B2 (ja) * | 2008-05-12 | 2012-03-14 | 日本電信電話株式会社 | 単語追加装置、単語追加方法、そのプログラム |
-
2011
- 2011-05-16 JP JP2011109005A patent/JP5480844B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012242421A (ja) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
US10037758B2 (en) | Device and method for understanding user intent | |
JP6066354B2 (ja) | 信頼度計算の方法及び装置 | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
JP7200405B2 (ja) | 音声認識のためのコンテキストバイアス | |
US9978364B2 (en) | Pronunciation accuracy in speech recognition | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2008262279A (ja) | 音声検索装置 | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
US20150340035A1 (en) | Automated generation of phonemic lexicon for voice activated cockpit management systems | |
US20150178274A1 (en) | Speech translation apparatus and speech translation method | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
JP6875819B2 (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
JP5183120B2 (ja) | 平方根ディスカウンティングを使用した統計的言語による音声認識 | |
US10867525B1 (en) | Systems and methods for generating recitation items | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP5480844B2 (ja) | 単語追加装置、単語追加方法及びそのプログラム | |
Liang et al. | An efficient error correction interface for speech recognition on mobile touchscreen devices | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP2011175046A (ja) | 音声検索装置および音声検索方法 | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP6276516B2 (ja) | 辞書作成装置、及び辞書作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5480844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |