JP4808764B2 - 音声認識システムおよび方法 - Google Patents
音声認識システムおよび方法 Download PDFInfo
- Publication number
- JP4808764B2 JP4808764B2 JP2008318403A JP2008318403A JP4808764B2 JP 4808764 B2 JP4808764 B2 JP 4808764B2 JP 2008318403 A JP2008318403 A JP 2008318403A JP 2008318403 A JP2008318403 A JP 2008318403A JP 4808764 B2 JP4808764 B2 JP 4808764B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- language model
- recognition graph
- phoneme string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000012545 processing Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001846 repelling effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
または、認識グラフ作成部は、言語モデルを推定するために参照されるコーパス内での出現頻度が一定以上の単語列に含まれる単語であって、かつ一定以上の次数nによるn−gramで予測される単語に対して、発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、対象単語の直前に無音区間が許容されない場合において、一定以上の次数nによるn−gramで予測される単語に対して、発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、予め定められた条件に基づき、一定以上の次数nによるn−gramで予測される単語に対して、この単語の表記通りの音素列および発音変動を表現した音素列の双方を適用し、その他の単語に対して、発音変動を表現した音素列を適用せずに、認識グラフを作成する。
自由発話において、発音変動は、よく使われる表現や言い慣れた表現で特に生じ易いと考えられる。このような表現は、音声認識のための言語モデルの構築に用いられる学習用コーパスにも多く出現すると考えられる。単語n−gramモデルでは、高次のモデルで予測される表現、ということができる。そこで、本実施形態では、一定以上の高次のn−gramで予測される表現に対して、限定的に、発音変動を表現した音声認識を行う。
図1は、本実施形態による音声認識システムの構成例を示す図である。
図1に示す本実施形態の音声認識システムは、音声認識に用いられる認識グラフを作成するための前処理装置100と、音声認識を行う音声認識装置200と、学習用のデータ(テキスト・データ)を格納した学習用コーパス300とを備える。
学習用コーパス300には、音声認識に用いられる言語モデルを構築するために用いられる学習用のデータが蓄積されている。この学習用のデータは、音声認識適用対象分野のテキストデータである。
図2に示すコンピュータ10は、演算手段であるCPU(Central Processing Unit)10aと、記憶手段であるメイン・メモリ10cおよび磁気ディスク装置(HDD:Hard Disk Drive)10gを備える。また、ネットワークを介して外部装置に接続するためのネットワーク・インタフェース・カード10fと、表示出力を行うためのビデオ・カード10dおよび表示装置10jと、音声出力を行うための音声機構10hとを備える。さらに、キーボードやマウス等の入力デバイス10iを備える。
図3に示すように、WFSTは、単語履歴を表すノードと、出現する単語とその出現確率を表すアークからなる。図示の例では、2個の単語履歴がノードに記録されるものとする。具体的には、左端のノードから順に、単語w1の出現により単語履歴が「w1」となり、次いで単語w2の出現により単語履歴が「w1,w2」となり、次いで単語w3の出現により単語履歴が「w2,w3」となる様子が示されている。なお、図示してはいないが、各アークには、直前のノードに記録された単語履歴において現在の単語が出現する出現確率の情報(例えば、図の左から2番目のノードと3番目のノードの間のアークについては、確率p(w2|w1))が付与されている。
図4に示す例では、単語「ございます」に対して、4種類の音素列が対応付けられている。これらの音素列のうち、最上段の「gozaimasu」が表記通りの音素列であり、2段目以降の3種類が発音変動を表現した音素列である。以下、図4に示すように、表記通りの音素列を音素列pnとし、発音変動を表現した音素列を音素列pvとする。なお、図4では、3つの音素列pvにそれぞれ添え字を付し、「音素列pv(1)」、「音素列pv(2)」、「音素列pv(3)」と記載している。
図5に示す例では、3−gramで予測される単語に対してのみ発音変動を許すものとする。すなわち、言語モデルの各ノードが単語履歴を表すことを利用して、2個の単語履歴を持つノードからのアークについてのみ、認識単語辞書部130のpn:wとpv:wの両方の変換を行う。そして、その他のアークについては、pn:wの変換のみを行う。また、図5において、単語wi(i=1、2、3)の表記通りの音素列をpinと表記し、発音変動を表現した音素列をpivと表記している。
図6は、前処理装置100の動作を示すフローチャートである。
図6に示すように、前処理装置100の言語モデル推定部110が学習用コーパスから音声データを取得し(ステップ601)、言語モデルを推定する(ステップ602)。そして、認識グラフ作成部140が、言語モデル推定部110により推定された言語モデルを言語モデル格納部120から取得し(ステップ603)、認識単語辞書部130を参照して認識グラフ作成処理を行う(ステップ604)。認識グラフ作成処理により作成された認識グラフは、認識グラフ格納部150に格納される(ステップ605)。
図7に示すように、認識グラフ作成部140は、言語モデルに含まれる個々の単語に順次着目し、単語履歴(WFSTにおけるノードに記録された情報)に基づいて、着目した単語(以下、対象単語)に先行する単語(先行単語)を調べる(ステップ701)。そして、対象単語が予め定めた次数nによるn−gramで予測された単語か否かを判断する(ステップ702)。図7に示す例では、n=3としている。したがって、認識グラフ作成部140は、認識グラフを作成するため、1gramまたは2gramで予測された対象単語については(ステップ702でNo)、単語の表記通りの音素列pnを適用する(ステップ703)。一方、3gramで予測された対象単語については(ステップ702でYes)、単語の表記通りの音素列pnおよび発音変動を表現した音素列pvを適用する(ステップ704)。以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部150に格納して処理を終了する(ステップ705)。
・音素列pvを作成するために用いられた学習用コーパスでの出現頻度に応じてn−gramの次数nを決定する、
・対象単語の直前に無音区間が許容されない場合にのみ適用する、
等が考えられる。
図8に示す処理では、発音変動を表現した音素列pvを適用するための条件として、学習用コーパスでの出現頻度を追加している。具体的には、認識グラフ作成部140は、まず、言語モデルに含まれる個々の単語に順次着目し、単語履歴に基づいて、着目した対象単語の先行単語を調べる(ステップ801)。次に、対象単語と先行単語とからなる単語列の学習用コーパスにおける出現頻度を調べる(ステップ802)。出現頻度が予め定めた閾値s未満である場合(ステップ803でYes)、認識グラフ作成部140は、発音変動を表現した音素列pvを適用するn−gramの次数nをn=3とする。すなわち、1gramまたは2gramで予測された単語について音素列pnを適用し、3gramで予測された単語について音素列pnおよび音素列pvを適用して認識グラフを作成する(ステップ804、805、806)。
図9に示す処理では、発音変動を表現した音素列pvを適用するための条件として、無音区間の有無を追加している。具体的には、認識グラフ作成部140は、まず、言語モデルに含まれる個々の単語に順次着目し、単語履歴に基づいて、着目した対象単語の先行単語を調べる(ステップ901)。そして、対象単語が3gramで予測された単語か否かを判断し(ステップ902)、1gramまたは2gramで予測された単語について(ステップ902でNo)、単語の表記通りの音素列pnを適用して認識グラフを作成する(ステップ903)。
次に、具体的な言語モデルに対する本実施形態の適用例について説明する。
図10は、学習用コーパスに含まれる単語列の例を示す。図11は、この単語列に対応する言語モデルの例、図12は、この単語列に含まれる単語に関する認識単語辞書部130に登録された対応情報の例を示す。図13は、図11の言語モデルおよび図12の対応情報等を用いて作成される認識グラフの例を示す。
なお、図10の単語列は、単語列を構成する各単語を空白で区切って示している。また、図11の言語モデル、図12の対応情報、図13の認識グラフは、何れもWFSTではなく、表形式で示している。また、この適用例では、図7に示した認識グラフ作成処理により認識グラフが作成されたものとする。
Claims (10)
- 音声認識処理に用いられる認識グラフを作成するシステムであって、
言語モデルを推定する推定部と、
単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
前記認識グラフ作成部は、前記対応情報に基づき、前記言語モデルに含まれる単語の前記表記通りの音素列を適用して前記認識グラフを作成し、当該言語モデルが2以上の予め定められた個数以上の単語数で構成される単語列に対するモデルである場合、当該単語列に含まれる単語に関して、当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。 - 前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、当該n−gramの次数nが2以上の予め定められた次数よりも小さい場合は前記対応情報に基づき前記表記通りの音素列を適用し、当該n−gramの次数nが当該予め定められた次数以上の場合は当該対応情報に基づき当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを作成する、請求項1に記載のシステム。
- 前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語であって、かつ、当該言語モデルを推定するために参照されるコーパスでの出現頻度が一定以上の単語列に含まれる単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、請求項1に記載のシステム。
- 前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語であって、かつ、当該単語の直前に無音区間が許容されない場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、請求項1に記載のシステム。
- 音声認識処理に用いられる認識グラフを作成するシステムであって、
言語モデルを推定する推定部と、
単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。 - 音声データを取得して音声認識処理を行うシステムであって、
音声認識処理に用いられる認識グラフを作成する前処理装置と、
前記前処理装置により作成された前記認識グラフを用いて音声認識処理を行う音声認識装置とを備え、
前記前処理装置は、
言語モデルを推定する推定部と、
単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。 - コンピュータが音声認識処理に用いられる認識グラフを作成する方法であって、
学習用コーパスに基づき言語モデルを推定するステップと、
推定された前記言語モデルに含まれる単語に対して、当該単語と当該単語の表記通りの音素列を適用し、かつ当該言語モデルに含まれる単語のうち2以上の予め定められた個数以上の単語数で構成される単語列に含まれる単語に対して、当該表記通りの音素列に加えて当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成するステップと、
作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納するステップと、
を含む、方法。 - 前記認識グラフを作成するステップでは、前記言語モデルを対象としてn−gramで予測される単語に対し、当該n−gramの次数nが2以上の予め定められた次数よりも小さい場合は前記表記通りの音素列を適用し、当該n−gramの次数nが当該予め定められた次数以上の場合は当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを作成する、請求項7に記載の方法。
- コンピュータに、
学習用コーパスに基づき言語モデルを推定する処理と、
推定された前記言語モデルに含まれる単語に対して、当該単語と当該単語の表記通りの音素列を適用し、かつ当該言語モデルに含まれる単語のうち2以上の予め定められた個数以上の単語数で構成される単語列に含まれる単語に対して、当該表記通りの音素列に加えて当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する処理と、
作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納する処理と、を実行させる、プログラム。 - 前記認識グラフを作成する処理では、前記言語モデルを対象としてn−gramで予測される単語に対し、当該n−gramの次数nが2以上の予め定められた次数よりも小さい場合は前記表記通りの音素列を適用し、当該n−gramの次数nが当該予め定められた次数以上の場合は当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを前記コンピュータに作成させる、請求項9に記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008318403A JP4808764B2 (ja) | 2008-12-15 | 2008-12-15 | 音声認識システムおよび方法 |
KR1020090077752A KR20100069555A (ko) | 2008-12-15 | 2009-08-21 | 음성 인식 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008318403A JP4808764B2 (ja) | 2008-12-15 | 2008-12-15 | 音声認識システムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010139963A JP2010139963A (ja) | 2010-06-24 |
JP4808764B2 true JP4808764B2 (ja) | 2011-11-02 |
Family
ID=42350134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008318403A Expired - Fee Related JP4808764B2 (ja) | 2008-12-15 | 2008-12-15 | 音声認識システムおよび方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4808764B2 (ja) |
KR (1) | KR20100069555A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101738641B1 (ko) | 2010-12-17 | 2017-05-23 | 삼성전자주식회사 | 멀티 코어 시스템의 프로그램 컴파일 장치 및 방법 |
CN105869637B (zh) * | 2016-05-26 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
JP5180800B2 (ja) * | 2008-12-11 | 2013-04-10 | 独立行政法人情報通信研究機構 | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム |
-
2008
- 2008-12-15 JP JP2008318403A patent/JP4808764B2/ja not_active Expired - Fee Related
-
2009
- 2009-08-21 KR KR1020090077752A patent/KR20100069555A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
KR20100069555A (ko) | 2010-06-24 |
JP2010139963A (ja) | 2010-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113168828B (zh) | 基于合成数据训练的会话代理管线 | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
AU2010346493B2 (en) | Speech correction for typed input | |
JP4818683B2 (ja) | 言語モデルを作成する方法 | |
US20020156627A1 (en) | Speech recognition apparatus and computer system therefor, speech recognition method and program and recording medium therefor | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
US20220122622A1 (en) | Cascaded Encoders for Simplified Streaming and Non-Streaming ASR | |
US12051404B2 (en) | Efficient streaming non-recurrent on-device end-to-end model | |
US12014729B2 (en) | Mixture model attention for flexible streaming and non-streaming automatic speech recognition | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US12057124B2 (en) | Reducing streaming ASR model delay with self alignment | |
JP4808764B2 (ja) | 音声認識システムおよび方法 | |
US12087279B2 (en) | Regularizing word segmentation | |
CN118176537A (zh) | 用于长形式语音识别的训练 | |
JP4981076B2 (ja) | 発音辞書修正装置、音声認識装置、およびコンピュータプログラム | |
WO2024086265A1 (en) | Context-aware end-to-end asr fusion of context, acoustic and text representations | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110817 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |