JP2000259176A - 音声認識装置およびその記録媒体 - Google Patents
音声認識装置およびその記録媒体Info
- Publication number
- JP2000259176A JP2000259176A JP11060640A JP6064099A JP2000259176A JP 2000259176 A JP2000259176 A JP 2000259176A JP 11060640 A JP11060640 A JP 11060640A JP 6064099 A JP6064099 A JP 6064099A JP 2000259176 A JP2000259176 A JP 2000259176A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- speech recognition
- language model
- character
- delimiter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】 (修正有)
【課題】 連続発話から文法的に誤って分割された音声
も認識可能とする。 【解決手段】 学習テキストから作成された言語モデル
を使用して音声認識を行う音声認識装置において、学習
テキストに記載された文の先端部分、読点及び文の末尾
部分を検出し、検出された文の先頭部分の前、文の末尾
部分の後に区切れ記号を挿入すると共に、読点を区切れ
記号に置換して、区切れ記号によって区切られた文字列
で言語モデルを作成する。
も認識可能とする。 【解決手段】 学習テキストから作成された言語モデル
を使用して音声認識を行う音声認識装置において、学習
テキストに記載された文の先端部分、読点及び文の末尾
部分を検出し、検出された文の先頭部分の前、文の末尾
部分の後に区切れ記号を挿入すると共に、読点を区切れ
記号に置換して、区切れ記号によって区切られた文字列
で言語モデルを作成する。
Description
【0001】
【発明の属する技術分野】本発明は、言語モデルを使用
して音声認識を行う音声認識装置およびその記録媒体に
関する。
して音声認識を行う音声認識装置およびその記録媒体に
関する。
【0002】
【従来の技術】従来、大量の語彙を有する言語モデルを
使用する音声認識装置は大語彙連続音声認識装置とも呼
ばれている。従来この種の大語彙連続音声認識装置は、
学習テキストの各分の文頭に文頭記号<s>を挿入し、
文末に文末記号</s>を挿入してn−gram言語モ
デルを学習する。また、文頭記号<s>ではじまり、文
末記号</s>で終わる文法制約下で大語彙連続音声認
識を行うのが一般的である。こうした大語彙連続音声認
識装置は、たとえば、次の文献、Ronald Rosenfeld,
“The CMU Statistical Language Modeling Toolkit an
d its use in the 1994 ARPA CSR Evaluation ”, Proc
eedings of the Spoken Language Systems Technology
Workshop, pp. 47-50(1995.1)の1.3節およびTab
le 1に記載されている。
使用する音声認識装置は大語彙連続音声認識装置とも呼
ばれている。従来この種の大語彙連続音声認識装置は、
学習テキストの各分の文頭に文頭記号<s>を挿入し、
文末に文末記号</s>を挿入してn−gram言語モ
デルを学習する。また、文頭記号<s>ではじまり、文
末記号</s>で終わる文法制約下で大語彙連続音声認
識を行うのが一般的である。こうした大語彙連続音声認
識装置は、たとえば、次の文献、Ronald Rosenfeld,
“The CMU Statistical Language Modeling Toolkit an
d its use in the 1994 ARPA CSR Evaluation ”, Proc
eedings of the Spoken Language Systems Technology
Workshop, pp. 47-50(1995.1)の1.3節およびTab
le 1に記載されている。
【0003】
【発明が解決しようとする課題】放送音声の認識を番組
単位で行うような場合、自動的に音声を適当な長さに分
割する必要がある。無音の長さを基準にして音声を分割
すると、切り出された発話は必ずしも文法的な意味での
正しい文とはならず、文の途中で始まっていたり、複数
の文を含んでいたり、文の途中で終わっているようなこ
とがある。
単位で行うような場合、自動的に音声を適当な長さに分
割する必要がある。無音の長さを基準にして音声を分割
すると、切り出された発話は必ずしも文法的な意味での
正しい文とはならず、文の途中で始まっていたり、複数
の文を含んでいたり、文の途中で終わっているようなこ
とがある。
【0004】従来の大語彙連続音声認識装置では、例え
ば、認識対象の連続発話を理想的には、 <s> W1 W2 あり ました </s> <s> 私は W3 W4 </s> のように文法的な文単位で分割してデコードしたい。し
かし、実際には無音の長さによっては、 <s> あり ました 私 は </s> というように、文法的に誤って分割された発話ができて
しまうことがある。特に、国会中継における大臣の答弁
のように、考えながらしゃべっているような場合には、
このようなことがよく起こる。こうした発話を認識する
時、従来のbigram(バイグラム、2つの単語について関
連の分析)を適用すると、文頭、文中、文末において、
学習時と認識時の不整合が起こり、bigramの値P(あり
|<s>)、P(私|ました)、P(</s>|は)な
どが低い値を示し、音声の認識率が低下してしまう。な
お、ここで、たとえば、P(あり|<s>)は「<s
>」と「あり」との間のbigramの値である。
ば、認識対象の連続発話を理想的には、 <s> W1 W2 あり ました </s> <s> 私は W3 W4 </s> のように文法的な文単位で分割してデコードしたい。し
かし、実際には無音の長さによっては、 <s> あり ました 私 は </s> というように、文法的に誤って分割された発話ができて
しまうことがある。特に、国会中継における大臣の答弁
のように、考えながらしゃべっているような場合には、
このようなことがよく起こる。こうした発話を認識する
時、従来のbigram(バイグラム、2つの単語について関
連の分析)を適用すると、文頭、文中、文末において、
学習時と認識時の不整合が起こり、bigramの値P(あり
|<s>)、P(私|ました)、P(</s>|は)な
どが低い値を示し、音声の認識率が低下してしまう。な
お、ここで、たとえば、P(あり|<s>)は「<s
>」と「あり」との間のbigramの値である。
【0005】そこで、本発明は、上述の点に鑑みて、音
声認識率をさらに向上させる音声認識装置およびその記
録媒体を提供することにある。
声認識率をさらに向上させる音声認識装置およびその記
録媒体を提供することにある。
【0006】
【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、学習テキストから言語モ
デルを作成し、当該作成された言語モデルを使用して音
声認識を行う音声認識装置において、前記学習テキスト
に記載された文の先頭部分を検出する第1の検出手段
と、前記学習テキストに記載された文の中の読点を検出
する第2の検出手段と、前記学習テキストに記載された
文の末尾部分を検出する第3の検出手段と、前記第1の
検出手段により検出された文の先頭部分の前および前記
第3の検出手段により検出された文の末尾部分の後に区
切れを示す記号を挿入すると共に、前記第2の検出手段
により検出された読点を前記区切れを示す記号と置換す
る文字処理手段とを具え、前記区切れ記号により区切ら
れた文字列で前記言語モデルを作成することを特徴とす
る。
るために、請求項1の発明は、学習テキストから言語モ
デルを作成し、当該作成された言語モデルを使用して音
声認識を行う音声認識装置において、前記学習テキスト
に記載された文の先頭部分を検出する第1の検出手段
と、前記学習テキストに記載された文の中の読点を検出
する第2の検出手段と、前記学習テキストに記載された
文の末尾部分を検出する第3の検出手段と、前記第1の
検出手段により検出された文の先頭部分の前および前記
第3の検出手段により検出された文の末尾部分の後に区
切れを示す記号を挿入すると共に、前記第2の検出手段
により検出された読点を前記区切れを示す記号と置換す
る文字処理手段とを具え、前記区切れ記号により区切ら
れた文字列で前記言語モデルを作成することを特徴とす
る。
【0007】請求項2の発明は、請求項1に記載の音声
認識装置において、前記言語モデルにn−gramを使
用することを特徴とする。
認識装置において、前記言語モデルにn−gramを使
用することを特徴とする。
【0008】請求項3の発明は、請求項1に記載の音声
認識装置において、前記第3の検出手段は文末を示し、
かつ、発音不可の文字を検出し、当該検出された文字を
前記区切れを示す記号と置換することにより当該区切れ
を示す記号を挿入することを特徴とする。
認識装置において、前記第3の検出手段は文末を示し、
かつ、発音不可の文字を検出し、当該検出された文字を
前記区切れを示す記号と置換することにより当該区切れ
を示す記号を挿入することを特徴とする。
【0009】請求項4の発明は、文の先頭部分、文の読
点が記載されていた部分、文の末尾部分に、区切れを示
す同一の記号が挿入されたテキストから作成された言語
モデルを記憶しておく記憶手段と、当該記憶された言語
モデルを使用して文中における前記区切れを許しつつ、
前記区切れ記号で始まり、前記区切れ記号で終わる文法
制約の下に音声認識を行う音声認識手段とを具えたこと
を特徴とする。
点が記載されていた部分、文の末尾部分に、区切れを示
す同一の記号が挿入されたテキストから作成された言語
モデルを記憶しておく記憶手段と、当該記憶された言語
モデルを使用して文中における前記区切れを許しつつ、
前記区切れ記号で始まり、前記区切れ記号で終わる文法
制約の下に音声認識を行う音声認識手段とを具えたこと
を特徴とする。
【0010】請求項5の発明は、学習テキストから言語
モデルを作成し、当該作成された言語モデルを使用して
音声認識を行う音声認識装置で実行されるプログラムを
記録した音声認識装置の記録媒体において、前記プログ
ラムは、前記学習テキストに記載された文の先頭部分を
検出する第1の検出ステップと、前記学習テキストに記
載された文の中の読点を検出する第2の検出ステップ
と、前記学習テキストに記載された文の末尾部分を検出
する第3の検出ステップと、前記第1の検出ステップに
おいて検出された文の先頭部分の前および前記第3の検
出ステップにおいて検出された文の末尾部分の後に区切
れを示す記号を挿入すると共に、前記第2の検出ステッ
プにおいて検出された読点を前記区切れを示す記号と置
換する文字処理ステップとを具え、前記区切れ記号によ
り区切られた文字列で前記言語モデルを作成することを
特徴とする。
モデルを作成し、当該作成された言語モデルを使用して
音声認識を行う音声認識装置で実行されるプログラムを
記録した音声認識装置の記録媒体において、前記プログ
ラムは、前記学習テキストに記載された文の先頭部分を
検出する第1の検出ステップと、前記学習テキストに記
載された文の中の読点を検出する第2の検出ステップ
と、前記学習テキストに記載された文の末尾部分を検出
する第3の検出ステップと、前記第1の検出ステップに
おいて検出された文の先頭部分の前および前記第3の検
出ステップにおいて検出された文の末尾部分の後に区切
れを示す記号を挿入すると共に、前記第2の検出ステッ
プにおいて検出された読点を前記区切れを示す記号と置
換する文字処理ステップとを具え、前記区切れ記号によ
り区切られた文字列で前記言語モデルを作成することを
特徴とする。
【0011】請求項6の発明は、請求項5に記載の音声
認識装置の記録媒体において、前記言語モデルにn−g
ramを使用することを特徴とする。
認識装置の記録媒体において、前記言語モデルにn−g
ramを使用することを特徴とする。
【0012】請求項7の発明は、請求項5に記載の音声
認識装置の記録媒体において、前記第3の検出ステップ
では文末を示し、かつ、発音不可の文字を検出し、当該
検出された文字を前記区切れを示す記号と置換すること
により当該区切れを示す記号を挿入することを特徴とす
る。
認識装置の記録媒体において、前記第3の検出ステップ
では文末を示し、かつ、発音不可の文字を検出し、当該
検出された文字を前記区切れを示す記号と置換すること
により当該区切れを示す記号を挿入することを特徴とす
る。
【0013】請求項8の発明は、音声認識装置により実
行するプログラムを記録した音声認識装置の記録媒体に
おいて、前記プログラムは、文の先頭部分、文の読点が
記載されていた部分、文の末尾部分に、区切れを示す同
一の記号が挿入されたテキストから作成された言語モデ
ルを記憶手段に記憶する記憶ステップと、当該記憶され
た言語モデルを使用して文中における前記区切れを許し
つつ、前記区切れ記号で始まり、前記区切れ記号で終わ
る文法制約の下に音声認識を行う音声認識ステップとを
具えたことを特徴とする。
行するプログラムを記録した音声認識装置の記録媒体に
おいて、前記プログラムは、文の先頭部分、文の読点が
記載されていた部分、文の末尾部分に、区切れを示す同
一の記号が挿入されたテキストから作成された言語モデ
ルを記憶手段に記憶する記憶ステップと、当該記憶され
た言語モデルを使用して文中における前記区切れを許し
つつ、前記区切れ記号で始まり、前記区切れ記号で終わ
る文法制約の下に音声認識を行う音声認識ステップとを
具えたことを特徴とする。
【0014】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
施形態を詳細に説明する。
【0015】本発明実施形態の音声認識装置の機能構成
を図1に示す。図1において、言語モデル学習部2は学
習テキスト1における各文の文頭、文頭、読点、文末を
すべて1つの息継ぎ記号に置き換えてn−gram(n
個の単語から構成される単語列)言語モデル3を学習す
る。
を図1に示す。図1において、言語モデル学習部2は学
習テキスト1における各文の文頭、文頭、読点、文末を
すべて1つの息継ぎ記号に置き換えてn−gram(n
個の単語から構成される単語列)言語モデル3を学習す
る。
【0016】音声認識部4は文中の息継ぎ記号を許しつ
つ息継ぎ記号で始まり、息継ぎ記号で終わる文法の制約
下で大語彙連続音声認識を行う。認識対象の連続音声か
ら無音を区切りにして自動分割された発話8が音声認識
部4に入力され、音声認識結果5が音声認識部4から出
力される。
つ息継ぎ記号で始まり、息継ぎ記号で終わる文法の制約
下で大語彙連続音声認識を行う。認識対象の連続音声か
ら無音を区切りにして自動分割された発話8が音声認識
部4に入力され、音声認識結果5が音声認識部4から出
力される。
【0017】言語モデル学習部2の機能構成を図2に示
す。図2において息継ぎ記号挿入部21は学習テキスト
1に記載された各文の文頭、読点、文末をすべて1つの
息継ぎ記号<br>に置き換え、変換済み学習テキスト
22を作成する。例えば、 東京 は 、 晴れ ます 。 大阪 は 、 くもり
です。
す。図2において息継ぎ記号挿入部21は学習テキスト
1に記載された各文の文頭、読点、文末をすべて1つの
息継ぎ記号<br>に置き換え、変換済み学習テキスト
22を作成する。例えば、 東京 は 、 晴れ ます 。 大阪 は 、 くもり
です。
【0018】という学習テキストを、 <br> 東京 は <br> 晴れ ます <br>
大阪 は <br>くもり です<br> のように変換する。このように変換された変換済み学習
テキスト22からn−gram計算部23でn−gra
m言語モデル3を計算する。この計算方法は従来とほぼ
同様であり、学習テキストの区切りが息継ぎ記号である
点が従来と異なる。
大阪 は <br>くもり です<br> のように変換する。このように変換された変換済み学習
テキスト22からn−gram計算部23でn−gra
m言語モデル3を計算する。この計算方法は従来とほぼ
同様であり、学習テキストの区切りが息継ぎ記号である
点が従来と異なる。
【0019】図1の音声認識部4の詳細を図3に示す。
図3において、音声認識部4は言語モデル3と音響モデ
ル42と発音辞書43を基にして発話8に最も近い単語
列を探索部41で探索し、認識結果5として出力する。
この際、探索部41では、言語モデル3の息継ぎ記号<
br>を文中に許しつつ、息継ぎ記号<br>で始まり
息継ぎ記号<br>で終わる文法の制約下で従来と同様
の大語彙連続音声認識を行う。
図3において、音声認識部4は言語モデル3と音響モデ
ル42と発音辞書43を基にして発話8に最も近い単語
列を探索部41で探索し、認識結果5として出力する。
この際、探索部41では、言語モデル3の息継ぎ記号<
br>を文中に許しつつ、息継ぎ記号<br>で始まり
息継ぎ記号<br>で終わる文法の制約下で従来と同様
の大語彙連続音声認識を行う。
【0020】以上の音声認識装置の具体的なシステム構
成の一例を図4に示す。本実施形態の音声認識装置とし
てはパソナルコンピュータを使用する形態を説明する。
図4において、CPU100、システムメモリ110、
入力装置120、ディスク読み取り装置130、ハード
ディスク記憶装置(以下、ハードディスクと略記する)
140、ディスプレイ150および音声入力装置160
がバスに接続されている。
成の一例を図4に示す。本実施形態の音声認識装置とし
てはパソナルコンピュータを使用する形態を説明する。
図4において、CPU100、システムメモリ110、
入力装置120、ディスク読み取り装置130、ハード
ディスク記憶装置(以下、ハードディスクと略記する)
140、ディスプレイ150および音声入力装置160
がバスに接続されている。
【0021】CPU100はシステムメモリ110にロ
ードされた音声認識プログラムに従って音声に係る処理
を行う。本実施形態では、言語モデルの作成処理、言語
モデルを使用した音声認識処理が可能である。
ードされた音声認識プログラムに従って音声に係る処理
を行う。本実施形態では、言語モデルの作成処理、言語
モデルを使用した音声認識処理が可能である。
【0022】CPU100はさらにハードディスク14
0に保存されたオペレーティングシステムにしたがっ
て、システム制御を行う。
0に保存されたオペレーティングシステムにしたがっ
て、システム制御を行う。
【0023】システムメモリ110はROMおよびRA
Mを有し、CPU100が実行するプログラム、演算に
使用されるデータ等を記憶する。入力装置120はキー
ボードおよびマウスを有し、キーボードおよびマウスを
使用して、CPU100に対する各種の命令、データの
入力を行う。入力装置120は言語モデルの作成に使用
する学習テキストを入力することもできる。
Mを有し、CPU100が実行するプログラム、演算に
使用されるデータ等を記憶する。入力装置120はキー
ボードおよびマウスを有し、キーボードおよびマウスを
使用して、CPU100に対する各種の命令、データの
入力を行う。入力装置120は言語モデルの作成に使用
する学習テキストを入力することもできる。
【0024】ディスク読み取り装置130はフロッピ
ー、CDROMなどの携帯用記録媒体から記録データを
読み取る。本実施形態では、上述の音声認識プログラム
を記録媒体から読み取る。
ー、CDROMなどの携帯用記録媒体から記録データを
読み取る。本実施形態では、上述の音声認識プログラム
を記録媒体から読み取る。
【0025】ハードディスク140はシステム制御で使
用するオペレーティングシステム、音声認識プログラ
ム、音声認識プログラムで使用する言語モデル、その
他、音声認識に必要なデータを保存記憶する。ディスプ
レイ150は入力装置120から入力されたデータや、
音声認識結果などをCPU100の制御の下に表示す
る。音声入力装置160はマイクロホンおよびアナログ
デジタル変換器を有し、入力された音声をCPU100
が処理可能なデジタル音声信号の形態で出力する。
用するオペレーティングシステム、音声認識プログラ
ム、音声認識プログラムで使用する言語モデル、その
他、音声認識に必要なデータを保存記憶する。ディスプ
レイ150は入力装置120から入力されたデータや、
音声認識結果などをCPU100の制御の下に表示す
る。音声入力装置160はマイクロホンおよびアナログ
デジタル変換器を有し、入力された音声をCPU100
が処理可能なデジタル音声信号の形態で出力する。
【0026】この形態では図1に示す各構成要素を音声
認識プログラムで実現する。
認識プログラムで実現する。
【0027】従来と同様の部分については説明を省略
し、本発明に係る処理を説明する。
し、本発明に係る処理を説明する。
【0028】図5は言語モデル学習部2の中の息継ぎ記
号挿入部21を実現するためのプログラム内容を示す。
号挿入部21を実現するためのプログラム内容を示す。
【0029】このプログラムは、音声認識プログラムの
一部としてハードディスク140に保存され、学習処理
の実行時、システムメモリ110にロードされ、CPU
100により実行される。なお、学習テキスト1は入力
装置120から文字入力されたり、ディスク読み取り装
置130を介して、記録媒体から入力され、ハードディ
スク140内に記憶されているものとする。
一部としてハードディスク140に保存され、学習処理
の実行時、システムメモリ110にロードされ、CPU
100により実行される。なお、学習テキスト1は入力
装置120から文字入力されたり、ディスク読み取り装
置130を介して、記録媒体から入力され、ハードディ
スク140内に記憶されているものとする。
【0030】図5において、CPU100は学習テキス
トの第1行目の1行分の文字列を読み取り、システムメ
モリ110内のワーク領域に一時記憶する(ステップ2
00)。
トの第1行目の1行分の文字列を読み取り、システムメ
モリ110内のワーク領域に一時記憶する(ステップ2
00)。
【0031】次にワーク領域に記憶された1行分の文字
列の中の読み取るべき文字位置、この場合、第1番目を
設定し、文字を読み取る。以下ステップ230〜ステッ
プ250のいずれかのステップで息継ぎ記号<br>と
置換あるいは挿入する文字を検出する。
列の中の読み取るべき文字位置、この場合、第1番目を
設定し、文字を読み取る。以下ステップ230〜ステッ
プ250のいずれかのステップで息継ぎ記号<br>と
置換あるいは挿入する文字を検出する。
【0032】ステップ230は読み取った文字が文の先
頭の文字(先頭文字と略記)であるか否かを判定する。
先頭文字は、以下の特徴を持つ。
頭の文字(先頭文字と略記)であるか否かを判定する。
先頭文字は、以下の特徴を持つ。
【0033】(1)学習テキストの中からタブ、空白、
後述の文末を表す文字(文末文字と略記)および発音で
きない文字(記号を含む)をすべて除いた文字列の中の
先頭に位置する文字であること。
後述の文末を表す文字(文末文字と略記)および発音で
きない文字(記号を含む)をすべて除いた文字列の中の
先頭に位置する文字であること。
【0034】(2)その文字の前にタブコードがあるこ
と、(3)その文字の前に空白文字(連続の複数の空白
文字列も含む)があり、空白文字の前に改行コード(制
御コード)があること、したがって、上記(1)および
(2)の条件について読み取りの文字およびその文字の
全後の文字との関係をCPU100判定することによ
り、読み取りの文字が先頭の文字であるか否かを判定す
ることができる。
と、(3)その文字の前に空白文字(連続の複数の空白
文字列も含む)があり、空白文字の前に改行コード(制
御コード)があること、したがって、上記(1)および
(2)の条件について読み取りの文字およびその文字の
全後の文字との関係をCPU100判定することによ
り、読み取りの文字が先頭の文字であるか否かを判定す
ることができる。
【0035】ステップ240では読み取りの文字が読点
であるか否かを判定する。読点はJID、SJISな
ど、読点に対応する文字コードであるか否かを判定すれ
ばよい。
であるか否かを判定する。読点はJID、SJISな
ど、読点に対応する文字コードであるか否かを判定すれ
ばよい。
【0036】ステップ250では読み取りの文字が文末
文字であるか否かを判定する。文末文字は次の特徴を持
つ。
文字であるか否かを判定する。文末文字は次の特徴を持
つ。
【0037】(1)その文字の後に文末に位置すること
が文法的に定められている文字。たとえば、「。」、
「?」、「.」等の発音不可の文字があること (2)その文字の後に強制改行コードがあること。ただ
し、(1)の発音不可の文字に引き続く改行コードは発
音不可の文字の中に含めることができる。
が文法的に定められている文字。たとえば、「。」、
「?」、「.」等の発音不可の文字があること (2)その文字の後に強制改行コードがあること。ただ
し、(1)の発音不可の文字に引き続く改行コードは発
音不可の文字の中に含めることができる。
【0038】(3)その文字が学習テキストの最終に位
置し、発音可能な文字であること以上の検出処理により
挿入あるいは置換すべき文字が検出されるとCPUは読
み取りの文字を息継ぎ記号<br>、と置換/挿入され
る。文頭、文末文字が発音できない文字および読点につ
いては置換が行われ、学習テキストの先頭/末尾にひら
がな、漢字が現れるような場合には、その文字の前/後
ろに息継ぎ記号が挿入される(ステップ235,24
5,255)。
置し、発音可能な文字であること以上の検出処理により
挿入あるいは置換すべき文字が検出されるとCPUは読
み取りの文字を息継ぎ記号<br>、と置換/挿入され
る。文頭、文末文字が発音できない文字および読点につ
いては置換が行われ、学習テキストの先頭/末尾にひら
がな、漢字が現れるような場合には、その文字の前/後
ろに息継ぎ記号が挿入される(ステップ235,24
5,255)。
【0039】読み取りの文字が検出対象の文字ではない
場合には、手順はステップ260から210へと戻り、
1行の中の読み取りの文字位置を次の位置に更新し、上
述のステップ230〜250の置換/挿入対象の文字検
出処理を続ける。
場合には、手順はステップ260から210へと戻り、
1行の中の読み取りの文字位置を次の位置に更新し、上
述のステップ230〜250の置換/挿入対象の文字検
出処理を続ける。
【0040】このようにして、1行全ての文字について
上記文字検出処理を終了すると、読み取り行を次の行に
更新し(ステップ260→ステップ270→ステップ2
75)、以下、上述の文字検出処理、置換/挿入処理を
学習テキストの最終部分まで続ける。
上記文字検出処理を終了すると、読み取り行を次の行に
更新し(ステップ260→ステップ270→ステップ2
75)、以下、上述の文字検出処理、置換/挿入処理を
学習テキストの最終部分まで続ける。
【0041】以上の処理を実行することにより、文の文
頭の前、文の文末の後に息継ぎ記号を挿入し、読点を息
継ぎ記号と置換することができる。
頭の前、文の文末の後に息継ぎ記号を挿入し、読点を息
継ぎ記号と置換することができる。
【0042】上述の実施形態の他に次の形態を実施でき
る。
る。
【0043】1)上述の実施形態ではスタンドアローン
(単体)の音声認識装置を紹介したが、電話の音声、テ
レビ映像から取り出した音声を認識対象として入力する
ことが可能である。
(単体)の音声認識装置を紹介したが、電話の音声、テ
レビ映像から取り出した音声を認識対象として入力する
ことが可能である。
【0044】2)本発明で言う記録媒体はフロッピー
(登録商標)ディスク、CDROM等の記録媒体に限定
されない。プログラムを記録(記憶)できる媒体であれ
ばいずれでもよい。たとえば、ICメモリ、ハードディ
スク記憶装置なども記録媒体として使用することができ
る。さらにはこのような記録媒体は音声認識装置内に設
置する必要はなく、無線、有線を介して、他の装置内に
設置された記録媒体から音声認識装置内の記憶装置に音
声認識プログラムをダウンロード(転送すること)して
もよいこと勿論である。
(登録商標)ディスク、CDROM等の記録媒体に限定
されない。プログラムを記録(記憶)できる媒体であれ
ばいずれでもよい。たとえば、ICメモリ、ハードディ
スク記憶装置なども記録媒体として使用することができ
る。さらにはこのような記録媒体は音声認識装置内に設
置する必要はなく、無線、有線を介して、他の装置内に
設置された記録媒体から音声認識装置内の記憶装置に音
声認識プログラムをダウンロード(転送すること)して
もよいこと勿論である。
【0045】3)学習テキストについては、息継ぎ記号
の置換/挿入対象の文字検出に先立って前処理を行う
と、上記文字検出処理が容易となる。前処理としては、
学習テキストから、強制改行コード、インデントコード
等不要な制御コードや上述の息継ぎ記号の挿入/置換の
ための文字処理とは関係ない発音不可の文字コード、た
とえば、「 」、“ ”などの文字コードを消去するこ
とが挙げられる。これらの文字コードを消去することに
より、検出対象の文字数が減少するので、文字検出処理
が迅速となり、また、文字検出のための判別条件も簡素
化される。
の置換/挿入対象の文字検出に先立って前処理を行う
と、上記文字検出処理が容易となる。前処理としては、
学習テキストから、強制改行コード、インデントコード
等不要な制御コードや上述の息継ぎ記号の挿入/置換の
ための文字処理とは関係ない発音不可の文字コード、た
とえば、「 」、“ ”などの文字コードを消去するこ
とが挙げられる。これらの文字コードを消去することに
より、検出対象の文字数が減少するので、文字検出処理
が迅速となり、また、文字検出のための判別条件も簡素
化される。
【0046】4)上述の実施形態の音声認識装置は言語
モデル作成機能を有していると言えるが、上述の言語モ
デルを他の情報処理装置で作成しておき、言語モデルを
音声認識装置内の記憶装置、たとえば、ハードディスク
140に記憶し、音声認識に使用することもできる。こ
の場合のCPU100が実行する音声認識プログラムの
内容を図6に示す。この形態では、入力装置120か
ら、言語モデルの入力の指示または音声認識の指示を入
力する(ステップ300)。
モデル作成機能を有していると言えるが、上述の言語モ
デルを他の情報処理装置で作成しておき、言語モデルを
音声認識装置内の記憶装置、たとえば、ハードディスク
140に記憶し、音声認識に使用することもできる。こ
の場合のCPU100が実行する音声認識プログラムの
内容を図6に示す。この形態では、入力装置120か
ら、言語モデルの入力の指示または音声認識の指示を入
力する(ステップ300)。
【0047】言語モデルの入力の指示を受けた場合に
は、入力装置120やディスク記憶装置130等から入
力される言語モデル、すなわち、文頭、読点位置部分、
文末部部分に同一の区切れ記号が挿入された、学習テキ
ストから学習されたn−gramなどの言語モデル(デ
ータ)をハードディスク140に記憶する(ステップ3
10→315)。
は、入力装置120やディスク記憶装置130等から入
力される言語モデル、すなわち、文頭、読点位置部分、
文末部部分に同一の区切れ記号が挿入された、学習テキ
ストから学習されたn−gramなどの言語モデル(デ
ータ)をハードディスク140に記憶する(ステップ3
10→315)。
【0048】一方、音声認識が指示された場合には、音
声入力装置160から入力される音声に対して、ハード
ディスク140に記憶された言語モデルや音響モデル等
を使用して音声認識を行う(ステップ320→32
5)。
声入力装置160から入力される音声に対して、ハード
ディスク140に記憶された言語モデルや音響モデル等
を使用して音声認識を行う(ステップ320→32
5)。
【0049】言語モデルデータの入力方法としては、デ
ィスクを介したオフライン転送、有線、無線を介したオ
ンライン転送の方法を使用することができる。
ィスクを介したオフライン転送、有線、無線を介したオ
ンライン転送の方法を使用することができる。
【0050】5)文頭、文末の判定には上述した判定条
件以外のにも、公知、周知の判定条件を使用するとよ
い。
件以外のにも、公知、周知の判定条件を使用するとよ
い。
【0051】6)上述の実施形態では文の区切れを示す
記号として息継ぎ記号を使用したが、文の区切れを示す
ように定義された記号であれば、他の記号を使用するこ
とができる。
記号として息継ぎ記号を使用したが、文の区切れを示す
ように定義された記号であれば、他の記号を使用するこ
とができる。
【0052】7)本発明で言う学習テキストとは、予
め、ワープロ、あるいはワープロソフトで作成された文
書ファイル、データベースに登録するレコード等、文
字、数字等を有するデータを意味する。このような学習
テキストは、キーボードから入力してもよいし、通信
(オンライン)、携帯用記録媒体(オフライン)の形態
で入力してもよい。
め、ワープロ、あるいはワープロソフトで作成された文
書ファイル、データベースに登録するレコード等、文
字、数字等を有するデータを意味する。このような学習
テキストは、キーボードから入力してもよいし、通信
(オンライン)、携帯用記録媒体(オフライン)の形態
で入力してもよい。
【0053】
【発明の効果】以上、説明したように、請求項1、5の
発明によれば、同一の区切れ記号によって、文頭、文
末、読点を、言語モデルにおいて同様に扱うことができ
るので、連続発話から文法的に誤って分割された音声で
も認識することが可能となる。これにより、文法的に不
適切な音声の認識精度が従来よりも向上する。
発明によれば、同一の区切れ記号によって、文頭、文
末、読点を、言語モデルにおいて同様に扱うことができ
るので、連続発話から文法的に誤って分割された音声で
も認識することが可能となる。これにより、文法的に不
適切な音声の認識精度が従来よりも向上する。
【0054】請求項2、6の発明では、n−gramの
言語モデルを使用することにより単に音響モデルの音声
認識に比べて、単語の意味的なつながりをも加味した音
声認識を実現でき、認識精度をより高めることができ
る。
言語モデルを使用することにより単に音響モデルの音声
認識に比べて、単語の意味的なつながりをも加味した音
声認識を実現でき、認識精度をより高めることができ
る。
【0055】請求項3、7の発明によれば、文末に固有
の。、?、!などの発音不可の文字を検出することによ
り文末を検出し、区切れ記号と置換することで、これ
ら、音声認識には不要な文末個有文字を削除することが
できる。
の。、?、!などの発音不可の文字を検出することによ
り文末を検出し、区切れ記号と置換することで、これ
ら、音声認識には不要な文末個有文字を削除することが
できる。
【0056】請求項4、8の発明では読点で文が分割さ
れた言語モデルを使用して音声認識を行うことにより文
法的には不適切な音声の認識率を高めると共に、言語モ
デルのみを外部入力し、言語モデルを最新のものと更新
することが可能となる。これにより、最新の語彙(単
語)で構成される言語モデルを使用して新語が含まれる
音声をも正確に音声認識することができる。
れた言語モデルを使用して音声認識を行うことにより文
法的には不適切な音声の認識率を高めると共に、言語モ
デルのみを外部入力し、言語モデルを最新のものと更新
することが可能となる。これにより、最新の語彙(単
語)で構成される言語モデルを使用して新語が含まれる
音声をも正確に音声認識することができる。
【図1】本発明実施形態の音声認識装置のシステム構成
を示すブロック図である。
を示すブロック図である。
【図2】本発明実施形態の言語モデル学習部の機能構成
を示すブロック図である。
を示すブロック図である。
【図3】本発明実施形態の音声認識部の機能構成を示す
ブロック図である。
ブロック図である。
【図4】本発明実施形態の具体的なシステム構成を示す
ブロック図である。
ブロック図である。
【図5】CPU100の実行する処理手順を示すフロー
チャートである。
チャートである。
【図6】本発明他の実施形態のCPU100の処理手順
を示すフローチャートである。
を示すフローチャートである。
1 学習テキスト 2 言語モデル学習部 3 言語モデル 4 音声認識部 5 認識結果 6 認識対象連続発話音声 7 自動分割 8 発話
Claims (8)
- 【請求項1】 学習テキストから言語モデルを作成し、
当該作成された言語モデルを使用して音声認識を行う音
声認識装置において、 前記学習テキストに記載された文の先頭部分を検出する
第1の検出手段と、 前記学習テキストに記載された文の中の読点を検出する
第2の検出手段と、 前記学習テキストに記載された文の末尾部分を検出する
第3の検出手段と、 前記第1の検出手段により検出された文の先頭部分の前
および前記第3の検出手段により検出された文の末尾部
分の後に区切れを示す記号を挿入すると共に、前記第2
の検出手段により検出された読点を前記区切れを示す記
号と置換する文字処理手段とを具え、前記区切れ記号に
より区切られた文字列で前記言語モデルを作成すること
を特徴とする音声認識装置。 - 【請求項2】 請求項1に記載の音声認識装置におい
て、前記言語モデルにn−gramを使用することを特
徴とする音声認識装置。 - 【請求項3】 請求項1に記載の音声認識装置におい
て、前記第3の検出手段は文末を示し、かつ、発音不可
の文字を検出し、当該検出された文字を前記区切れを示
す記号と置換することにより当該区切れを示す記号を挿
入することを特徴とする音声認識装置。 - 【請求項4】 文の先頭部分、文の読点が記載されてい
た部分、文の末尾部分に、区切れを示す同一の記号が挿
入されたテキストから作成された言語モデルを記憶して
おく記憶手段と、 当該記憶された言語モデルを使用して文中における前記
区切れを許しつつ、前記区切れ記号で始まり、前記区切
れ記号で終わる文法制約の下に音声認識を行う音声認識
手段とを具えたことを特徴とする音声認識装置。 - 【請求項5】 学習テキストから言語モデルを作成し、
当該作成された言語モデルを使用して音声認識を行う音
声認識装置で実行されるプログラムを記録した音声認識
装置の記録媒体において、前記プログラムは、 前記学習テキストに記載された文の先頭部分を検出する
第1の検出ステップと、 前記学習テキストに記載された文の中の読点を検出する
第2の検出ステップと、 前記学習テキストに記載された文の末尾部分を検出する
第3の検出ステップと、 前記第1の検出ステップにおいて検出された文の先頭部
分の前および前記第3の検出ステップにおいて検出され
た文の末尾部分の後に区切れを示す記号を挿入すると共
に、前記第2の検出ステップにおいて検出された読点を
前記区切れを示す記号と置換する文字処理ステップとを
具え、前記区切れ記号により区切られた文字列で前記言
語モデルを作成することを特徴とする音声認識装置の記
録媒体。 - 【請求項6】 請求項5に記載の音声認識装置の記録媒
体において、前記言語モデルにn−gramを使用する
ことを特徴とする音声認識装置の記録媒体。 - 【請求項7】 請求項5に記載の音声認識装置の記録媒
体において、前記第3の検出ステップでは文末を示し、
かつ、発音不可の文字を検出し、当該検出された文字を
前記区切れを示す記号と置換することにより当該区切れ
を示す記号を挿入することを特徴とする音声認識装置の
記録媒体。 - 【請求項8】 音声認識装置により実行するプログラム
を記録した音声認識装置の記録媒体において、前記プロ
グラムは、 文の先頭部分、文の読点が記載されていた部分、文の末
尾部分に、区切れを示す同一の記号が挿入されたテキス
トから作成された言語モデルを記憶手段に記憶する記憶
ステップと、 当該記憶された言語モデルを使用して文中における前記
区切れを許しつつ、前記区切れ記号で始まり、前記区切
れ記号で終わる文法制約の下に音声認識を行う音声認識
ステップとを具えたことを特徴とする音声認識装置の記
録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11060640A JP2000259176A (ja) | 1999-03-08 | 1999-03-08 | 音声認識装置およびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11060640A JP2000259176A (ja) | 1999-03-08 | 1999-03-08 | 音声認識装置およびその記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000259176A true JP2000259176A (ja) | 2000-09-22 |
Family
ID=13148133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11060640A Pending JP2000259176A (ja) | 1999-03-08 | 1999-03-08 | 音声認識装置およびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000259176A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003529106A (ja) * | 2000-03-24 | 2003-09-30 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムのための分割アプローチ |
JP2004157337A (ja) * | 2002-11-06 | 2004-06-03 | Nippon Telegr & Teleph Corp <Ntt> | トピック境界決定方法及び装置及びトピック境界決定プログラム |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
CN111160003A (zh) * | 2018-11-07 | 2020-05-15 | 北京猎户星空科技有限公司 | 一种断句方法及装置 |
CN112101003A (zh) * | 2020-09-14 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
JP2022526876A (ja) * | 2019-04-11 | 2022-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | モデルをトレーニングするためのトレーニング・データ修正 |
-
1999
- 1999-03-08 JP JP11060640A patent/JP2000259176A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003529106A (ja) * | 2000-03-24 | 2003-09-30 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムのための分割アプローチ |
JP4738697B2 (ja) * | 2000-03-24 | 2011-08-03 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムのための分割アプローチ |
JP2004157337A (ja) * | 2002-11-06 | 2004-06-03 | Nippon Telegr & Teleph Corp <Ntt> | トピック境界決定方法及び装置及びトピック境界決定プログラム |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
CN111160003A (zh) * | 2018-11-07 | 2020-05-15 | 北京猎户星空科技有限公司 | 一种断句方法及装置 |
CN111160003B (zh) * | 2018-11-07 | 2023-12-08 | 北京猎户星空科技有限公司 | 一种断句方法及装置 |
JP2022526876A (ja) * | 2019-04-11 | 2022-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | モデルをトレーニングするためのトレーニング・データ修正 |
JP7368479B2 (ja) | 2019-04-11 | 2023-10-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | モデルをトレーニングするためのトレーニング・データ修正 |
CN112101003A (zh) * | 2020-09-14 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
US7580838B2 (en) | Automatic insertion of non-verbalized punctuation | |
US7315818B2 (en) | Error correction in speech recognition | |
US6418410B1 (en) | Smart correction of dictated speech | |
US5855000A (en) | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input | |
EP1346343B1 (en) | Speech recognition using word-in-phrase command | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5333275A (en) | System and method for time aligning speech | |
JP5255769B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US5878390A (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
US20070198245A1 (en) | Apparatus, method, and computer program product for supporting in communication through translation between different languages | |
US6975985B2 (en) | Method and system for the automatic amendment of speech recognition vocabularies | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
US20020049590A1 (en) | Speech data recording apparatus and method for speech recognition learning | |
Chen | Speech recognition with automatic punctuation | |
US6345249B1 (en) | Automatic analysis of a speech dictated document | |
KR101747873B1 (ko) | 음성인식을 위한 언어모델 생성 장치 및 방법 | |
JP2000259176A (ja) | 音声認識装置およびその記録媒体 | |
JPH11126091A (ja) | 音声言語処理単位変換装置 | |
JPH08248980A (ja) | 音声認識装置 | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JP2003162524A (ja) | 言語処理装置 | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
EP0469485A2 (en) | Language processing system using an expanded LR parser |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040414 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060428 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070202 |