JP3476007B2 - 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 - Google Patents

認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体

Info

Publication number
JP3476007B2
JP3476007B2 JP25742999A JP25742999A JP3476007B2 JP 3476007 B2 JP3476007 B2 JP 3476007B2 JP 25742999 A JP25742999 A JP 25742999A JP 25742999 A JP25742999 A JP 25742999A JP 3476007 B2 JP3476007 B2 JP 3476007B2
Authority
JP
Japan
Prior art keywords
reading
voice recognition
word
voice
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25742999A
Other languages
English (en)
Other versions
JP2001092484A (ja
Inventor
義則 田原
統一 市川
哲也 宇田
大輔 友田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP25742999A priority Critical patent/JP3476007B2/ja
Priority to US09/656,964 priority patent/US6983248B1/en
Publication of JP2001092484A publication Critical patent/JP2001092484A/ja
Application granted granted Critical
Publication of JP3476007B2 publication Critical patent/JP3476007B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声認識辞書のカス
タマイズする方式に関するものであり、より詳しくは、
ユーザが行なう音声認識辞書への登録手順が軽減された
音声認識辞書のカスタマイズ方式に関する。
【0002】
【従来の技術】従来より、日本語等の音声認識におい
て、ユーザが認識可能な単語を登録するに際しては、認
識すべき単語表記(漢字・英字等を含む)に、1.その
読みを入力し、2.そのよみに対して、予測される複数
のベースフォーム(発音)を、ユーザの発声した発音と
比較し、最も評価値が高く、かつ所定の閾値を越えるも
のを採用し、音声認識辞書に登録していた。
【0003】かかるユーザの登録作業を軽減するため
に、読みの入力に関しては、かな漢入力時のキーストロ
ークを得ることにより、よみの入力の手間をはぶくこと
も考えられる。しかし、かな漢を使用しない場合や、キ
ーストロークからよみを得られない場合、英単語などの
場合にはこの手法は利用できないという問題がある。
【0004】また、日本語等では、よみ(かな)は発音
に一対一で対応していないことが多く、実際の発声によ
る情報によりベースフォームを選択しなければ、音声認
識精度を高いレベルで維持することができない。例え
ば、「は」、「へ」、「を」や長音化(ー)は単語によ
って大きな揺らぎが発生する。単純化して説明すれば、
「こんにちは」は"k o _n n i ch i w a"である。ま
た、その外の例として「子牛(こうし)」は"k o u sh
i"であるが「講師(こうし)」は"k o o: sh i"など同
一の読みでも別のベースフォームを使用しなければなら
ないものが存在する。
【0005】このため、図13、14に示すように、従
来の音声認識ソフトウエアにおいては、登録する単語5
01を特定し、その読み、発音表記を入力パネル500
のフィールド507、509に入力し、録音ボタン50
3を押して、実際に発音することにより、音声認識を行
なう単語の音声認識辞書への登録を行なっている。
【0006】そして、入力された音声情報と、その読み
に対応する複数のベースフォームを順次比較し、最も評
価値が高いものが所定の閾値を越えているか否かを検査
する。最も評価値の高いベースフォームが所定の閾値を
越えている場合には、そのベースフォームを単語表記5
01、読み507、発音表記509とともに、音声認識
辞書に登録する。
【0007】この一方、最も評価値の高いベースフォー
ムが所定の閾値を越えていない場合には、再度ユーザに
発声を依頼するパネル500を表示し、入力された音声
情報を基に、再度検査を行なう。この作業は、評価値が
所定の閾値を越えるまで繰り返され、ユーザの負担とな
っていた。
【0008】
【発明が解決しようとする課題】本発明の目的は、認識
対象になっていない単語を音声認識辞書に登録するに際
し、音声認識の精度を維持しつつ、ユーザーの音声によ
る録音の作業を可能な限り低減させることのできる音声
認識システムを提供することにある。
【0009】本発明の他の一つの目的は、登録するユー
ザの音声情報を可能な限り減少させることにより、必要
となる資源の低減された音声認識システムを提供するこ
とにある。
【0010】本発明の他の一つの目的は、ユーザが直感
的に把握できる使い勝手のよい音声認識システムを提供
することにある。
【0011】
【課題を解決するための手段】単語表記から読み群をス
コア付きで生成する。生成された読み群からユーザーが
正しいよみを選択する。選択された読みからと単語表記
−よみからベースフォーム群をスコア付きで生成し、ス
コアが基準値を超えるものを声の録音なしで登録する。
ユーザが音声認識処理を行なうに際し、認識エラーがN
回を超えた場合等所定のエラー状態を検出した場合に
は、ユーザに単語表記、読み、発音表記を登録し、対応
する音声を発声することを促すパネルを出力する。ユー
ザーの実際の発声にもとづいてベースフォームを取得
し、音声認識辞書に再登録する。
【0012】本発明の一態様においては、表示画面、音
声入力装置を備える音声認識装置上で実施される認識単
語の登録方法であって、(a)ユーザによって特定され
た単語表記を取得する段階と、(b)単語辞書を検索す
ることにより、前記単語表記に対応する読みを取得する
段階と、(c)発音辞書を検索することにより、該取得
した読みに対応するベースフォームを取得する段階と、
(d)該取得したベースフォームを音声認識辞書に登録
する段階と、を含む認識単語登録方法が提供される。
【0013】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
認識単語の登録方法であって、(a)ユーザによって特
定された単語表記を取得する段階と、(b)単語辞書を
検索することにより、前記単語表記に対応する複数の読
み候補と各々が前記複数の読み候補に対応する読みスコ
アを取得する段階と、(c)ユーザにより前記複数の読
み候補を表示する段階と、(d)ユーザにより前記複数
の読み候補のうちの1つの読みが選択されたことをに応
答して、該選択された読みを取得する段階と、(e)発
音辞書を検索することにより、前記選択された読みに対
応するベースフォームと発音スコアを取得する段階と、
(f)前記発音スコアが所定の閾値を越えているか否か
を判断する段階と、(g)前記発音スコアが所定の閾値
を越えている場合には、該取得したベースフォームを音
声認識辞書に登録する段階と、を含む認識単語登録方法
が提供される。
【0014】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
音声認識方法であって、(a)ユーザの発声によって入
力された第1の音声情報が所定の条件に一致するか否か
を判断する段階と、(b)前記音声情報が所定の条件に
一致すると判断した場合には、前記表示画面上に認識単
語入力フィールドと、読み入力フィールドを有する音声
認識ウイザード・パネルを表示する段階と、(c)前記
音声認識ウイザード・パネルに入力された認識単語と読
みを取得する段階と、(d)前記ユーザが、前記認識単
語と前記読みに対応して行なった発声に基づく第2の音
声情報を取得する段階と、(e)前記第2の音声情報
と、前記認識単語と、前記読みとに基づいて、ベースフ
ォームを特定する段階と、(f)前記ベースフォームを
音声認識辞書に追加する段階と、を含む音声認識方法が
提供される。
【0015】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
音声認識方法であって、(a1)ユーザによって特定さ
れた単語表記を取得する段階と、(a2)単語辞書を検
索することにより、前記単語表記に対応する複数の読み
候補と各々が前記複数の読み候補に対応する読みスコア
を取得する段階と、(a3)ユーザに前記複数の読み候
補を表示する段階と、(a4)ユーザにより前記複数の
読み候補のうちの1つの読みが選択されたことをに応答
して、該選択された読みを取得する段階と、(a5)発
音辞書を検索することにより、前記選択された読みに対
応するベースフォームと発音スコアを取得する段階と、
(a6)前記発音スコアが所定の閾値を越えているか否
かを判断する段階と、(a7)前記発音スコアが所定の
閾値を越えている場合には、該取得したベースフォーム
を音声認識辞書に登録する段階と、を含む初期登録段階
と、(b1)ユーザの発声によって入力された第1の音
声情報が所定の条件に一致するか否かを判断する段階
と、(b2)前記音声情報が所定の条件に一致すると判
断した場合には、前記表示画面上に認識単語入力フィー
ルドと、読み入力フィールドを有する音声認識ウイザー
ド・パネルを表示する段階と、(b3)前記音声認識ウ
イザード・パネルに入力された認識単語と読みを取得す
る段階と、(b4)前記ユーザが、前記認識単語と前記
読みに対応して行なった発声に基づく第2の音声情報を
取得する段階と、(b5)前記第2の音声情報と、前記
認識単語と、前記読みとに基づいて、第2のベースフォ
ームを特定する段階と、(b6)前記第2のベースフォ
ームを音声認識辞書に追加する段階と、を含む音声認識
時登録段階と、を含む音声認識方法が提供される。
【0016】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置であって、
(a)ユーザによって特定された単語表記を取得する認
識単語登録部と、(b)単語辞書を検索することによ
り、前記単語表記に対応する読みを取得する読み生成部
と、(c)発音辞書を検索することにより、該取得した
読みに対応するベースフォームを取得するベースフォー
ム生成部と、(d)該取得したベースフォームを登録す
る音声認識辞書と、を含む音声認識装置が提供される。
【0017】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置であって、
(a)ユーザによって特定された単語表記を取得する認
識単語登録部と、(b)単語辞書を検索することによ
り、前記単語表記に対応する複数の読み候補と各々が前
記複数の読み候補に対応する読みスコアを取得するとと
もに、(c)前記表示装置に表示した複数の読み候補の
うちの1つの読みが選択されたことをに応答して、該選
択された読みも取得する読み生成部と、(d)発音辞書
を検索することにより、前記選択された読みに対応する
ベースフォームと発音スコアを取得するベースフォーム
生成部と、(e)前記発音スコアが所定の閾値を越えて
いる場合には、該取得したベースフォームが登録される
音声認識辞書と、を含む音声認識装置が提供される。
【0018】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置であって、
(a)ユーザの発声によって入力された第1の音声情報
が所定の条件に一致するか否かを判断する認識単語登録
部と、(b)前記音声情報が所定の条件に一致すると判
断した場合には、前記表示画面上に認識単語入力フィー
ルドと、読み入力フィールドを有する音声認識ウイザー
ド・パネルを表示する音声認識ウイザードと、(c)前
記音声認識ウイザード・パネルに入力された認識単語と
読みに対応して行なった発声に基づく第2の音声情報を
取得する音声入力部と、(d)前記第2の音声情報と、
前記認識単語と、前記読みとに基づいて、ベースフォー
ムを特定するベースフォーム生成部と、(f)前記ベー
スフォームを追加登録する音声認識辞書と、を含む音声
認識装置が提供される。
【0019】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置であって、
(a)ユーザの発声により生じた音声情報を入力する音
声入力部と、(a)前記音声情報を認識する音声認識エ
ンジンと、(b)ユーザによって特定された単語表記を
取得する認識単語登録部と、(c)単語辞書を検索する
ことにより、前記単語表記に対応する複数の読み候補と
各々が前記複数の読み候補に対応する読みスコアを取得
するとともに、ユーザにより前記複数の読み候補のうち
の1つの読みが選択されたことをに応答して、該選択さ
れた読みを取得する読み生成部と、(d)発音辞書を検
索することにより、前記選択された読みに対応するベー
スフォームと発音スコアを取得するベースフォーム生成
部と、(e)前記発音スコアが所定の閾値を越えている
場合には、該取得したベースフォームが登録される音声
認識辞書と、を含み、(a2)前記音声認識エンジン
は、ユーザの発声によって入力された第1の音声情報が
所定の条件に一致するか否かを判断し、前記音声情報が
所定の条件に一致すると判断した場合には、前記表示画
面上に認識単語入力フィールドと、読み入力フィールド
を有する音声認識ウイザード・パネルを管理する音声認
識ウイザードを起動し、(c2)前記読み生成部は、前
記音声認識ウイザード・パネルに入力された認識単語と
読みに対応して行なった発声に基づく第2の音声情報を
取得し、(d2)前記ベースフォーム生成部は、前記第
2の音声情報と、前記認識単語と、前記読みとに基づい
て、第2のベースフォームを特定し、(e2)前記音声
認識辞書は、前記第2のベースフォームを保持すること
を特徴とする音声認識装置が提供される。
【0020】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
認識単語の登録処理プログラムを格納した記録媒体であ
って、該プログラムは、(a)ユーザによって特定され
た単語表記を取得することを前記音声認識装置に指示す
るためのプログラムコードと、(b)単語辞書を検索す
ることにより、前記単語表記に対応する読みを取得する
ことを前記音声認識装置に指示するためのプログラムコ
ードと、(c)発音辞書を検索することにより、該取得
した読みに対応するベースフォームを取得することを前
記音声認識装置に指示するためのプログラムコードと、
(d)該取得したベースフォームを音声認識辞書に登録
することを前記音声認識装置に指示するためのプログラ
ムコードと、を含む記憶媒体が提供される。
【0021】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
認識単語の登録処理プログラムを格納した記録媒体であ
って、該プログラムは、(a)ユーザによって特定され
た単語表記を取得することを前記音声認識装置に指示す
るためのプログラムコードと、(b)単語辞書を検索す
ることにより、前記単語表記に対応する複数の読み候補
と各々が前記複数の読み候補に対応する読みスコアを取
得することを前記音声認識装置に指示するためのプログ
ラムコードと、(c)ユーザにより前記複数の読み候補
を表示することを前記音声認識装置に指示するためのプ
ログラムコードと、(d)ユーザにより前記複数の読み
候補のうちの1つの読みが選択されたことをに応答し
て、該選択された読みを取得することを前記音声認識装
置に指示するためのプログラムコードと、(e)発音辞
書を検索することにより、前記選択された読みに対応す
るベースフォームと発音スコアを取得することを前記音
声認識装置に指示するためのプログラムコードと、
(f)前記発音スコアが所定の閾値を越えているか否か
を判断することを前記音声認識装置に指示するためのプ
ログラムコードと、(g)前記発音スコアが所定の閾値
を越えている場合には、該取得したベースフォームを音
声認識辞書に登録することを前記音声認識装置に指示す
るためのプログラムコードと、を含む記憶媒体が提供さ
れる。
【0022】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
音声認識処理プログラムを格納した記録媒体であって、
該プログラムは、(a)ユーザの発声によって入力され
た第1の音声情報が所定の条件に一致するか否かを判断
することを前記音声認識装置に指示するためのプログラ
ムコードと、(b)前記音声情報が所定の条件に一致す
ると判断した場合には、前記表示画面上に認識単語入力
フィールドと、読み入力フィールドを有する音声認識ウ
イザード・パネルを表示することを前記音声認識装置に
指示するためのプログラムコードと、(c)前記音声認
識ウイザード・パネルに入力された認識単語と読みを取
得することを前記音声認識装置に指示するためのプログ
ラムコードと、(d)前記ユーザが、前記認識単語と前
記読みに対応して行なった発声に基づく第2の音声情報
を取得することを前記音声認識装置に指示するためのプ
ログラムコードと、(e)前記第2の音声情報と、前記
認識単語と、前記読みとに基づいて、ベースフォームを
特定することを前記音声認識装置に指示するためのプロ
グラムコードと、(f)前記ベースフォームを音声認識
辞書に追加することを前記音声認識装置に指示するため
のプログラムコードと、を含む記憶媒体が提供される。
【0023】本発明の他の一態様においては、表示画
面、音声入力装置を備える音声認識装置上で実施される
音声認識処理プログラムを格納した記録媒体であって、
該プログラムは、(a)ユーザによって特定された単語
表記を取得することを前記音声認識装置に指示するため
のプログラムコードと、(b)単語辞書を検索すること
により、前記単語表記に対応する複数の読み候補と各々
が前記複数の読み候補に対応する読みスコアを取得する
ことを前記音声認識装置に指示するためのプログラムコ
ードと、(c)ユーザに前記複数の読み候補を表示する
ことを前記音声認識装置に指示するためのプログラムコ
ードと、(d)ユーザにより前記複数の読み候補のうち
の1つの読みが選択されたことをに応答して、該選択さ
れた読みを取得することを前記音声認識装置に指示する
ためのプログラムコードと、(e)発音辞書を検索する
ことにより、前記選択された読みに対応するベースフォ
ームと発音スコアを取得することを前記音声認識装置に
指示するためのプログラムコードと、(f)前記発音ス
コアが所定の閾値を越えているか否かを判断することを
前記音声認識装置に指示するためのプログラムコード
と、(g)前記発音スコアが所定の閾値を越えている場
合には、該取得したベースフォームを音声認識辞書に登
録することを前記音声認識装置に指示するためのプログ
ラムコードと、(h)ユーザの発声によって入力された
第1の音声情報が所定の条件に一致するか否かを判断す
ることを前記音声認識装置に指示するためのプログラム
コードと、(i)前記音声情報が所定の条件に一致する
と判断した場合には、前記表示画面上に認識単語入力フ
ィールドと、読み入力フィールドを有する音声認識ウイ
ザード・パネルを表示することを前記音声認識装置に指
示するためのプログラムコードと、(j)前記音声認識
ウイザード・パネルに入力された認識単語と読みを取得
することを前記音声認識装置に指示するためのプログラ
ムコードと、(k)前記ユーザが、前記認識単語と前記
読みに対応して行なった発声に基づく第2の音声情報を
取得することを前記音声認識装置に指示するためのプロ
グラムコードと、(l)前記第2の音声情報と、前記認
識単語と、前記読みとに基づいて、第2のベースフォー
ムを特定することを前記音声認識装置に指示するための
プログラムコードと、(m)前記第2のベースフォーム
を音声認識辞書に追加することを前記音声認識装置に指
示するためのプログラムコードと、を含む記憶媒体が提
供される。
【0024】
【実施例】A.ハードウエア構成 図1、2は、本発明の好適な実施例における音声認識手
順の概要を説明する概念図である。この例においては、
まず、Text−To−Speechなどで使われてい
る手法で単語表記401からよみ群407と発音表記4
09のセットをスコア付きで生成する。生成されたよみ
群からユーザーが正しいよみを選択する。
【0025】そして、表記−よみからベースフォーム群
をスコア付きで生成し、スコアが基準値を超えるものを
声の録音なしで音声認識辞書231に登録する。
【0026】次に、実際の音声認識処理において、認識
エラーがN回を超えた場合等一定のエラーが検出された
場合には、ユーザの声を録音し、実際に発声したベース
フォームを取得し、音声認識辞書に再登録する。再登録
されたベースフォームがその後の音声認識処理で使用さ
れるようになる。
【0027】B.ハードウエア構成 図3は、本発明の音声認識システム100を実施するた
めのハードウェア構成の概観図である。音声認識システ
ム100は、中央処理装置(CPU)1とメモリ4とを
含んでいる。CPU1とメモリ4は、バス2等を介し
て、補助記憶装置としてのハードディスク装置13、
とを接続してある。フロッピー(登録商標)ディスク
装置(またはMO28、CD−ROM26、29等の
体駆動装置)20はフロッピー(登録商標)ディスクコ
ントローラ(またはIDEコントローラ25、SCSI
コントローラ27等の各種コントローラ)19を介して
バス2へ接続されている。
【0028】フロッピー(登録商標)ディスク装置(ま
たはMO、CD−ROM等の媒体駆動装置)20には、
フロッピー(登録商標)ディスク(またはMO、CD−
ROM等の媒体)が挿入され、このフロッピー(登録商
標)ディスク等やハードディスク装置13、ROM14
等の記憶媒体には、オペレーティング・システムと協働
してCPU等に命令を与え、本発明を実施するためのコ
ンピュータ・プログラムのコードを記録することがで
き、メモリ4にロードされることによって実行される。
このコンピュータ・プログラムのコードは圧縮し、また
は、複数に分割して、複数の媒体にまたがって記録する
こともできる。
【0029】音声認識システム100は更に、ユーザ・
インターフェース・ハードウェアを備えたシステムとす
ることができ、ユーザ・インターフェース・ハードウェ
アとしては、例えば、画面位置情報を入力をするための
ポインティング・デバイス(マウス、ジョイスティッ
ク、トラックボール等)7、キー入力をサポートするキ
ーボード6や、イメージデータをユーザに提示するため
のディスプレイ11、12がある。また、スピーカ23
は、オーディオ・コントローラ21から音声信号を、ア
ンプ22を介して受領し、音声として出力する。
【0030】この音声認識システム100は、シリアル
ポート15およびモデムまたは、トークンリング等の通
信アダプタ18等を介して、他のコンピュータ等と通信
を行うことができる。
【0031】本発明は、通常のパーソナルコンピュータ
(PC)やワークステーション、テレビやFAX等の各
種家電製品に組み込まれたコンピュータ、車両や航空機
等に搭載されるコンピュータ(カーナビゲーション・シ
ステム等)又はこれらの組合せによって実施可能であ
る。ただし、これらの構成要素は例示であり、その全て
構成要素が本発明の必須の構成要素となるわけではな
い。特に、本発明は、音声認識辞書のカスタマイズに関
するものであるため、パラレルポート16、シリアルポ
ート15等の構成要素は本発明の一態様においては必須
のものではない。
【0032】音声認識システム100のオペレーティン
グ・システムとしては、WindowsNT(マイクロ
ソフトの商標)、Windows9x(マイクロソフト
の商標)、Windows3.x(マイクロソフトの商
標)、OS/2(IBMの商標)、MacOS(App
le社の商標)、Linux(Linus Torvl
dsの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものや、PC−D
OS(IBMの商標)、MS−DOS(マイクロソフト
の商標)などのキャラクタ・ベース環境のもの、さらに
はOS/Open(IBMの商標)、VxWorks
(Wind River Systems, Inc.
の商標)等のリアルタイムOS、JavaOS等のネッ
トワークコンピュータに組み込まれたOSでも実現可能
であり、特定のオペレーティング・システム環境に限定
されるものではない。
【0033】C.システム構成 図4は、本発明の好適な実施例における音声認識システ
ムの処理要素を示す機能ブロック図である。
【0034】本発明の好適な実施例における音声認識シ
ステムは、認識単語登録部201、音声認識エンジン2
03、読み生成部205、ベースフォーム生成部20
7、音声入力部209、音声認識ウイザード211、音
声認識辞書231、単語辞書233及び、発音辞書23
5を備えている。
【0035】認識単語登録部201は、本発明の単語登
録処理のユーザ入力や各種情報の表示をオペレーティン
グ・システム等と共同して制御する。また、読み生成部
等、他の処理要素の制御を行なう。
【0036】音声認識エンジン203は、音声認識辞書
を用いて、実際に入力された音声情報を解析し、テキス
トデータを出力する。また、所定の音声認識エラーを検
出し、音声認識ウイザード211を起動する。
【0037】読み生成部205は、認識単語登録部より
渡された、文字表記データを受領し、単語辞書233を
用いて、その読みとスコアを探索する。また、所定のロ
ジックに基づいて、読みスコアの補正を行なう。この読
みスコアは、発生確率等の統計情報、経験値等に基づい
て設定することができる。
【0038】図5は、本発明の好適な実施例における単
語辞書233の概念図である。図に示すように、本発明
の好適な実施例における単語辞書233には、単語表記
301、読み303、発音表記305、読みスコア30
7の情報が管理されている。
【0039】ベースフォーム生成部207は、入力され
た単語表記及び読み情報を基に、発音辞書を検索し、対
応するベースフォームと発音スコアを出力する。また、
所定のロジックに基づいて、発音スコアの補正を行な
う。この発音スコアは、発生確率等の統計情報、経験値
等に基づいて設定することができる。また、単語表記に
対するベースフォームのスコアは、読みスコア×発音ス
コア等、読みスコアと発音スコアに基づいた関数値を設
定することができる。
【0040】図6は、本発明の好適な実施例における発
音辞書235の概念図である。図に示すように、本発明
の好適な実施例における発音辞書235には、発音表記
311、ベースフォーム313、発音スコア315の情
報が管理されている。
【0041】音声入力部209は、ユーザが発声した音
声情報をシステムに取り込む。
【0042】音声認識ウイザード211は、ユーザの発
声によって入力された音声情報を基に、単語表記に対応
するベースフォームを決定する。
【0043】以上図2に示す各機能ブロックを説明した
が、これらの機能ブロックは、論理的機能ブロックであ
り、各々1つのまとまりを持ったハードウエアやソフト
ウエアによって実現されることを意味するのではなく、
複合し、または共通したハードウエアやソフトウエアに
よって実現可能である。
【0044】D.単語登録手順 次に、図7を用いて、本発明の好適な実施例における認
識単語登録手順を説明する。まず、図8の本発明の好適
な実施例における認識単語登録部のユーザインタフェー
スに示されるように、認識単語登録部201は、ユーザ
ーが登録単語フィールド401に入力した登録したい単
語の表記を取得する(ステップ453)。
【0045】そして、入力された単語表記が読み生成部
205に渡され、読み生成部205により、単語辞書2
33の検索が行われる(ステップ455)。読み生成部
205は、その単語表記に対応する読み303、発音表
記305、読みスコア307を取得する(ステップ45
7)。なお、一定の条件に適合する場合には、取得され
たスコア307を読み生成部205のロジックにより補
正することもできる。
【0046】例えば、表記がかなのみで構成され、確実
に長音化されないケースでは、スコアを1に補正する。
また、表記にマッチするものが辞書に存在する場合であ
っても、その辞書の精度が音声認識的には高くない場合
(例えばかな漢字変換用の辞書を流用した場合等)、読
みが長音化される可能性があればスコアを下げる補正を
行なう。
【0047】この読み、発音表記、読みスコアは、読み
生成部205から認識単語登録部201に返され、読み
候補が生成されたか否かが判断される(ステップ45
9)。読み候補が生成されなかった場合には、認識単語
登録部201は、ユーザに読みの入力を指示するメッセ
ージを出力し、入力された読み407、発音表記409
を取得する(ステップ461)。図9は、ユーザがフィ
ールド407、409にキーボード入力した状態を示し
ている。
【0048】読み候補が生成された場合には、スコアが
最高の読みを読みフィールド409に、その発音表記を
発音表記フィールド409に表示する。また、図10に
示すように、プルダウンメニューによりスコア順に並ん
だ読みをユーザが選択できるようにする(ステップ46
3)。
【0049】ユーザは、現在読みフィールド407に表
示されている読み、発音表記フィールド409に表示さ
れている発音表記を確認し、正しくなければ他の候補を
選択するか、キーボード入力により修正する。
【0050】認識単語登録パネル400において、正し
い読み407、発音表記409が入力された状態におい
て、ユーザが「単語を登録」ボタン403を押すと、認
識単語登録部201が、単語表記401、読み407、
発音表記409のセットを取得し、これをベースフォー
ム生成部207に渡す。なお、入力された読みが不適当
な場合(「あ゛」など)には、ユーザに正しい入力を促
すメッセージを出力する。
【0051】ベースフォーム生成部207は、この情報
を基に発音辞書235を探索し、対応するベースフォー
ムと発音スコアを取得する。本発明の好適な実施例にお
いては、単語表記、発音表記を用いて、発音スコアが補
正される。
【0052】そして、取得したベースフォームのうち、
スコアが所定の閾値を越えてたものは、表記−よみ−ベ
ースフォームのセットで音声認識辞書に登録する(ステ
ップ467)。このような手順により、ユーザによる実
際の発声作業を伴わず、新しい単語を音声認識辞書に登
録することができる。
【0053】E.音声認識手順 次に、図11を用いて、本発明の好適な実施例における
音声認識手順を説明する。まず、ユーザは、音声認識エ
ンジン203を起動し、音声入力部209よりユーザの
発声により生成した音声情報を入力する。音声認識エン
ジン203は、音声認識辞書231を使用し、公知の音
声認識手法を用いて、入力された音声情報を認識し、テ
キストデータを出力する。
【0054】この音声認識処理において、音声認識エン
ジン203が、所定のエラーを検出した場合には(ステ
ップ483)、そのエラーが所定の条件に一致するか否
かを判断する(ステップ487)。例えば、 1.認識時のスコアが低かったためにリジェクトされた
(たとえば3回) 2.同じ単語に対する修正が複数回(たとえば2回)行
われた 3.誤認識が複数回(たとえば3回)続いた といった条件を考えられる。係る場合、エラーが認識さ
れた単語毎エラーカウンターを持たせ、エラーをカウン
トする等の方法で実現することができる。
【0055】そして、この条件に一致したと判断された
場合には、音声認識エンジン203は、音声認識ウイザ
ード211を起動し、音声認識ウイザードが終了するま
で処理を中断する(ステップ489)。
【0056】音声認識ウイザード211は、図13、1
4で説明した従来の認識単語登録方法と同様の手順で認
識単語に対応するベースフォームを選択することができ
る。図12は、本発明の好適な実施例における音声認識
ウイザード211のユーザインタフェースを示す概念図
である。図に示すように、ユーザは、音声認識ウイザー
ド211の読みフィールド601、発音表記フィールド
213に読みと発音表記を入力し、録音ボタン(図示せ
ず:一旦録音ボタンが押されると、録音ボタンが消え、
「録音中」を示すメッセージが表示される)を押して単
語の読み上げを行なうことにより、音声情報を取得し、
ユーザーの声のゆれをベースフォーム上に反映させるこ
とにより、音声認識辞書への登録を行ない、その後の音
声認識で利用できるようにする。
【0057】このように本発明の方法でも最終的に声を
録音しなければならない場合は存在する。これは方言が
あったり、標準的な発音からかけ離れすぎた人の場合等
が考えられる。しかし、ほとんどの場合は、実際にユー
ザは、単語の登録際し、音声による登録なしに作業を終
了することができ、従来の方法では必ず声の録音が必要
だったことに比較して、大幅にユーザーの登録時の作業
量が削減できる。また認識エラーがある場合はユーザー
に声を録音するように自動的に促されるため、認識率の
低下を回避することが可能である。
【0058】なお上記記述では理解を深めるため日本語
を例にとったが、本発明は日本語だけに限定された発明
ではない。基本的にはすべての言語で利用可能である。
これは、他の言語専用の適切な読み生成部、ベースフォ
ーム生成部、音声認識エンジン等を用意することによ
り、本発明をそのまま適用することができるからであ
る。
【0059】この場合、各国で標準化された読みの表現
方法を採用する必要がある。例えば日本語においては
「ひらがな」、中国ではPinYin、台湾ではJuY
in、韓国ではハングル等が考えられる。欧米の言語に
ついては、英語を除き、読みの表現方法は一般的ではな
いため、かかる言語に適用する場合には、読み表現のゆ
らぎを吸収して設計する必要がある。
【0060】
【発明の効果】以上説明したように、本発明によれば、
音声認識の精度を維持しつつ、ユーザーの音声による録
音の作業を可能な限り低減させることができる。
【0061】
【図面の簡単な説明】
【図1】 本発明の好適な実施例における認識単語登録
手順の概要を説明する概念図である。
【図2】 本発明の好適な実施例における認識単語登録
手順の概要を説明する概念図である。
【図3】 本発明の音声認識装置のハードウェア構成の
一実施例を示すブロック図である。
【図4】 本発明の好適な実施例における音声認識シス
テムの処理要素のブロック図である。
【図5】 本発明の好適な実施例における単語辞書の概
念図である。
【図6】 本発明の好適な実施例における発音辞書の概
念図である。
【図7】 本発明の好適な実施例における認識単語登録
手順を示すフローチャートである。
【図8】 本発明の好適な実施例における認識単語登録
部のユーザインタフェースを示す概念図である。
【図9】 本発明の好適な実施例における認識単語登録
部のユーザインタフェースを示す概念図である。
【図10】 本発明の好適な実施例における認識単語登
録部のユーザインタフェースを示す概念図である。
【図11】 本発明の好適な実施例における音声認識手
順を示すフローチャートである。
【図12】 本発明の好適な実施例における音声認識ウ
イザードのユーザインタフェースを示す概念図である。
【図13】 従来の認識単語登録手順の概要を説明する
概念図である。
【図14】 従来の認識単語登録手順の概要を説明する
概念図である。
【符号の説明】
100 音声認識システム 201 認識単語登録部 203 音声認識エンジン 205 読み生成部 207 ベースフォーム生成部 209 音声発生部 211 音声認識ウイザード 231 音声認識辞書 233 単語辞書 235 発音辞書
───────────────────────────────────────────────────── フロントページの続き (72)発明者 市川 統一 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 大和事業所 内 (72)発明者 宇田 哲也 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 大和事業所 内 (72)発明者 友田 大輔 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 大和事業所 内 (56)参考文献 特開 平11−231886(JP,A) 特開 昭59−7998(JP,A) 特開 昭62−255999(JP,A) 特開 昭59−107397(JP,A) 特開2001−22374(JP,A) 特開2001−92485(JP,A) 実開 昭60−63900(JP,U) 高木外4名,ニュース音声を対象とし た言語モデルと話題抽出の検討,電子情 報通信学会技術研究報告[音声],日 本,電子情報通信学会,1998年 6月12 日,SP98−33,73−80 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 G06F 3/16 JICSTファイル(JOIS)

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】表示画面、音声入力装置を備える音声認識
    装置上で実施される認識単語の登録方法であって、 (a)ユーザによって特定された単語表記を取得する段
    階と、 (b)単語辞書を検索することにより、前記単語表記に
    対応する読みを取得する段階と、 (c)発音辞書を検索することにより、該取得した読み
    に対応するベースフォームと発音スコアとを取得する段
    階と、(d)前記発音スコアが所定の閾値を越えているか否か
    を判断する段階と、 (e)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームを音声認識辞書に登録す
    る段階と、 を含む認識単語登録方法。
  2. 【請求項2】表示画面、音声入力装置を備える音声認識
    装置上で実施される認識単語の登録方法であって、 (a)ユーザによって特定された単語表記を取得する段
    階と、 (b)単語辞書を検索することにより、前記単語表記に
    対応する複数の読み候補と各々が前記複数の読み候補に
    対応する読みスコアを取得する段階と、 (c)ユーザにより前記複数の読み候補を表示する段階
    と、 (d)ユーザにより前記複数の読み候補のうちの1つの
    読みが選択されたこと応答して、該選択された読みを
    取得する段階と、 (e)発音辞書を検索することにより、前記選択された
    読みに対応するベースフォームと発音スコアを取得する
    段階と、 (f)前記発音スコアが所定の閾値を越えているか否か
    を判断する段階と、 (g)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームを音声認識辞書に登録す
    る段階と、 を含む認識単語登録方法。
  3. 【請求項3】表示画面、音声入力装置を備える音声認識
    装置上で実施される音声認識方法であって、(a1)ユーザによって特定された単語表記を取得する
    段階と、 (a2)単語辞書を検索することにより、前記単語表記
    に対応する読みを取得する段階と、 (a3)発音辞書を検索することにより、該取得した読
    みに対応するベースフォームと発音スコアとを取得する
    段階と、 (a4)前記発音スコアが所定の閾値を越えているか否
    かを判断する段階と、 (a5)前記発音スコアが所定の閾値を越えている場合
    には、該取得したベースフォームを音声認識辞書に登録
    する段階と、 を含む初期単語登録段階と、b1)ユーザの発声によって入力された第1の音声情
    報が所定の条件に一致するか否かを判断する段階と、 (b2)前記音声情報が所定の条件に一致すると判断し
    た場合には、前記ユーザにより入力された認識単語と読
    みを取得する段階と、b3)前記ユーザが、前記認識単語と前記読みに対応
    して行なった発声に基づく第2の音声情報を取得する段
    階と、 (b4)前記第2の音声情報と、前記認識単語と、前記
    読みとに基づいて、ベースフォームを特定する段階と、 (b5)前記ベースフォームを音声認識辞書に追加する
    段階と、を含む音声認識時登録段階と を含む音声認識方法。
  4. 【請求項4】表示画面、音声入力装置を備える音声認識
    装置上で実施される音声認識方法であって、 (a1)ユーザによって特定された単語表記を取得する
    段階と、 (a2)単語辞書を検索することにより、前記単語表記
    に対応する複数の読み候補と各々が前記複数の読み候補
    に対応する読みスコアを取得する段階と、 (a3)ユーザに前記複数の読み候補を表示する段階
    と、 (a4)ユーザにより前記複数の読み候補のうちの1つ
    の読みが選択されたこと応答して、該選択された読み
    を取得する段階と、 (a5)発音辞書を検索することにより、前記選択され
    た読みに対応するベースフォームと発音スコアを取得す
    る段階と、 (a6)前記発音スコアが所定の閾値を越えているか否
    かを判断する段階と、 (a7)前記発音スコアが所定の閾値を越えている場合
    には、該取得したベースフォームを音声認識辞書に登録
    する段階と、 を含む初期登録段階と、 (b1)ユーザの発声によって入力された第1の音声情
    報が所定の条件に一致するか否かを判断する段階と、 (b2)前記音声情報が所定の条件に一致すると判断し
    た場合には、前記表示画面上に認識単語入力フィールド
    と、読み入力フィールドを有する音声認識ウイザード・
    パネルを表示する段階と、 (b3)前記音声認識ウイザード・パネルに入力された
    認識単語と読みを取得する段階と、 (b4)前記ユーザが、前記認識単語と前記読みに対応
    して行なった発声に基づく第2の音声情報を取得する段
    階と、 (b5)前記第2の音声情報と、前記認識単語と、前記
    読みとに基づいて、第2のベースフォームを特定する段
    階と、 (b6)前記第2のベースフォームを音声認識辞書に追
    加する段階と、 を含む音声認識時登録段階と、 を含む音声認識方法。
  5. 【請求項5】表示画面、音声入力装置を備える音声認識
    装置であって、 (a)ユーザによって特定された単語表記を取得する認
    識単語登録部と、 (b)単語辞書を検索することにより、前記単語表記に
    対応する読みを取得する読み生成部と、 (c)発音辞書を検索することにより、該取得した読み
    に対応するベースフォームと発音スコアとを取得するベ
    ースフォーム生成部と、 (d)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームが登録される音声認識辞
    書と、 を含む音声認識装置。
  6. 【請求項6】表示画面、音声入力装置を備える音声認識
    装置であって、 (a)ユーザによって特定された単語表記を取得する認
    識単語登録部と、 (b)単語辞書を検索することにより、前記単語表記に
    対応する複数の読み候補と各々が前記複数の読み候補に
    対応する読みスコアを取得するとともに、前記表示装置
    に表示した複数の読み候補のうちの1つの読みが選択さ
    れたこと応答して、該選択された読みも取得する読み
    生成部と、 ()発音辞書を検索することにより、前記選択された
    読みに対応するベースフォームと発音スコアを取得する
    ベースフォーム生成部と、 ()前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームが登録される音声認識辞
    書と、 を含む音声認識装置。
  7. 【請求項7】表示画面、音声入力装置を備える音声認識
    装置であって、(a)ユーザの発声により生じた音声情報を入力する音
    声入力部と、 (b)前記音声情報を認識する音声認識エンジンと、 (c)ユーザによって特定された単語表記を取得する認
    識単語登録部と、 (d)単語辞書を検索することにより、前記単語表記に
    対応する読みを取得する読み生成部と、 (e)発音辞書を検索することにより、該取得した読み
    に対応するベースフォームと発音スコアとを取得するベ
    ースフォーム生成部と、 (f)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームが登録される音声認識辞
    書と、 を含み、 (b2)前記音声認識エンジンは、ユーザの発声によっ
    て入力された第1の音声情報が所定の条件に一致するか
    否かを判断し、 (d2)前記読み生成部は、前記ユーザにより入力され
    た認識単語と読みに対応して該ユーザが行なった発声に
    基づく第2の音声情報を取得し、 (e2)前記ベースフォーム生成部は、前記第2の音声
    情報と、前記認識単語と、前記読みとに基づいて、第2
    のベースフォームを特定し、 (f2)前記音声認識辞書は、前記第2のベースフォー
    ムを追加登録することを特徴とする 音声認識装置。
  8. 【請求項8】表示画面、音声入力装置を備える音声認識
    装置であって、 (a)ユーザの発声により生じた音声情報を入力する音
    声入力部と、 ()前記音声情報を認識する音声認識エンジンと、 ()ユーザによって特定された単語表記を取得する認
    識単語登録部と、 ()単語辞書を検索することにより、前記単語表記に
    対応する複数の読み候補と各々が前記複数の読み候補に
    対応する読みスコアを取得するとともに、ユーザにより
    前記複数の読み候補のうちの1つの読みが選択されたこ
    とをに応答して、該選択された読みを取得する読み生成
    部と、 ()発音辞書を検索することにより、前記選択された
    読みに対応するベースフォームと発音スコアを取得する
    ベースフォーム生成部と、 ()前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームが登録される音声認識辞
    書と、 を含み、 (a2)前記音声認識エンジンは、ユーザの発声によっ
    て入力された第1の音声情報が所定の条件に一致するか
    否かを判断し、前記音声情報が所定の条件に一致すると
    判断した場合には、前記表示画面上に認識単語入力フィ
    ールドと、読み入力フィールドを有する音声認識ウイザ
    ード・パネルを管理する音声認識ウイザードを起動し、 (c2)前記読み生成部は、前記音声認識ウイザード・
    パネルに入力された認識単語と読みに対応して行なった
    発声に基づく第2の音声情報を取得し、 (d2)前記ベースフォーム生成部は、前記第2の音声
    情報と、前記認識単語と、前記読みとに基づいて、第2
    のベースフォームを特定し、 (e2)前記音声認識辞書は、前記第2のベースフォー
    ムを保持することを特徴とする音声認識装置。
  9. 【請求項9】表示画面、音声入力装置を備える音声認識
    装置上で実施される認識単語の登録処理プログラムを格
    納した記録媒体であって、 該プログラムは、 (a)ユーザによって特定された単語表記を取得するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、 (b)単語辞書を検索することにより、前記単語表記に
    対応する読みを取得することを前記音声認識装置に指示
    するためのプログラムコードと、 (c)発音辞書を検索することにより、該取得した読み
    に対応するベースフォームと発音スコアとを取得するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、(d)前記発音スコアが所定の閾値を越えているか否か
    を判断することを前記音声認識装置に指示するためのプ
    ログラムコードと、 (e)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームを音声認識辞書に登録す
    ることを前記音声認識装置に指示するためのプログラム
    コードと、 を含む記憶媒体。
  10. 【請求項10】表示画面、音声入力装置を備える音声認
    識装置上で実施される認識単語の登録処理プログラムを
    格納した記録媒体であって、 該プログラムは、 (a)ユーザによって特定された単語表記を取得するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、 (b)単語辞書を検索することにより、前記単語表記に
    対応する複数の読み候補と各々が前記複数の読み候補に
    対応する読みスコアを取得することを前記音声認識装置
    に指示するためのプログラムコードと、 (c)ユーザにより前記複数の読み候補を表示すること
    を前記音声認識装置に指示するためのプログラムコード
    と、 (d)ユーザにより前記複数の読み候補のうちの1つの
    読みが選択されたこと応答して、該選択された読みを
    取得することを前記音声認識装置に指示するためのプロ
    グラムコードと、 (e)発音辞書を検索することにより、前記選択された
    読みに対応するベースフォームと発音スコアを取得する
    ことを前記音声認識装置に指示するためのプログラムコ
    ードと、 (f)前記発音スコアが所定の閾値を越えているか否か
    を判断することを前記音声認識装置に指示するためのプ
    ログラムコードと、 (g)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームを音声認識辞書に登録す
    ることを前記音声認識装置に指示するためのプログラム
    コードと、 を含む記憶媒体。
  11. 【請求項11】表示画面、音声入力装置を備える音声認
    識装置上で実施される音声認識処理プログラムを格納し
    た記録媒体であって、 該プログラムは、(a)ユーザによって特定された単語表記を取得するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、 (b)単語辞書を検索することにより、前記単語表記に
    対応する読みを取得することを前記音声認識装置に指示
    するためのプログラムコードと、 (c)発音辞書を検索することにより、該取得した読み
    に対応するベースフォームと発音スコアとを取得するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、 (d)前記発音スコアが所定の閾値を越えているか否か
    を判断することを前記音声認識装置に指示するためのプ
    ログラムコードと、 (e)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームを音声認識辞書に登録す
    ることを前記音声認識装置に指示するためのプログラム
    コードと、)ユーザの発声によって入力された第1の音声情報
    が所定の条件に一致するか否かを判断することを前記音
    声認識装置に指示するためのプログラムコードと、 ()前記音声情報が所定の条件に一致すると判断した
    場合には、前記ユーザにより入力された認識単語と読み
    を取得することを前記音声認識装置に指示するためのプ
    ログラムコードと、 ()前記ユーザが、前記認識単語と前記読みに対応し
    て行なった発声に基づく第2の音声情報を取得すること
    を前記音声認識装置に指示するためのプログラムコード
    と、 ()前記第2の音声情報と、前記認識単語と、前記読
    みとに基づいて、ベースフォームを特定することを前記
    音声認識装置に指示するためのプログラムコードと、 ()前記ベースフォームを音声認識辞書に追加するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、 を含む記憶媒体。
  12. 【請求項12】表示画面、音声入力装置を備える音声認
    識装置上で実施される音声認識処理プログラムを格納し
    た記録媒体であって、 該プログラムは、 (a)ユーザによって特定された単語表記を取得するこ
    とを前記音声認識装置に指示するためのプログラムコー
    ドと、 (b)単語辞書を検索することにより、前記単語表記に
    対応する複数の読み候補と各々が前記複数の読み候補に
    対応する読みスコアを取得することを前記音声認識装置
    に指示するためのプログラムコードと、 (c)ユーザに前記複数の読み候補を表示することを前
    記音声認識装置に指示するためのプログラムコードと、 (d)ユーザにより前記複数の読み候補のうちの1つの
    読みが選択されたこと応答して、該選択された読みを
    取得することを前記音声認識装置に指示するためのプロ
    グラムコードと、 (e)発音辞書を検索することにより、前記選択された
    読みに対応するベースフォームと発音スコアを取得する
    ことを前記音声認識装置に指示するためのプログラムコ
    ードと、 (f)前記発音スコアが所定の閾値を越えているか否か
    を判断することを前記音声認識装置に指示するためのプ
    ログラムコードと、 (g)前記発音スコアが所定の閾値を越えている場合に
    は、該取得したベースフォームを音声認識辞書に登録す
    ることを前記音声認識装置に指示するためのプログラム
    コードと、 (h)ユーザの発声によって入力された第1の音声情報
    が所定の条件に一致するか否かを判断することを前記音
    声認識装置に指示するためのプログラムコードと、 (i)前記音声情報が所定の条件に一致すると判断した
    場合には、前記表示画面上に認識単語入力フィールド
    と、読み入力フィールドを有する音声認識ウイザード・
    パネルを表示することを前記音声認識装置に指示するた
    めのプログラムコードと、 (j)前記音声認識ウイザード・パネルに入力された認
    識単語と読みを取得することを前記音声認識装置に指示
    するためのプログラムコードと、 (k)前記ユーザが、前記認識単語と前記読みに対応し
    て行なった発声に基づく第2の音声情報を取得すること
    を前記音声認識装置に指示するためのプログラムコード
    と、 (l)前記第2の音声情報と、前記認識単語と、前記読
    みとに基づいて、第2のベースフォームを特定すること
    を前記音声認識装置に指示するためのプログラムコード
    と、 (m)前記第2のベースフォームを音声認識辞書に追加
    することを前記音声認識装置に指示するためのプログラ
    ムコードと、 を含む記憶媒体。
JP25742999A 1999-09-10 1999-09-10 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 Expired - Fee Related JP3476007B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25742999A JP3476007B2 (ja) 1999-09-10 1999-09-10 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US09/656,964 US6983248B1 (en) 1999-09-10 2000-09-07 Methods and apparatus for recognized word registration in accordance with speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25742999A JP3476007B2 (ja) 1999-09-10 1999-09-10 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2001092484A JP2001092484A (ja) 2001-04-06
JP3476007B2 true JP3476007B2 (ja) 2003-12-10

Family

ID=17306252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25742999A Expired - Fee Related JP3476007B2 (ja) 1999-09-10 1999-09-10 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体

Country Status (2)

Country Link
US (1) US6983248B1 (ja)
JP (1) JP3476007B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
WO2006081653A1 (en) * 2005-02-01 2006-08-10 Siemens Canada Limited Cost optimized electric egr valve
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8028230B2 (en) * 2007-02-12 2011-09-27 Google Inc. Contextual input method
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
JP5159853B2 (ja) * 2010-09-28 2013-03-13 株式会社東芝 会議支援装置、方法およびプログラム
KR101231438B1 (ko) * 2011-05-25 2013-02-07 엔에이치엔(주) 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법
US9640175B2 (en) * 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
TWI536366B (zh) 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
KR102298457B1 (ko) * 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN104506381A (zh) * 2014-12-16 2015-04-08 新余兴邦信息产业有限公司 一种通过仪表监控文件上传的方法及装置
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
US11289097B2 (en) * 2018-08-28 2022-03-29 Dell Products L.P. Information handling systems and methods for accurately identifying an active speaker in a communication session
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111027794B (zh) * 2019-03-29 2023-09-26 广东小天才科技有限公司 一种听写作业的批改方法及学习设备
JP7131518B2 (ja) * 2019-09-20 2022-09-06 カシオ計算機株式会社 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4507750A (en) * 1982-05-13 1985-03-26 Texas Instruments Incorporated Electronic apparatus from a host language
US4749353A (en) * 1982-05-13 1988-06-07 Texas Instruments Incorporated Talking electronic learning aid for improvement of spelling with operator-controlled word list
JPS597998A (ja) 1982-07-06 1984-01-17 日本電気株式会社 連続音声認識装置
JPS59107397A (ja) 1982-12-10 1984-06-21 電子計算機基本技術研究組合 音声認識装置
JPS6063900A (ja) 1983-09-16 1985-04-12 三菱レイヨン株式会社 静電除去方法
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
JPS62255999A (ja) 1986-04-30 1987-11-07 富士通株式会社 単語音声認識装置
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
WO1996010795A1 (en) * 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
US6490561B1 (en) * 1997-06-25 2002-12-03 Dennis L. Wilson Continuous speech voice transcription
JPH11231886A (ja) 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6511324B1 (en) * 1998-10-07 2003-01-28 Cognitive Concepts, Inc. Phonological awareness, phonological processing, and reading skill training system and method
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
JP2001022374A (ja) 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US6556973B1 (en) * 2000-04-19 2003-04-29 Voxi Ab Conversion between data representation formats
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高木外4名,ニュース音声を対象とした言語モデルと話題抽出の検討,電子情報通信学会技術研究報告[音声],日本,電子情報通信学会,1998年 6月12日,SP98−33,73−80

Also Published As

Publication number Publication date
US6983248B1 (en) 2006-01-03
JP2001092484A (ja) 2001-04-06

Similar Documents

Publication Publication Date Title
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
US6490563B2 (en) Proofreading with text to speech feedback
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US6327566B1 (en) Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
US5852801A (en) Method and apparatus for automatically invoking a new word module for unrecognized user input
US5970448A (en) Historical database storing relationships of successively spoken words
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
EP3091535A2 (en) Multi-modal input on an electronic device
US6876967B2 (en) Speech complementing apparatus, method and recording medium
JP2001184088A (ja) コンピュータ読取自在の記録媒体、及びバックグランド・オーディオ・リカバリー・システム
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
JP2001188777A (ja) 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法
JP3476008B2 (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US20020152075A1 (en) Composite input method
JP3795692B2 (ja) 文字処理装置および方法
JP4220151B2 (ja) 音声対話装置
CN1965349A (zh) 多形式的非歧意性语音识别
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees