JP2006113269A - 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム - Google Patents

発音系列認識装置、発音系列認識方法及び発音系列認識プログラム Download PDF

Info

Publication number
JP2006113269A
JP2006113269A JP2004300151A JP2004300151A JP2006113269A JP 2006113269 A JP2006113269 A JP 2006113269A JP 2004300151 A JP2004300151 A JP 2004300151A JP 2004300151 A JP2004300151 A JP 2004300151A JP 2006113269 A JP2006113269 A JP 2006113269A
Authority
JP
Japan
Prior art keywords
expression
word
words
pronunciation sequence
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004300151A
Other languages
English (en)
Inventor
Hirotaka Goi
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004300151A priority Critical patent/JP2006113269A/ja
Publication of JP2006113269A publication Critical patent/JP2006113269A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】音声をテキスト化する技術は、医療や法律分野の音声書き起こし、放送字幕の作成など、多くの分野で書き起こし効率向上への期待がある。しかし、日本語では、日本語元来の表現と、日本語とは表現法の異なる外来した表現が入り混じるため、その表記方法に応じた分かち書きや倒置の記述が必要になる。
【解決手段】発音系列を入力する手段から入力された発音系列を単語列に変換する手段で変換された単語列を日本語元来の表現か、それ以外の特殊表現部分かを判別する手段の判別結果により、日本語元来の表現部分の単語列は接着する表示形態に変換し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力する特殊表現信号変換手段を備える。
【選択図】図1

Description

本発明は、発音系列を認識し、表記文字列に変換する技術に関するものである。
言葉をテキスト化する技術は有用であり、医療や法律分野の書き起こしや、放送字幕の作成など、多くの分野で書き起こしの効率向上に対する期待があり、日本においても活発な研究がなされている。
しかし、日本語の場合には発音しない記号を効率良く入力することが難しいという課題があった。
この課題を解決する従来の技術として例えば、特開昭56-114041号公報には、音韻間の時間に応じて句読点を挿入する技術が開示されている。また、特開2003-288098号公報には、ディクテーション装置、方法及びプログラムが開示されている。この技術は、GUI(Graphical User Interface)により句読点だけでなく、感嘆符や疑問符の記号を適切に選択可能とするものである。
以下用いる専門用語は、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著:「音声認識システム」株式会社オーム社,平成13年5月15日発行(以下教科書と言う)に示される用語を用いるものとする。
以下、特開2003-288098号公報に記載の従来技術について説明する。図23は、従来装置を示すブロック図であり、101はマイク、102は音響分析装置、103は単語列探索装置、601はGUI装置、105は表示装置である。
次に、本装置を使用して句読点を入力する過程を図24に示す動作の概略フローと具体例をもとに解説する。
まず、マイク101より音声を電気信号に変換し、アナログデータとして取り込み、音響分析装置102に渡す (ST7002) 。
音響分析装置102は、マイク101の取り込んだアナログデータをA/D変換し、量子化した後、教科書にある音声信号の信号処理であるスペクトル分析手法を用いてスペクトル分析し、対応した音響特徴量の系列を図示しないRAM(Random Access Memory)に記憶する (ST7003) 。
単語列探索装置103は、RAMに記憶された音響特徴量の系列を教科書にある種々の手法を用いて音声に最も近い単語列を探索する (ST7004) 。
GUI装置601は、ユーザの指示により、単語列探索装置103で探索された単語列におけるユーザの所望の位置に句読点を挿入する (ST7005) 。
表示装置105は、単語列の表記文字列と句読点を連結し、表示装置に表示する(ST7006)。
このようにして、句読点を挿入することができる。
特開昭56-114041号公報 特開2003-288098号公報 鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著「音声認識システム」株式会社オーム社、平成13年5月15日発行
しかし、従来の認識装置では、次のような問題点を有している。まず、句読点以外の記号の挿入や単語の置換操作をユーザが指示する必要があった。また、日本語は、漢字、アラビア数字、及びアルファベットといった様々な言語表記を取り込んでしまうという特性がある。そのため、日本語では、単語と単語の間をあけずに表記する日本語元来の表現と、欧米語の単語と単語を分かち書きにしたり、日本語とは語順の異なる表現などが入り混じる。
そのため、日本語においては、その表記方法に応じた記述が必要である。これは言語の種別といった単純な分類では解決しない困難性を持っている。例えば、ISO3602「日本語のローマ字表記」5.1章「単語の分かち書き」では、「日本語の文書における漢字仮名交じり文では語間をあけることなく続けて書くが、ローマ字表記の日本語のテキストでは、語と語の間に空白をおいて区切る(分かち書きする)必要がある。」と規定している。これによれば、同じ日本語でも、表記が異なれば表記方法を変える必要があるという課題がある。
具体的な問題点を以下に説明する。第1の問題点として、従来の認識装置では、これらの言語種別や、表記の相異を判別することが出来ないため、適切な表記法を用いることが出来なかった。
この理由は、例えば次の例によって説明できる。「えねーちけーにゅーす」という発声に対して、認識結果が、「NHK」、「ニュース」であれば「NHKニュース」と連接して良いが、認識結果が「NHK」、「NEWS」の場合は「NHKNEWS」と接続するのは誤りで、「NHK NEWS」と分かち書きすべきである。
第2の問題点は、認識結果が桁付きのアラビア数字表記になる場合である。従来の認識装置では、これらの表記の相異を判別することが出来ないため、適切な表記法を用いることが出来なかった。
例えば、「じゅうにじゅうさんじゅう」という発声に対して、従来の認識装置では、「102030」と接着して表記されてしまう。本来「10」と「20」及び「20」と「30」の間に空白を挿入するべきである。
第3の問題点は、認識結果が連続したアラビア数字表記になる場合である。従来の認識装置ではこれらの表現を判別することができないため、適切な表記を用いることが出来なかった。
例えば、「ごろくねん」という発声に対して、認識結果が「56年」と表記され、本来表記されるべき「5・6年」という正しい表記がなされなかった。
第4の問題点は、認識結果にアラビア数字と図25に示す通貨記号(61)の連接が含まれる場合である。従来の認識装置ではこれらの表現を判別することができないため、適切な表記を用いることが出来なかった。
例えば、「じゅうえん」という発声に対しては、認識結果が、「10¥」と表記され、本来表記されるべき「¥10」という正しい表記がなされなかった。
第5の問題点は、認識結果にアラビア数字と分数記号の連接が含まれる場合である。従来の認識装置ではこれらの表現を判別することができないため、適切な表記を用いることが出来なかった。
例えば、「さんぶんのに」という発声に対して、認識結果が「3/2」と表記され、本来表記されるべき「2/3」という正しい表記がなされなかった。
本発明は、上記問題点を解消すべくなされたものであって、その目的は、特殊表現の範囲を推定し、適切な表示を可能とする認識装置を提供することにある。
本発明の発音系列認識装置は、語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する発音系列入力手段と、
入力された発音系列を単語列に変換する単語列探索手段と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する特殊表現信号変換手段とを備えるものである。
本発明の発音系列認識方法は、語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する工程と、
入力された発音系列を単語列に変換する工程と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する工程を備えものである。
本発明の発音系列認識プログラムは、語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する機能と、
入力された発音系列を単語列に変換する機能と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する機能をコンピュータに実現させるものである。
本発明によれば、変換した単語列を特殊領域か否か判定し、特殊領域の単語列はその特殊領域の表記に合致した表示形態で表示することで、日本語の表記として間違ったり、奇異感を起こさせない効果を奏する。
実施の形態1.
上記した本発明の内容についてさらに詳細に説明すべく、本発明の実施の形態について図面を参照して以下に説明する。
以下、本発明の実施の形態1について説明する。図1は本発明の実施の形態1の構成を示すブロック図である。
101は音声を電気信号に変換しアナログデータとして取り込むマイクである。102はマイク101の取り込んだアナログデータをA/D変換し、量子化した後、教科書にある音声信号のスペクトル分析手法を用いてスペクトル分析し、音響特徴量を出力する音響分析装置である。106は単語を記憶した単語辞書で、単語毎の発音、表記、及びユニグラムの対数確率を記憶している。103は音響分析装置102からの音響特徴量を教科書にある音素HMM (Hidden Markov Model,隠れマルコフモデル) と、Nグラム文法、及び単語辞書106を用いて教科書に示された探索アルゴリズムにより、最も尤度の高い単語列を出力する単語列探索装置である。
107は特殊表現の単語列に対し、その表記に合致した表示形態をするか否かの判定要素を記憶した特殊表現表記辞書で、本実施の形態の場合は、分かち書きをするか否かの判定要素を記憶した分かち書き辞書である。104は単語列探索装置103から出力された単語列の単語連接をチェックして単語間を日本語文書の元来の表現とは異なる特殊表現か否か判定し、特殊表現の場合はその表記に合致した表示形態に変換して図示していないRAMに記憶する特殊表現信号変換手段である。本実施の形態の場合は、単語間を分かち書きするか否か判定し、分かち書き判定結果を図示していないRAMに記憶する分かち書き装置で形成される。105は算出された単語列を分かち書き装置104の分かち書き判定結果に基づいて適切な表示様態で表示する表示装置である。
次に、認識候補の単語列の各々の単語間を分かち書きするか否か判定するとともに、単語列を適切な分かち書きで表示する処理の詳細について説明する。
本実施の形態では、「えねーちけーにゅーす」の発声に対する処理動作の詳細を図2のフロー図に示す。
本実施の形態は、まず、マイク101より「えねーちけーにゅーす」の音声を電気信号に変換し、アナログデータとして取り込む(ST3002) 。
音響分析装置102は、マイク101の取り込んだアナログデータをA/D変換し、量子化した後、教科書にある音声信号の信号処理であるスペクトル分析手法を用いてスペクトル分析し、「えねーちけーにゅーす」に対応した音響特徴量の系列を図示していないRAMに記憶する(ST3003)。
単語列探索装置103は、教科書にある(例えばBaum-Weltchのアルゴリズムなどで)予め学習された音素HMMと、図3にその内容を示す単語辞書106及び図4(a)にその内容を示す特殊表現表記辞書としての分かち書き辞書107内の外国語辞書に記録された内容を用いて、教科書にあるような木構造の辞書による単語のモデル化を行なう。
また単語列探索装置103は、同じく単語辞書106及び分かち書き辞書107に記録されたNグラム文法を用いて、下式により単語間遷移確率を近似し、言語モデルの出力確率P(W)を計算する。RAMに記憶された音響特徴量の系列と単語間遷移確率を用いて教科書の探索アルゴリズムにより連続音声認識を行なう。
Figure 2006113269
これにより、RAMに記憶された音響特徴量の系列に対して、最も高い確率で出力する単語系列を計算でき、結果として音声「えねーちけーにゅーす」に類似した中間表現として単語列を単語ラティスの形式でRAMに記憶する。本実施の形態の場合、単語ラティスは図5となる(通常音声認識では100%の認識は困難であるためラティスに類似する候補が多数出現するが、本実施の形態では説明の簡略化のため最適候補のみを対象とする)。このとき、単語ラティスの始端、及び末端には処理の簡略化のために内部処理のための特殊な単語「文頭」、及び「文末」を付加する (ST3004) 。
次に単語列探索装置103は単語ラティスの単語列のうち最も尤度の高い単語の組み合わせを教科書のビタビアルゴリズムを用いて算出する。
本実施の形態では、最尤単語列「NHK」、「NEWS」を決定する (ST3005) 。
すべての単語間について表示属性を分かち書き「なし」で初期化する (ST3006) 。
すべての単語間を分かち書きか否かチェックしていなければ処理をST3008へ移す。チェックが完了していれば処理をST3010に移す。ここでは未チェックの単語が残っているのでST3008へ処理が移る (ST3007) 。
分かち書き装置104は第1単語と第2単語間が分かち書きかチェックする。具体的には、図4(a)に例を図示するす特殊表現表記辞書としての分かち書き辞書107内の外国語辞書を参照し、第1単語の末尾文字と第2単語の先頭文字の双方が分かち書き辞書に記憶されている外国語文字であるか判定する (ST3008) 。
ここでは、第1単語は「文頭」であり、第1単語の末尾表記文字は外国語文字ではないから単語間の表示属性を分かち書き「なし」と判定し、処理をST3007に戻す (ST3009) 。
次に第2単語「NHK」についてST3006から処理を再開する。すべての単語をチェックし終えていないので、処理をST3008移し、前記同様の分かち書き判定を行なう(ST3007)。
ここでは、該当単語の末尾表記文字と後接単語の先頭表記文字がともにアルファベットであることから単語間の表示属性を分かち書き「あり」と判定し、処理をST3009移す (ST3008) 。
該当する単語間の属性を「あり」に書き換えてRAMに記憶するとともに、処理をST3007に戻す。(ST3009)
このように処理を繰り返し、該当単語が「文末」となったところで、すべての単語のチェックが完了したと判定し、処理をST3010に移す。
表示装置105は、RAMに記憶された単語列を第2単語から順に文末の前の単語まで表示属性に従って表示する。本実施の形態では、「NHK NEWS」が図6のように表示される (ST3012) 。
このように本実施の形態では、認識候補の単語列のうち分かち書きの領域か否かを判定し、分かち書き領域の単語列を分かち書きの表示形態で表示することが可能となる。
実施の形態2.
本実施の形態は、特殊表現部分の単語列が桁付き数字列であり、その桁付き数字列を分かち書きするものである。図7は、本実施の形態の構成を示すブロック図で、図8はその処理動作の詳細を示すフロー図である。
図7において、201は桁付数字分割装置、202は特殊表現表記辞書としての桁付数字辞書であり、その他は図1に示す実施の形態1の構成と同様であり説明を省略する。
以下、図8のフロー図に従い、「じゅうにじゅう」の発声に対する本実施の形態での処理の詳細を述べる。ST3004まで実施の形態1と同様の処理がなされ、単語ラティスは図9に示すように構成される。本実施の形態では、単語列探索装置103は図9に示す単語ラティスから最尤単語列「10」、「20」を決定する (ST3005) 。
すべての単語間について表示属性を分かち書き「なし」で初期化する (ST3006) 。
桁付き数字フラグを「0」に初期化する。また、数字開始位置を「0」に初期化する (ST4001) 。
すべての単語について該当単語と後接続単語間がアラビア数字か否かのチェックが完了していなければ処理をST4003へ移す。チェックが完了していれば処理をST3010に移す。ここでは単語が残っているのでST4003へ処理が移る (ST4002) 。
桁付数字分割装置201は該当単語と後接続単語間がアラビア数字か否かチェックする。具体的には、図4(b)に例を図示する桁付数字辞書202内のアラビア数字辞書を参照し、該当単語のすべての表記文字がアラビア数字辞書に記憶されている文字で構成されているか判定して、数字であればST4005へ処理を移し、数字でなければST4004へ処理を移す(ST4003) 。
ここでは、第1単語は「文頭」であり、第1単語の表記文字は数字ではないから処理をST4004に移す (ST4003) 。
次に、桁付きフラグが1であれば数値開始位置までの数値単語の間に分かち書き属性「あり」を付与する。ここでは、桁付きフラグが0であるので処理がされず、ST4001へ処理が移る (ST4004) 。
次に、ST4001で前記同様の処理を行い、ST4002ですべての単語のチェックが完了かを判定しST4003に処理を移す。ST4003では次の単語「10」に処理が移る。「10」はすべての文字がアラビア数字であるから処理をST4005に移す。
ここでは、該当単語「10」の前接続単語「文頭」がアラビア数字辞書を用いて非数値単語であることがわかるから該当単語が2番目の単語であることを示す単語位置「2」を数値開始位置として図示せぬRAMに記憶する(ST4005)。
次に、該当数字の文字数をカウントすることにより該当数字が桁つきか判定する(ST4006)。
ここでは、「10」の文字数が2で、2以上であるから桁付きと判定し、桁付き属性フラグを「1」としてRAMに記憶し処理をST4002に移す(ST4007)。
このように処理をすすめ、該当単語が「文末」のとき、ST4003で該当単語が非数字であるので、処理をST4004に移す。
桁付きフラグが「1」で数字開始位置が「2」であるので、該当数字位置「4」から1を減じた値から「2」までの間、つまり2番目の単語「10」から3番目の単語「20」までの間に分かち書き属性「あり」を付与し、処理をST4001に戻す(ST4004)。
次に、前記同様の処理を行い、ST4002ですべての単語のチェックが完了したので、処理をST3010に移す。
表示装置105は、RAMに記憶された単語列を第2単語から順に文末の前の単語まで表示属性に従って表示する。本実施の形態では、「10 20」が図10のように表示される (ST3010) 。
このように本実施の形態では、認識候補の単語列が桁付き数字列の領域か否かを判定し、桁付き数字列の領域の単語列を分かち書きの表示形態で表示することが可能となる。
実施の形態3.
本実施の形態3は特殊表現部分の単語列が連続数字列であり、連続数字列を中点表示するものである。図11は、本実施の形態の構成を示すブロック図、図12はその処理動作の詳細を示すフロー図である。
図11において、301は連続数字分割装置、302は特殊表現表記辞書としての連続数字辞書であり、その他は図1に示す実施の形態1の構成と同様であり説明を省く。
本実施の形態では、「にじゅうごろく」の発声に対する処理を例に図12のフロー図に従い説明する。ST3004までは実施の形態1と同様の処理がなされ、単語ラティスは図13に示すように構成される。本実施の形態では、単語列探索装置103は図13に示す単語ラティスから最尤単語列「25」、「6」を決定する (ST3005) 。
すべての単語間について表示属性を並列属性「なし」で初期化する (ST3006) 。
すべての単語を該当単語と後接単語が連続アラビア数字か否かチェックが完了していなければ処理をST5002へ移す。チェックが完了していれば処理をST3010に移す。ここでは単語が残っているのでST5002へ処理が移る (ST5001) 。
連続数字分割装置301は該当単語と後接単語が連続アラビア数字か否かチェックする。具体的には、図4(c)に例を図示する連続数字辞書302内の連続アラビア数字辞書を参照し、該当単語の下1けたと後接単語の表記文字が連続アラビア数字辞書に記憶されている文字で構成されているか判定する (ST5002,ST5003) 。数字であればST5004へ処理を移す。数字でなければST5001へ処理を移す。
ここでは、第1単語は「文頭」であり、第1単語の表記文字は数字ではないから処理をST5001に移す。
次に、ST5001で前記同様の処理を行い、ST5002に処理を移す。ST5002では次の単語「25」に処理が移る。「25」と後接単語の「6」はともに文字がアラビア数字であるから処理をST5003に移す(ST5002)。
さらに、該当単語「25」の下1桁は「5」で、後接単語「6」が連続アラビア数字辞書を用いて連続数値であることがわかるから該当単語間に並列属性「あり」を図示せぬRAMに記憶する(ST5004)。
このように処理をすすめ、該当単語が「文末」のとき、ST5001ですべての単語のチェックが終わるので、処理をST3010に移す。
表示装置105は、RAMに記憶された単語列を第2単語から順に文末の前の単語まで表示属性に従って表示する。本実施の形態では、「25・6」が図14のように表示される (ST3010) 。
このように本実施の形態では、認識候補の単語列が連続数字列の領域か否かを判定し、連続数字列領域の単語列を適切な表示形態、即ち中点表示することが可能となる。
実施の形態4.
本実施の形態は特殊表現部分の単語列が数量単語と通貨単位単語の場合に、通貨単位単語と数量単語の位置を置き換えるものである。図15は、本実施の形態の構成を示すブロック図、図16はその処理動作の詳細を示すフロー図である。
図15において、401は通貨置換装置、402は特殊表現表記辞書としての通貨辞書であり、その他は図1に示す実施の形態1と同様の構成であり説明を省略する。
本実施の形態では、「ごどる」の発声に対する処理を例に述べる。ST3004までは実施の形態1と同様の処理がなされる。また、単語ラティスは図17に示すように構成される。本実施の形態では、単語列探索装置103は図17に示す単語ラティスから最尤単語列「5」、「$」を決定する (ST3005) 。
すべての単語間について表示属性を通貨「なし」で初期化する (ST3006) 。
すべての該当単語がアラビア数字か否かをチェックしていなければ処理をST6002へ移す。チェックが完了していれば処理をST3010に移す。ここでは未チェックの単語が残っているのでST6002へ処理が移る (ST6001) 。
通貨置換装置401は該当単語がアラビア数字か否かチェックする。具体的には、図4(d)に例を図示する通貨辞書402のアラビア数字の欄を参照し、該当単語のすべての表記文字がアラビア数字で構成されているか判定する (ST6002) 。アラビア数字であればST6003へ処理を移す。アラビア数字でなければST6001へ処理を移す。
ここでは、第1単語は「文頭」であり、第1単語の表記文字はアラビア数字ではないから処理をST6001に移す (ST6002) 。
次に、ST6001で前記同様の処理を行い、ST6002で次の単語「5」に処理が移る。「5」は表記文字がすべてアラビア数字であるから処理をST6003に移す(ST6001-ST6002)。
さらに、後接単語「$」は通貨辞書402を参照して通貨記号であることがわかる (ST6003) 。ここでは通貨記号である故処理をST6004に移す(ST6003)。
該当単語間に通貨属性「あり」を図示せぬRAMに記憶する(ST6004)。
このように処理をすすめ、該当単語が「文末」のとき、ST6001ではすべての単語のチェックが終わっているので、処理をST3010に移す。
表示装置105は、RAMに記憶された単語列を第2単語から順に文末の前の単語まで表示属性に従って表示するが、表示属性が通貨属性「あり」の場合には前後の単語を逆順に表示する。本実施の形態では、「$5」が図18のように表示される (ST3010) 。
このように本実施の形態では、認識候補の単語列が数量単語と通貨単位単語か否かを判定し、単語列が数量単語と通貨単位単語の場合、前後の単語を逆順にして適切な表示順序で表示することが可能となる。
実施の形態5.
本実施の形態は特殊表現部分の単語列が分数表現の場合、単語列を適切な表示形態で表示するものである。図19は、本実施の形態の構成を示すブロック図、図20はその処理動作の詳細を示すフロー図である。
図19において、501は分数置換装置、502は特殊表現表記辞書としての分数辞書であり、その他は図1に示す実施の形態1と同様の構成であり説明を省く。
本実施の形態では、「はちぶんのご」の発声に対する処理を例にその詳細を図20のフロー図に従い説明する。ST3004までは実施の形態1と同様の処理がなされ、単語ラティスは図21に示すように構成される。
本実施の形態では、単語列探索装置103は図21に示す単語ラティスから最尤単語列「8」、「/」、「5」を決定する (ST3005) 。
すべての単語間について表示属性を分かち書き「なし」で初期化する (ST3006) 。
すべての単語が分数表現か否かをチェックしていなければ処理をST8002へ移す。チェックが完了していれば処理をST3010に移す。ここでは未チェックの単語が残っているのでST8002へ処理が移る (ST8001) 。
分数置換装置501は、該当単語が分数表現かチェックする。具体的には、図4(e)に例を図示する分数辞書502の分数表現を参照し、該当単語が分数表現と一致するか判定する (ST8002) 。分数表現であればST8003へ処理を移す。分数表現でなければST8001へ処理を移す。
ここでは、第1単語は「文頭」であり、第1単語は分数表現ではないから処理をST8001に移す。
次に、ST8001で前記同様の処理を行い、前記と同様に処理をすすめ、該当単語が3番目の「/」のとき、該当単語は分数表現であるから処理をST8003に移す(ST8002)。
分数置換装置501は、該当単語の前接、及び後接単語がアラビア数字であるか調べる(ST8003)。
本実施の形態の場合、前接単語「8」、及び後接単語「5」ともに分数辞書のアラビア数字を参照してアラビア数字であることが分かるので処理を(ST8004)に移す。
該当単語間に「8」と「/」の間と、「/」と「5」の間に分数属性「あり」を図示せぬRAMに記憶する(ST8004)。
このように処理をすすめ、該当単語が「文末」のとき、ST8001ですべての単語のチェックが終わっているので、処理をST3010に移す。
表示装置105は、RAMに記憶された単語列を第2単語から順に文末の前の単語まで表示属性に従って表示するが、表示属性が分数属性「あり」の場合には連接する分数属性の一連の単語を逆順に表示する。本実施の形態では、「5/8」が図22のように表示される (ST3010) 。
このように本実施の形態では、認識候補の単語列が分数表現か否かを判定し、分数表現の単語列を適切な表示順序で表示することが可能となる。
金融、情報、運輸、通信、公共、医療、及び教育における様々なシステムの文字入力のための音声書き起こし装置等に適用され日本語表現以外の特殊表現の発声を正しく表示することで被適用装置の処理の効率化が図れる。
本発明の実施の形態1を示すブロック図である。 実施の形態1における処理を示すフロー図である。 単語辞書の内容を説明する図である。 特殊表現表記辞書の内容を説明する図であり、(a)は分かち書き辞書の内容を説明する図、(b)は桁付数字辞書の内容を説明する図、(c)は連続数字辞書の内容を説明する図、(d)は通貨辞書の内容を説明する図、(e)は分数辞書の内容を説明する図である。 実施の形態1における単語ラティスの説明図である。 実施の形態1による処理結果を表示する図である。 本発明の実施の形態2を示すブロック図である。 実施の形態2における処理を示すフロー図である。 実施の形態2における単語ラティスの説明図である。 実施の形態2による処理結果を表示する図である。 本発明の実施の形態3を示すブロック図である。 実施の形態3における処理を示すフロー図である。 実施の形態3における単語ラティスの説明図である。 実施の形態3による処理結果を表示する図である 本発明の実施の形態4を示すブロック図である。 実施の形態4における処理を示すフロー図である。 実施の形態4における単語ラティスの説明図である。 実施の形態4による処理結果を表示する図である 本発明の実施の形態5を示すブロック図である。 実施の形態5における処理を示すフロー図である。 実施の形態5における単語ラティスの説明図である。 実施の形態5による処理結果を表示する図である 従来装置を示すブロック図である。 従来装置の概略動作フロー図である。 恣意的に選択した複数国の通貨単位と通貨単位記号を示す図である。
符号の説明
101 マイク、102 音響分析装置、103 単語列探索装置、104 分かち書き装置、105 表示装置、106 単語辞書、107 分かち書き辞書、201 桁付数字分割装置、202 桁付数字辞書、301 連続数字分割装置、302 連続数字辞書、401 通貨置換装置、402 通貨辞書、501 分数置換装置、502 分数辞書。

Claims (9)

  1. 語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する発音系列入力手段と、
    入力された発音系列を単語列に変換する単語列探索手段と、
    単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する特殊表現信号変換手段とを備えたことを特徴とする発音系列認識装置。
  2. 発音系列入力手段に入力される発音系列の特殊表現は分かち書き表現であり、
    特殊表現信号変換手段は分かち書きか否かの範囲を判別し、非分かち書き部分の単語列は語間をあけず続けて記載し、分かち書き範囲の単語は分かち書きする表示形態に変換する構成であることを特徴とする請求項1記載の発音系列認識装置。
  3. 発音系列入力手段に入力される発音系列の特殊表現は桁付き数字列表現であり、
    特殊表現信号変換手段は桁付き数字列の連続範囲を判別し、一般の単語列は語間をあけず続けて記載し、桁付き数字列の連続範囲の単語は分かち書きする表示形態に変換する構成であることを特徴とする請求項1記載の発音系列認識装置。
  4. 発音系列入力手段に入力される発音系列の特殊表現は連続数字列表現であり、
    特殊表現信号変換手段は連続数字列の範囲を判別し、一般の単語列は語間をあけず続けて記載し、連続数字列の範囲の単語は区切り記号を挿入する表示形態に変換する構成であることを特徴とする請求項1記載の発音系列認識装置。
  5. 発音系列入力手段に入力される発音系列の特殊表現は数量単語と通貨単位単語の連接表現であり、
    特殊表現信号変換手段は数量単語と通貨単位単語の連接を判別し、一般の単語列は語間をあけず続けて記載し、数量単語と通貨単位単語の連接の単語は通貨単位単語と数量単語の位置を置き換える表示形態に変換する構成であることを特徴とする請求項1記載の発音系列認識装置。
  6. 発音系列入力手段に入力される発音系列の特殊表現は分数表現であり、
    特殊表現信号変換手段は単語列中の分数表現を判別し、一般の単語列は語間をあけず続けて記載し、単語列中の分数表現の単語は単語列を接着して逆順にする表示形態に変換する構成であることを特徴とする請求項1記載の発音系列認識装置。
  7. 発音系列として音声を入力する請求項1〜6の何れかに記載の発音系列認識装置。
  8. 語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する工程と、
    入力された発音系列を単語列に変換する工程と、
    単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する工程を備えたことを特徴とする発音系列認識方法。
  9. 語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する機能と、
    入力された発音系列を単語列に変換する機能と、
    単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する機能をコンピュータに実現させるための発音系列認識プログラム。
JP2004300151A 2004-10-14 2004-10-14 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム Pending JP2006113269A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004300151A JP2006113269A (ja) 2004-10-14 2004-10-14 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004300151A JP2006113269A (ja) 2004-10-14 2004-10-14 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム

Publications (1)

Publication Number Publication Date
JP2006113269A true JP2006113269A (ja) 2006-04-27

Family

ID=36381841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004300151A Pending JP2006113269A (ja) 2004-10-14 2004-10-14 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム

Country Status (1)

Country Link
JP (1) JP2006113269A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220725A1 (ja) * 2018-05-18 2019-11-21 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
KR20210119030A (ko) * 2020-03-24 2021-10-05 조안호 음성인식을 이용한 연산 학습 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220725A1 (ja) * 2018-05-18 2019-11-21 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
JPWO2019220725A1 (ja) * 2018-05-18 2021-05-27 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
JP7170287B2 (ja) 2018-05-18 2022-11-14 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
KR20210119030A (ko) * 2020-03-24 2021-10-05 조안호 음성인식을 이용한 연산 학습 방법
KR102461444B1 (ko) * 2020-03-24 2022-10-31 조안호 음성인식을 이용한 연산 학습 방법

Similar Documents

Publication Publication Date Title
Czech A System for Recognizing Natural Spelling of English Words
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US5949961A (en) Word syllabification in speech synthesis system
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US11270687B2 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US9384730B2 (en) Pronunciation accuracy in speech recognition
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US20050114131A1 (en) Apparatus and method for voice-tagging lexicon
Menacer et al. An enhanced automatic speech recognition system for Arabic
EP2595144A1 (en) Voice data retrieval system and program product therefor
KR20200026295A (ko) 음절 기반 자동 음성 인식
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
JP2019020597A (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2011175046A (ja) 音声検索装置および音声検索方法
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2006113269A (ja) 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム
JP2004294542A (ja) 音声認識装置及びそのプログラム