JP2006113269A

JP2006113269A - 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム

Info

Publication number: JP2006113269A
Application number: JP2004300151A
Authority: JP
Inventors: Hirotaka Goi; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-10-14
Filing date: 2004-10-14
Publication date: 2006-04-27

Abstract

【課題】音声をテキスト化する技術は、医療や法律分野の音声書き起こし、放送字幕の作成など、多くの分野で書き起こし効率向上への期待がある。しかし、日本語では、日本語元来の表現と、日本語とは表現法の異なる外来した表現が入り混じるため、その表記方法に応じた分かち書きや倒置の記述が必要になる。
【解決手段】発音系列を入力する手段から入力された発音系列を単語列に変換する手段で変換された単語列を日本語元来の表現か、それ以外の特殊表現部分かを判別する手段の判別結果により、日本語元来の表現部分の単語列は接着する表示形態に変換し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力する特殊表現信号変換手段を備える。
【選択図】図１

Description

本発明は、発音系列を認識し、表記文字列に変換する技術に関するものである。

言葉をテキスト化する技術は有用であり、医療や法律分野の書き起こしや、放送字幕の作成など、多くの分野で書き起こしの効率向上に対する期待があり、日本においても活発な研究がなされている。
しかし、日本語の場合には発音しない記号を効率良く入力することが難しいという課題があった。
この課題を解決する従来の技術として例えば、特開昭56-114041号公報には、音韻間の時間に応じて句読点を挿入する技術が開示されている。また、特開2003-288098号公報には、ディクテーション装置、方法及びプログラムが開示されている。この技術は、GUI（Graphical User Interface）により句読点だけでなく、感嘆符や疑問符の記号を適切に選択可能とするものである。
以下用いる専門用語は、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著：「音声認識システム」株式会社オーム社，平成１３年５月１５日発行（以下教科書と言う）に示される用語を用いるものとする。

以下、特開2003-288098号公報に記載の従来技術について説明する。図２３は、従来装置を示すブロック図であり、１０１はマイク、１０２は音響分析装置、１０３は単語列探索装置、６０１はGUI装置、１０５は表示装置である。

次に、本装置を使用して句読点を入力する過程を図２４に示す動作の概略フローと具体例をもとに解説する。

まず、マイク１０１より音声を電気信号に変換し、アナログデータとして取り込み、音響分析装置１０２に渡す (ST7002) 。
音響分析装置１０２は、マイク１０１の取り込んだアナログデータをA/D変換し、量子化した後、教科書にある音声信号の信号処理であるスペクトル分析手法を用いてスペクトル分析し、対応した音響特徴量の系列を図示しないRAM（Random Access Memory）に記憶する (ST7003) 。

単語列探索装置１０３は、RAMに記憶された音響特徴量の系列を教科書にある種々の手法を用いて音声に最も近い単語列を探索する (ST7004) 。
GUI装置６０１は、ユーザの指示により、単語列探索装置１０３で探索された単語列におけるユーザの所望の位置に句読点を挿入する (ST7005) 。
表示装置１０５は、単語列の表記文字列と句読点を連結し、表示装置に表示する（ST7006）。
このようにして、句読点を挿入することができる。

特開昭56-114041号公報特開2003-288098号公報鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著「音声認識システム」株式会社オーム社、平成１３年５月１５日発行

しかし、従来の認識装置では、次のような問題点を有している。まず、句読点以外の記号の挿入や単語の置換操作をユーザが指示する必要があった。また、日本語は、漢字、アラビア数字、及びアルファベットといった様々な言語表記を取り込んでしまうという特性がある。そのため、日本語では、単語と単語の間をあけずに表記する日本語元来の表現と、欧米語の単語と単語を分かち書きにしたり、日本語とは語順の異なる表現などが入り混じる。

そのため、日本語においては、その表記方法に応じた記述が必要である。これは言語の種別といった単純な分類では解決しない困難性を持っている。例えば、ISO3602「日本語のローマ字表記」5.1章「単語の分かち書き」では、「日本語の文書における漢字仮名交じり文では語間をあけることなく続けて書くが、ローマ字表記の日本語のテキストでは、語と語の間に空白をおいて区切る（分かち書きする）必要がある。」と規定している。これによれば、同じ日本語でも、表記が異なれば表記方法を変える必要があるという課題がある。

具体的な問題点を以下に説明する。第１の問題点として、従来の認識装置では、これらの言語種別や、表記の相異を判別することが出来ないため、適切な表記法を用いることが出来なかった。
この理由は、例えば次の例によって説明できる。「えねーちけーにゅーす」という発声に対して、認識結果が、「NHK」、「ニュース」であれば「NHKニュース」と連接して良いが、認識結果が「NHK」、「NEWS」の場合は「NHKNEWS」と接続するのは誤りで、「NHK NEWS」と分かち書きすべきである。

第２の問題点は、認識結果が桁付きのアラビア数字表記になる場合である。従来の認識装置では、これらの表記の相異を判別することが出来ないため、適切な表記法を用いることが出来なかった。
例えば、「じゅうにじゅうさんじゅう」という発声に対して、従来の認識装置では、「１０２０３０」と接着して表記されてしまう。本来「１０」と「２０」及び「２０」と「３０」の間に空白を挿入するべきである。

第３の問題点は、認識結果が連続したアラビア数字表記になる場合である。従来の認識装置ではこれらの表現を判別することができないため、適切な表記を用いることが出来なかった。
例えば、「ごろくねん」という発声に対して、認識結果が「５６年」と表記され、本来表記されるべき「５・６年」という正しい表記がなされなかった。

第４の問題点は、認識結果にアラビア数字と図２５に示す通貨記号（６１）の連接が含まれる場合である。従来の認識装置ではこれらの表現を判別することができないため、適切な表記を用いることが出来なかった。
例えば、「じゅうえん」という発声に対しては、認識結果が、「１０￥」と表記され、本来表記されるべき「￥１０」という正しい表記がなされなかった。

第５の問題点は、認識結果にアラビア数字と分数記号の連接が含まれる場合である。従来の認識装置ではこれらの表現を判別することができないため、適切な表記を用いることが出来なかった。
例えば、「さんぶんのに」という発声に対して、認識結果が「３／２」と表記され、本来表記されるべき「２／３」という正しい表記がなされなかった。

本発明は、上記問題点を解消すべくなされたものであって、その目的は、特殊表現の範囲を推定し、適切な表示を可能とする認識装置を提供することにある。

本発明の発音系列認識装置は、語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する発音系列入力手段と、
入力された発音系列を単語列に変換する単語列探索手段と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する特殊表現信号変換手段とを備えるものである。

本発明の発音系列認識方法は、語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する工程と、
入力された発音系列を単語列に変換する工程と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する工程を備えものである。

本発明の発音系列認識プログラムは、語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する機能と、
入力された発音系列を単語列に変換する機能と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する機能をコンピュータに実現させるものである。

本発明によれば、変換した単語列を特殊領域か否か判定し、特殊領域の単語列はその特殊領域の表記に合致した表示形態で表示することで、日本語の表記として間違ったり、奇異感を起こさせない効果を奏する。

実施の形態１．
上記した本発明の内容についてさらに詳細に説明すべく、本発明の実施の形態について図面を参照して以下に説明する。

以下、本発明の実施の形態１について説明する。図１は本発明の実施の形態１の構成を示すブロック図である。

１０１は音声を電気信号に変換しアナログデータとして取り込むマイクである。１０２はマイク１０１の取り込んだアナログデータをA/D変換し、量子化した後、教科書にある音声信号のスペクトル分析手法を用いてスペクトル分析し、音響特徴量を出力する音響分析装置である。１０６は単語を記憶した単語辞書で、単語毎の発音、表記、及びユニグラムの対数確率を記憶している。１０３は音響分析装置１０２からの音響特徴量を教科書にある音素HMM (Hidden Markov Model,隠れマルコフモデル) と、Nグラム文法、及び単語辞書１０６を用いて教科書に示された探索アルゴリズムにより、最も尤度の高い単語列を出力する単語列探索装置である。

１０７は特殊表現の単語列に対し、その表記に合致した表示形態をするか否かの判定要素を記憶した特殊表現表記辞書で、本実施の形態の場合は、分かち書きをするか否かの判定要素を記憶した分かち書き辞書である。１０４は単語列探索装置１０３から出力された単語列の単語連接をチェックして単語間を日本語文書の元来の表現とは異なる特殊表現か否か判定し、特殊表現の場合はその表記に合致した表示形態に変換して図示していないRAMに記憶する特殊表現信号変換手段である。本実施の形態の場合は、単語間を分かち書きするか否か判定し、分かち書き判定結果を図示していないRAMに記憶する分かち書き装置で形成される。１０５は算出された単語列を分かち書き装置１０４の分かち書き判定結果に基づいて適切な表示様態で表示する表示装置である。

次に、認識候補の単語列の各々の単語間を分かち書きするか否か判定するとともに、単語列を適切な分かち書きで表示する処理の詳細について説明する。

本実施の形態では、「えねーちけーにゅーす」の発声に対する処理動作の詳細を図２のフロー図に示す。
本実施の形態は、まず、マイク１０１より「えねーちけーにゅーす」の音声を電気信号に変換し、アナログデータとして取り込む(ST3002) 。

音響分析装置１０２は、マイク１０１の取り込んだアナログデータをA/D変換し、量子化した後、教科書にある音声信号の信号処理であるスペクトル分析手法を用いてスペクトル分析し、「えねーちけーにゅーす」に対応した音響特徴量の系列を図示していないRAMに記憶する(ST3003)。

単語列探索装置１０３は、教科書にある（例えばBaum-Weltchのアルゴリズムなどで）予め学習された音素HMMと、図３にその内容を示す単語辞書１０６及び図４（ａ）にその内容を示す特殊表現表記辞書としての分かち書き辞書１０７内の外国語辞書に記録された内容を用いて、教科書にあるような木構造の辞書による単語のモデル化を行なう。

また単語列探索装置１０３は、同じく単語辞書１０６及び分かち書き辞書１０７に記録されたNグラム文法を用いて、下式により単語間遷移確率を近似し、言語モデルの出力確率P(W)を計算する。RAMに記憶された音響特徴量の系列と単語間遷移確率を用いて教科書の探索アルゴリズムにより連続音声認識を行なう。

これにより、RAMに記憶された音響特徴量の系列に対して、最も高い確率で出力する単語系列を計算でき、結果として音声「えねーちけーにゅーす」に類似した中間表現として単語列を単語ラティスの形式でRAMに記憶する。本実施の形態の場合、単語ラティスは図５となる（通常音声認識では１００％の認識は困難であるためラティスに類似する候補が多数出現するが、本実施の形態では説明の簡略化のため最適候補のみを対象とする）。このとき、単語ラティスの始端、及び末端には処理の簡略化のために内部処理のための特殊な単語「文頭」、及び「文末」を付加する (ST3004) 。

次に単語列探索装置１０３は単語ラティスの単語列のうち最も尤度の高い単語の組み合わせを教科書のビタビアルゴリズムを用いて算出する。
本実施の形態では、最尤単語列「NHK」、「NEWS」を決定する (ST3005) 。

すべての単語間について表示属性を分かち書き「なし」で初期化する (ST3006) 。
すべての単語間を分かち書きか否かチェックしていなければ処理をST3008へ移す。チェックが完了していれば処理をST3010に移す。ここでは未チェックの単語が残っているのでST3008へ処理が移る (ST3007) 。
分かち書き装置１０４は第１単語と第２単語間が分かち書きかチェックする。具体的には、図４（ａ）に例を図示するす特殊表現表記辞書としての分かち書き辞書１０７内の外国語辞書を参照し、第１単語の末尾文字と第２単語の先頭文字の双方が分かち書き辞書に記憶されている外国語文字であるか判定する (ST3008) 。
ここでは、第１単語は「文頭」であり、第１単語の末尾表記文字は外国語文字ではないから単語間の表示属性を分かち書き「なし」と判定し、処理をST3007に戻す (ST3009) 。

次に第２単語「ＮＨＫ」についてST3006から処理を再開する。すべての単語をチェックし終えていないので、処理をST3008移し、前記同様の分かち書き判定を行なう（ST3007）。
ここでは、該当単語の末尾表記文字と後接単語の先頭表記文字がともにアルファベットであることから単語間の表示属性を分かち書き「あり」と判定し、処理をST3009移す (ST3008) 。
該当する単語間の属性を「あり」に書き換えてRAMに記憶するとともに、処理をST3007に戻す。(ST3009)
このように処理を繰り返し、該当単語が「文末」となったところで、すべての単語のチェックが完了したと判定し、処理をST3010に移す。

表示装置１０５は、RAMに記憶された単語列を第２単語から順に文末の前の単語まで表示属性に従って表示する。本実施の形態では、「NHK NEWS」が図６のように表示される (ST3012) 。

このように本実施の形態では、認識候補の単語列のうち分かち書きの領域か否かを判定し、分かち書き領域の単語列を分かち書きの表示形態で表示することが可能となる。

実施の形態２．
本実施の形態は、特殊表現部分の単語列が桁付き数字列であり、その桁付き数字列を分かち書きするものである。図７は、本実施の形態の構成を示すブロック図で、図８はその処理動作の詳細を示すフロー図である。
図７において、２０１は桁付数字分割装置、２０２は特殊表現表記辞書としての桁付数字辞書であり、その他は図１に示す実施の形態１の構成と同様であり説明を省略する。

以下、図８のフロー図に従い、「じゅうにじゅう」の発声に対する本実施の形態での処理の詳細を述べる。ST3004まで実施の形態１と同様の処理がなされ、単語ラティスは図９に示すように構成される。本実施の形態では、単語列探索装置１０３は図９に示す単語ラティスから最尤単語列「１０」、「２０」を決定する (ST3005) 。

すべての単語間について表示属性を分かち書き「なし」で初期化する (ST3006) 。
桁付き数字フラグを「０」に初期化する。また、数字開始位置を「０」に初期化する (ST4001) 。
すべての単語について該当単語と後接続単語間がアラビア数字か否かのチェックが完了していなければ処理をST4003へ移す。チェックが完了していれば処理をST3010に移す。ここでは単語が残っているのでST4003へ処理が移る (ST4002) 。

桁付数字分割装置２０１は該当単語と後接続単語間がアラビア数字か否かチェックする。具体的には、図４（ｂ）に例を図示する桁付数字辞書２０２内のアラビア数字辞書を参照し、該当単語のすべての表記文字がアラビア数字辞書に記憶されている文字で構成されているか判定して、数字であればST4005へ処理を移し、数字でなければST4004へ処理を移す(ST4003) 。
ここでは、第１単語は「文頭」であり、第１単語の表記文字は数字ではないから処理をST4004に移す (ST4003) 。

次に、桁付きフラグが１であれば数値開始位置までの数値単語の間に分かち書き属性「あり」を付与する。ここでは、桁付きフラグが０であるので処理がされず、ST4001へ処理が移る (ST4004) 。

次に、ST4001で前記同様の処理を行い、ST4002ですべての単語のチェックが完了かを判定しST4003に処理を移す。ST4003では次の単語「１０」に処理が移る。「１０」はすべての文字がアラビア数字であるから処理をST4005に移す。
ここでは、該当単語「１０」の前接続単語「文頭」がアラビア数字辞書を用いて非数値単語であることがわかるから該当単語が２番目の単語であることを示す単語位置「２」を数値開始位置として図示せぬRAMに記憶する（ST4005）。

次に、該当数字の文字数をカウントすることにより該当数字が桁つきか判定する（ST4006）。
ここでは、「１０」の文字数が２で、２以上であるから桁付きと判定し、桁付き属性フラグを「１」としてRAMに記憶し処理をST4002に移す（ST4007）。

このように処理をすすめ、該当単語が「文末」のとき、ST4003で該当単語が非数字であるので、処理をST4004に移す。

桁付きフラグが「１」で数字開始位置が「２」であるので、該当数字位置「４」から１を減じた値から「２」までの間、つまり２番目の単語「１０」から３番目の単語「２０」までの間に分かち書き属性「あり」を付与し、処理をST4001に戻す（ST4004）。

次に、前記同様の処理を行い、ST4002ですべての単語のチェックが完了したので、処理をST3010に移す。

表示装置１０５は、RAMに記憶された単語列を第２単語から順に文末の前の単語まで表示属性に従って表示する。本実施の形態では、「１０２０」が図１０のように表示される (ST3010) 。

このように本実施の形態では、認識候補の単語列が桁付き数字列の領域か否かを判定し、桁付き数字列の領域の単語列を分かち書きの表示形態で表示することが可能となる。

実施の形態３．
本実施の形態３は特殊表現部分の単語列が連続数字列であり、連続数字列を中点表示するものである。図１１は、本実施の形態の構成を示すブロック図、図１２はその処理動作の詳細を示すフロー図である。
図１１において、３０１は連続数字分割装置、３０２は特殊表現表記辞書としての連続数字辞書であり、その他は図１に示す実施の形態１の構成と同様であり説明を省く。

本実施の形態では、「にじゅうごろく」の発声に対する処理を例に図１２のフロー図に従い説明する。ST3004までは実施の形態１と同様の処理がなされ、単語ラティスは図１３に示すように構成される。本実施の形態では、単語列探索装置１０３は図１３に示す単語ラティスから最尤単語列「２５」、「６」を決定する (ST3005) 。

すべての単語間について表示属性を並列属性「なし」で初期化する (ST3006) 。
すべての単語を該当単語と後接単語が連続アラビア数字か否かチェックが完了していなければ処理をST5002へ移す。チェックが完了していれば処理をST3010に移す。ここでは単語が残っているのでST5002へ処理が移る (ST5001) 。
連続数字分割装置３０１は該当単語と後接単語が連続アラビア数字か否かチェックする。具体的には、図４（ｃ）に例を図示する連続数字辞書３０２内の連続アラビア数字辞書を参照し、該当単語の下１けたと後接単語の表記文字が連続アラビア数字辞書に記憶されている文字で構成されているか判定する (ST5002,ST5003) 。数字であればST5004へ処理を移す。数字でなければST5001へ処理を移す。
ここでは、第１単語は「文頭」であり、第１単語の表記文字は数字ではないから処理をST5001に移す。

次に、ST5001で前記同様の処理を行い、ST5002に処理を移す。ST5002では次の単語「２５」に処理が移る。「２５」と後接単語の「６」はともに文字がアラビア数字であるから処理をST5003に移す（ST5002）。
さらに、該当単語「２５」の下１桁は「５」で、後接単語「６」が連続アラビア数字辞書を用いて連続数値であることがわかるから該当単語間に並列属性「あり」を図示せぬRAMに記憶する（ST5004）。

このように処理をすすめ、該当単語が「文末」のとき、ST5001ですべての単語のチェックが終わるので、処理をST3010に移す。

表示装置１０５は、RAMに記憶された単語列を第２単語から順に文末の前の単語まで表示属性に従って表示する。本実施の形態では、「２５・６」が図１４のように表示される (ST3010) 。

このように本実施の形態では、認識候補の単語列が連続数字列の領域か否かを判定し、連続数字列領域の単語列を適切な表示形態、即ち中点表示することが可能となる。

実施の形態４．
本実施の形態は特殊表現部分の単語列が数量単語と通貨単位単語の場合に、通貨単位単語と数量単語の位置を置き換えるものである。図１５は、本実施の形態の構成を示すブロック図、図１６はその処理動作の詳細を示すフロー図である。
図１５において、４０１は通貨置換装置、４０２は特殊表現表記辞書としての通貨辞書であり、その他は図１に示す実施の形態１と同様の構成であり説明を省略する。

本実施の形態では、「ごどる」の発声に対する処理を例に述べる。ST3004までは実施の形態１と同様の処理がなされる。また、単語ラティスは図１７に示すように構成される。本実施の形態では、単語列探索装置１０３は図１７に示す単語ラティスから最尤単語列「５」、「＄」を決定する (ST3005) 。

すべての単語間について表示属性を通貨「なし」で初期化する (ST3006) 。
すべての該当単語がアラビア数字か否かをチェックしていなければ処理をST6002へ移す。チェックが完了していれば処理をST3010に移す。ここでは未チェックの単語が残っているのでST6002へ処理が移る (ST6001) 。
通貨置換装置４０１は該当単語がアラビア数字か否かチェックする。具体的には、図４（ｄ）に例を図示する通貨辞書４０２のアラビア数字の欄を参照し、該当単語のすべての表記文字がアラビア数字で構成されているか判定する (ST6002) 。アラビア数字であればST6003へ処理を移す。アラビア数字でなければST6001へ処理を移す。
ここでは、第１単語は「文頭」であり、第１単語の表記文字はアラビア数字ではないから処理をST6001に移す (ST6002) 。

次に、ST6001で前記同様の処理を行い、ST6002で次の単語「５」に処理が移る。「５」は表記文字がすべてアラビア数字であるから処理をST6003に移す（ST6001-ST6002）。
さらに、後接単語「＄」は通貨辞書４０２を参照して通貨記号であることがわかる (ST6003) 。ここでは通貨記号である故処理をST6004に移す（ST6003）。

該当単語間に通貨属性「あり」を図示せぬRAMに記憶する（ST6004）。

このように処理をすすめ、該当単語が「文末」のとき、ST6001ではすべての単語のチェックが終わっているので、処理をST3010に移す。

表示装置１０５は、RAMに記憶された単語列を第２単語から順に文末の前の単語まで表示属性に従って表示するが、表示属性が通貨属性「あり」の場合には前後の単語を逆順に表示する。本実施の形態では、「＄５」が図１８のように表示される (ST3010) 。

このように本実施の形態では、認識候補の単語列が数量単語と通貨単位単語か否かを判定し、単語列が数量単語と通貨単位単語の場合、前後の単語を逆順にして適切な表示順序で表示することが可能となる。

実施の形態５．
本実施の形態は特殊表現部分の単語列が分数表現の場合、単語列を適切な表示形態で表示するものである。図１９は、本実施の形態の構成を示すブロック図、図２０はその処理動作の詳細を示すフロー図である。
図１９において、５０１は分数置換装置、５０２は特殊表現表記辞書としての分数辞書であり、その他は図１に示す実施の形態１と同様の構成であり説明を省く。

本実施の形態では、「はちぶんのご」の発声に対する処理を例にその詳細を図２０のフロー図に従い説明する。ST3004までは実施の形態１と同様の処理がなされ、単語ラティスは図２１に示すように構成される。
本実施の形態では、単語列探索装置１０３は図２１に示す単語ラティスから最尤単語列「８」、「／」、「５」を決定する (ST3005) 。

すべての単語間について表示属性を分かち書き「なし」で初期化する (ST3006) 。
すべての単語が分数表現か否かをチェックしていなければ処理をST8002へ移す。チェックが完了していれば処理をST3010に移す。ここでは未チェックの単語が残っているのでST8002へ処理が移る (ST8001) 。
分数置換装置５０１は、該当単語が分数表現かチェックする。具体的には、図４（ｅ）に例を図示する分数辞書５０２の分数表現を参照し、該当単語が分数表現と一致するか判定する (ST8002) 。分数表現であればST8003へ処理を移す。分数表現でなければST8001へ処理を移す。
ここでは、第１単語は「文頭」であり、第１単語は分数表現ではないから処理をST8001に移す。

次に、ST8001で前記同様の処理を行い、前記と同様に処理をすすめ、該当単語が3番目の「／」のとき、該当単語は分数表現であるから処理をST8003に移す（ST8002）。

分数置換装置５０１は、該当単語の前接、及び後接単語がアラビア数字であるか調べる（ST8003）。
本実施の形態の場合、前接単語「８」、及び後接単語「５」ともに分数辞書のアラビア数字を参照してアラビア数字であることが分かるので処理を（ST8004）に移す。

該当単語間に「８」と「／」の間と、「／」と「５」の間に分数属性「あり」を図示せぬRAMに記憶する（ST8004）。

このように処理をすすめ、該当単語が「文末」のとき、ST8001ですべての単語のチェックが終わっているので、処理をST3010に移す。

表示装置１０５は、RAMに記憶された単語列を第２単語から順に文末の前の単語まで表示属性に従って表示するが、表示属性が分数属性「あり」の場合には連接する分数属性の一連の単語を逆順に表示する。本実施の形態では、「５／８」が図２２のように表示される (ST3010) 。

このように本実施の形態では、認識候補の単語列が分数表現か否かを判定し、分数表現の単語列を適切な表示順序で表示することが可能となる。

金融、情報、運輸、通信、公共、医療、及び教育における様々なシステムの文字入力のための音声書き起こし装置等に適用され日本語表現以外の特殊表現の発声を正しく表示することで被適用装置の処理の効率化が図れる。

本発明の実施の形態１を示すブロック図である。実施の形態１における処理を示すフロー図である。単語辞書の内容を説明する図である。特殊表現表記辞書の内容を説明する図であり、（ａ）は分かち書き辞書の内容を説明する図、（ｂ）は桁付数字辞書の内容を説明する図、（ｃ）は連続数字辞書の内容を説明する図、（ｄ）は通貨辞書の内容を説明する図、（ｅ）は分数辞書の内容を説明する図である。実施の形態１における単語ラティスの説明図である。実施の形態１による処理結果を表示する図である。本発明の実施の形態２を示すブロック図である。実施の形態２における処理を示すフロー図である。実施の形態２における単語ラティスの説明図である。実施の形態２による処理結果を表示する図である。本発明の実施の形態３を示すブロック図である。実施の形態３における処理を示すフロー図である。実施の形態３における単語ラティスの説明図である。実施の形態３による処理結果を表示する図である本発明の実施の形態４を示すブロック図である。実施の形態４における処理を示すフロー図である。実施の形態４における単語ラティスの説明図である。実施の形態４による処理結果を表示する図である本発明の実施の形態５を示すブロック図である。実施の形態５における処理を示すフロー図である。実施の形態５における単語ラティスの説明図である。実施の形態５による処理結果を表示する図である従来装置を示すブロック図である。従来装置の概略動作フロー図である。恣意的に選択した複数国の通貨単位と通貨単位記号を示す図である。

符号の説明

１０１マイク、１０２音響分析装置、１０３単語列探索装置、１０４分かち書き装置、１０５表示装置、１０６単語辞書、１０７分かち書き辞書、２０１桁付数字分割装置、２０２桁付数字辞書、３０１連続数字分割装置、３０２連続数字辞書、４０１通貨置換装置、４０２通貨辞書、５０１分数置換装置、５０２分数辞書。

Claims

語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する発音系列入力手段と、
入力された発音系列を単語列に変換する単語列探索手段と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する特殊表現信号変換手段とを備えたことを特徴とする発音系列認識装置。
発音系列入力手段に入力される発音系列の特殊表現は分かち書き表現であり、
特殊表現信号変換手段は分かち書きか否かの範囲を判別し、非分かち書き部分の単語列は語間をあけず続けて記載し、分かち書き範囲の単語は分かち書きする表示形態に変換する構成であることを特徴とする請求項１記載の発音系列認識装置。
発音系列入力手段に入力される発音系列の特殊表現は桁付き数字列表現であり、
特殊表現信号変換手段は桁付き数字列の連続範囲を判別し、一般の単語列は語間をあけず続けて記載し、桁付き数字列の連続範囲の単語は分かち書きする表示形態に変換する構成であることを特徴とする請求項１記載の発音系列認識装置。
発音系列入力手段に入力される発音系列の特殊表現は連続数字列表現であり、
特殊表現信号変換手段は連続数字列の範囲を判別し、一般の単語列は語間をあけず続けて記載し、連続数字列の範囲の単語は区切り記号を挿入する表示形態に変換する構成であることを特徴とする請求項１記載の発音系列認識装置。
発音系列入力手段に入力される発音系列の特殊表現は数量単語と通貨単位単語の連接表現であり、
特殊表現信号変換手段は数量単語と通貨単位単語の連接を判別し、一般の単語列は語間をあけず続けて記載し、数量単語と通貨単位単語の連接の単語は通貨単位単語と数量単語の位置を置き換える表示形態に変換する構成であることを特徴とする請求項１記載の発音系列認識装置。
発音系列入力手段に入力される発音系列の特殊表現は分数表現であり、
特殊表現信号変換手段は単語列中の分数表現を判別し、一般の単語列は語間をあけず続けて記載し、単語列中の分数表現の単語は単語列を接着して逆順にする表示形態に変換する構成であることを特徴とする請求項１記載の発音系列認識装置。
発音系列として音声を入力する請求項１〜６の何れかに記載の発音系列認識装置。
語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する工程と、
入力された発音系列を単語列に変換する工程と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する工程を備えたことを特徴とする発音系列認識方法。
語間をあけることなく続けて記載する日本語文書の元来の表現と、単語間を分かち書きにする欧米語表現など日本語文書の元来の表現とは異なる特殊表現とが入り混じる発音系列を入力する機能と、
入力された発音系列を単語列に変換する機能と、
単語列を日本語文書の元来の表現部分と、特殊表現の部分に判別し、特殊表現部分の単語列はその表記に合致した表示形態に変換して出力し、日本語文書の元来の表現部分は、発声音の語間をあけることなく続けて書く表示形態に変換し出力する機能をコンピュータに実現させるための発音系列認識プログラム。