JP5596869B2

JP5596869B2 - 音声認識装置

Info

Publication number: JP5596869B2
Application number: JP2013532432A
Authority: JP
Inventors: 朋之熊井; 敏幸宮崎
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2011-09-09
Filing date: 2012-08-31
Publication date: 2014-09-24
Anticipated expiration: 2032-08-31
Also published as: EP2755202A1; WO2013035293A1; EP2755202B1; CN103827962B; EP2755202A4; JPWO2013035293A1; CN103827962A; US20140163987A1; US9437190B2

Description

本発明は、音声認識装置に関する。

物流・医療などの業務従事者にとっては、音声認識により、業務の効率化、業務のハンズフリー化を実現したいという要望がある。
特に、物流・医療などの業務においては、製品の型番やＩＤなど、アルファベットと数字とが混在するような文字列の入力を必要とするケースが多く、アルファベットや数字の音声認識精度が良く、且つ誤認識が少ないということは、音声認識による業務の効率化に大きく貢献する。
しかしながら、特にアルファベットは、発話した際に非常に短い上、発音が互いに近い文字も多く、正確に認識することは困難である。

例えば、「Ｃ」、「Ｅ」、「Ｔ」などは、発音のエネルギが強い部分の大部分が語尾の「イー」と伸ばす部分となり、人間でも聞き取りが困難である。
特に、倉庫や工場など雑音が存在する環境では、子音が雑音に紛れ、はっきりとしなくなるため認識がより困難なものとなる。
そのため、従来は、Ａ：alpha(アルファー)、Ｂ：bravo(ブラボー)、Ｃ:Charlie(チャーリー)などのように、アルファベット毎にその文字で始まる英単語を割り当て、その読みを音声認識装置に登録しておき、ユーザにはこれらの割り当てられた英単語を発話させることで英単語に対応するアルファベットを取得するという手段がとられていた。

また、あるアルファベット１文字と、アルファベット順がこのアルファベットに続くアルファベット１文字とを連続で発話させる方法も考案されている（例えば、特許文献１参照）。
この方式では、例えば「ＡＤＣ」の場合の読みは、「エービーディーイーシーディー」となる。
これは、アルファベット２文字の組み合わせとすることにより、発話の音響的特徴量が大きくなるということを利用して、アルファベット１文字の場合に比べて認識率を向上させることを狙いとしている。

特開平１１−１６７３９３号公報

しかしながら、アルファベット毎にその文字で始まる英単語を割り付ける方式は、発話者がアルファベット２６文字に対応する英単語を学習する必要がある。つまり、より速やかな音声入力を行うためには、アルファベット毎に対応する英単語を記憶しておく必要があり、記憶に時間を要するためトレーニングコストの増大に繋がる。
また、アルファベット毎にその文字で始まる英単語を割り付ける方式の場合には、発話者が発話時に常に次のアルファベットを連想し、これに対応する英単語を思い出しながら発話しなければならないという問題がある。

また、アルファベット１文字と、アルファベット順がこのアルファベットに続くアルファベット１文字とを連続で発話させる方式に従った場合、「ＡＤＣ」は「エービーディーイーシーディー」と読むことになるが、「エー」の次にそのまま「ディー」と発話してしまったり、あるいは、あるアルファベットに続けるべきアルファベットが咄嗟に出ずに言い淀んでしまったりするなど、誤発話が起こりやすい。

そのため、常に正しく入力させるためには、発話者がこれらの誤発話を起こさないように集中力を保つ必要があり、負担が大きい。
そこでこの発明は、音声認識の精度の向上に繋がり、かつ発話者にとって負担を小さくするのに好適な音声認識装置を提供することを目的としている。

本発明の一態様は、認識辞書と、当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める文字列であって、前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置である。

前記所定文字列は、日本語の文字列であり、その読みが３モーラ（ｍｏｒａ）以上であり且つその末尾の２モーラが「っと（ｔｔｏ）」となる文字列であってよい。
前記所定文字列は、英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であってよい。
前記所定文字列は、中国語の文字列であり、その読みが中国語声調で第３声に分類され且つ一音節となる文字列であってよい。
前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていてよい。
前記認識対象の文字は、アルファベットであってよい。

本発明の一態様によれば、所定文字列およびこれに続く認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、認識対象の文字とが対応付けられた認識データが認識辞書に登録されており、所定文字列として認識対象の文字の先頭音素の音声エネルギを高める文字列が設定される。ユーザが、認識対象の文字の前に、所定文字列を付加して発話することにより、認識対象の文字の音響的特徴量を抽出しやすくすることができ、その結果、認識対象の文字の認識率を向上させることができる。

また、所定文字列として、日本語の文字列であり、「ドット」、「アット」などの、日本語読みで３モーラ以上の単語であり且つその末尾の２モーラが「っと（ｔｔｏ）」である文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列として、英語の文字列であり且つ「dot」、「pub」、「pot」、「dub」といった、その文字列の英語読みが、子音、母音、子音の順で構成される文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。

また、所定文字列として、中国語の文字列であり且つ「点（ディエン）」、「簡（ジエン）」、「党(ダン)」といった、その文字列の中国語読みが中国語声調で第３声に分類され且つ一音節となる文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列を付加するだけでなく、認識対象の文字を連続させてなる連続文字列に対応する認識辞書を用いることによって、識別しにくい認識対象の文字どうしであっても、一方は認識対象の文字を連続させ音響的特徴量を抽出しやすくすることにより、識別しにくい文字どうしを識別しやすくすることができ、すなわち、認識率をより向上させることができる。

また、本発明の他の態様によれば、アルファベットに対して所定文字列を付加している。アルファベットは発話されたときの長さが短くまた互いに発音が近い文字も多いが、アルファベットに所定文字列を付加することにより、アルファベットの音響的特徴量をより抽出しやすくなり、認識率をより向上させることができる。

本発明における音声認識装置の一例を示す概略構成図である。中国語における各声調のパターンを示す図である。日本語を母国語とする日本人がアルファベット「Ｂ」を発話したときのスペクトログラムの一例である。日本語を母国語とする日本人がアルファベット「Ｂ」の前に「ドット」を付加して発話したときのスペクトログラムの一例である。図３のアルファベット「Ｂ」の先頭要素部分の拡大図である。図４のアルファベット「Ｂ」の先頭要素部分の拡大図である。英語を母国語とする北米出身者がアルファベット「Ｋ」を発話したときのスペクトログラムの一例である。英語を母国語とする北米出身者がアルファベット「Ｋ」の前に「パブ」を付加して発話したときのスペクトログラムの一例である。図７のアルファベット「Ｋ」の先頭要素部分の拡大図である。図８のアルファベット「Ｋ」の先頭要素部分の拡大図である。北京語を母国語とする中国出身者がアルファベット「Ｄ」を発話したときのスペクトログラムの一例である。北京語を母国語とする中国出身者がアルファベット「Ｄ」の前に「点（ディエン）」を付加して発話したときのスペクトログラムの一例である。図１１のアルファベット「Ｄ」の先頭要素部分の拡大図である。図１２のアルファベット「Ｄ」の先頭要素部分の拡大図である。アルファベット１文字を発話した場合の認識率の一例である。アルファベット１文字の前に「ドット」を付加して発話した場合の認識率の一例である。アルファベット２文字を連続発話した場合の認識率の一例である。各アルファベットの前に「ドット」を付加してアルファベット２文字を連続発話した場合の認識率の一例である。英語を母国語とする北米出身者１名が、アルファベット１文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「「パブ」を付加して発話した場合の第一から第五候補の認識率を表した図である。英語を母国語とする北米出身者１名が、アルファベット２文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「パブ」を付加して発話した場合の第一から第五候補の認識率を表した図である。北京語を母国語とする中国出身者１名が、アルファベット１文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点（ディエン）」を付加して発話した場合の第一から第五候補の認識率を表した図である。北京語を母国語とする中国出身者１名が、アルファベット２文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点（ディエン）」を付加して発話した場合の第一から第五候補の認識率を表した図である。音声認識時の音声認識装置の処理手順の一例を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を説明する。
図１は、本発明の一実施形態を示す、音声認識装置１００の一例を示す概略構成図である。
この音声認識装置１００は、例えばパーソナルコンピュータで構成され、ユーザ情報処理部１と、音声認識器２と、音声入力装置３と、認識結果出力装置４と、を備える。

ユーザ情報処理部１は、ユーザ情報入力装置１１と、ユーザ情報処理実行部１２と、アルファベット発話方式データベース１３と、を備える。
ユーザ情報入力装置１１は、音声認識装置１００へのログイン操作、またユーザ情報などを入力するための装置であって、例えばキーボードなどで構成される。前記ユーザ情報とは、音声認識を行うユーザを特定する情報であって、例えばユーザＩＤを含む。

ユーザ情報処理実行部１２は、ユーザ情報入力装置１１からユーザ情報を入力し、ユーザ情報に対応する各種情報を、アルファベット発話方式データベース１３から読み出す。ここでアルファベット発話方式データベース１３には、ユーザＩＤごとに、当該ユーザＩＤで特定されるユーザが、アルファベットをどのような入力方式で入力するかを表すアルファベット入力方式情報が格納されている。このアルファベット入力方式情報については後述する。

ユーザ情報処理実行部１２は、ユーザ情報入力装置１１から入力したユーザ情報に対応するアルファベット入力方式情報を、アルファベット発話方式データベース１３から読み出し、これを音声認識器２の後述の音声照合処理実行部２１に出力する。
音声認識器２は、音声照合処理実行部２１と、音響モデルデータベース２２と、単語辞書データベース２３と、言語モデルデータベース２４と、を備える。

音声照合処理実行部２１は、音声入力装置３から音声データを入力し、音響モデルデータベース２２、単語辞書データベース２３、および言語モデルデータベース２４に格納された音響モデル、単語辞書および言語モデルに基づき、入力された音声データに対して音声認識を行い、その結果を、認識結果出力装置４に出力する。
ここで、単語辞書データベース２３には、単語辞書として、任意の単語を表す文字列とこれに対応する音響モデルの時系列の特徴量とが対応付けられて格納されている。さらに、アルファベット列からなる単語、またアルファベットを含む単語については、アルファベット毎にその前に予め設定した単語、例えば「ドット」が付加された単語を表す音響モデルの時系列の特徴量が対応付けられて格納されている。

例えば、単語「ＡＤＣ」の場合には、「ドットエードットディードットシー」に対応する音響モデルの時系列の特徴量と、単語「ＡＤＣ」とが対応付けられて格納されている。なお、ここでいうアルファベット列とは英単語ではなく、アルファベット毎に発話されて一つの単語を表すアルファベットの並びのことをいう。

さらに、例えば「Ｎ」については「ドットエヌエヌ」、「Ｐ」については「ドットピーピー」に対応する音響モデルの特徴量が対応付けられて格納されている。例えば、単語「ＰＭ」の場合には「ドットピーピードットエム」に対応する音響モデルの時系列の特徴量と、単語「ＰＭ」とが対応付けられて格納されている。なお、これらアルファベットの前に付加する単語の種類や、アルファベット「Ｎ」および「Ｐ」に関する特徴量の設定方法は、音声認識装置１００を利用する各ユーザのアルファベット入力方式情報に対応して設定されている。

音声入力装置３はマイクロフォンなどの集音装置で構成される。この音声入力装置３は、発声音声をその音声に対応するアナログの電気信号に変換し、この電気信号を図示しないＡ／Ｄ変換器でデジタル信号に変換しこれを音声データとして音声認識器２に出力する。
認識結果出力装置４は例えば表示装置で構成され、音声認識器２での音声認識された結果、すなわち入力された音声データに対応する文字列を表示する。

次に、本音声認識装置１００における、アルファベット入力方法および認識方法の原理を説明する。
本音声認識装置１００では、アルファベットを入力する際には、各アルファベットの前に予め設定した単語を付加して入力する。この付加する単語としては、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語が設定される。

このような単語として、日本語の文字列であり日本語読みで３モーラ以上の単語であり、且つその末尾２モーラに、促音「っと（ｔｔｏ）」をもつ単語が設定される。
この他、英語の文字列であり英語読みで子音、母音、子音の順で構成される単語や、中国語の文字列でありその読みが中国語声調で第３声に分類され且つ一音節となる単語が設定される。

（モーラについての説明）
モーラ（ｍｏｒａ）とは音の文節単位であり、その語句を何拍で読むかを表すものである。例えば日本語読みで、「なす」は２モーラ、「かぼちゃ」は３モーラ、「らっかせい」は５モーラとなる。

（中国語声調についての説明）
中国語などのいわゆる声調言語は、声調（Tone）を用いて言葉の意味を区別する。例えば、図２に示すように、中国語には基本的に４つの声調（第１声〜第４声：Tone1〜Tone4）が存在する。なお、図２の横軸は規格化した時間であり、縦軸は入力された音声から抽出される基本周波数（f０）である。中国語の「０〜９」の数字は、「１、３、７、８」は第１声（Tone1）、「０」は第２声（Tone2）、「５、９」は第３声（Tone3）、「０、２、４、６」は第４声（Tone4）に分類される。

第３声は他の声調に比べ基本周波数（f０）が低く、また発声直後に基本周波数（f０）が下降し、その後上昇するといった特徴がある。
前述のようにアルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な、各アルファベットに対して共通に付加する単語として、具体的には、「ドット」、「アット」、「アルファベット」、「パブ」、「ポット」、また、中国語読みで「点（ディエン）」、「簡（ジエン）」、「党(ダン)」などを適用することが可能である。

例えば各アルファベットに共通して付加する単語として「ドット」を採用した場合、「ＡＤＣ」は、「ドットエードットディードットシー」と読む。
通常、「ドット」など、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語をアルファベットの前に付加した場合、まずアルファベットの前に付加された「ット」の部分が強く発話され、その勢いを保ちながら「ット」に続くアルファベットの先頭音素も強く発話されやすくなる。

「パブ」、「ポット」、中国語読みの「点（ディエン）」などの単語をアルファベットの前に付加した場合も、同様に、付加した単語の語尾が強く発話され、その勢いを保ちながらそれに続くアルファベットの先頭音素が強く発話されやすくなる。
このアルファベットの先頭音素は、各アルファベットを音響的に区別するのに有効な部分であり、その部分が強くはっきり発話されることは、音響的特徴量が抽出されやすくなることに繋がる。そのため、このような単語をアルファベットの前に付加して発話することはアルファベットの認識率の向上に繋がる。

ここで、アルファベットの発話が連続する場合、アルファベットから次のアルファベットへ移る部分の発話が変形しやすかったり、はっきりと発話しにくくなったりする場合がある。
例えば「ＮＨＫ（登録商標）」や「ＳＩ」はそれぞれ本来の読み方は「エヌエイチケー」や「エスアイ」であるが、実際の発話では「エネーチケー」「エサイ」などという発音に近くなりやすい。

また、例えば「ＡＭ」は本来の読み方は「エーエム」であるが、実際には「Ｍ」の先頭の「エ」が発話しにくく、発音は「エー」の部分を長めに伸ばした「エーム」に近くなりやすい。
これらのいわゆる崩れたアルファベット発話と言うのは、音声認識器２で用いられる音響モデルで学習されている、通常のアルファベットの発音とは異なるため、認識ミスを発生させる要因となる。

本実施形態では、各アルファベットの前に共通の単語を付加して発話することで、アルファベットの発話が連続することはなくなる。そのため、アルファベット毎に発話が行われやすくなる。
すなわち、音響モデルで学習されているアルファベットの発音に近くなるため、アルファベットの認識率の向上に繋がる。

図３は、日本語を母国語とする日本人が、アルファベット「Ｂ」を、その前に何も付加せずに「ビー」と発話した場合のスペクトログラムである。また、図４は、図３と同じ人物が、アルファベット「Ｂ」の前に「ドット」を付加し、「ドットビー」と発話した場合のスペクトログラムである。図３および図４ともに、横軸は時間を表し縦軸は周波数を表す。また、明るさが強さを表す。
図３および図４において、点線で囲まれた領域は「Ｂ」の子音部分を表す。この点線で囲まれた領域を拡大したのが図５および図６であって、図５は、図３の点線で囲まれた部分を拡大したもの、図６は、図４の点線で囲まれた領域を拡大したものである。

図３および図４の点線で囲まれた部分、つまり「Ｂ」の子音部分を比較すると、図５および図６から明らかなように、図６の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、日本語の文字列でありその読みが３モーラ以上であり且つ末尾が「っと」で終わるような単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。

図７は、英語を母国語とする北米出身者が、アルファベット「Ｋ」を、その前に何も付加せずに「ケー」と発話した場合のスペクトログラムである。また、図８は、図７と同じ人物が、アルファベット「Ｋ」の前に「pub（パブ）」を付加し、「パブケー」と発話した場合のスペクトログラムである。図７および図８ともに、横軸は時間を表し縦軸は周波数を表す。また、明るさが強さを表す。

図７および図８において、点線で囲まれた領域は「Ｋ」の子音部分を表す。この点線で囲まれた領域を拡大したのが図９および図１０であって、図９は、図７の点線で囲まれた部分を拡大したもの、図１０は、図８の点線で囲まれた領域を拡大したものである。
図７および図８の点線で囲まれた部分、つまり「Ｋ」の子音部分を比較すると、図９および図１０から明らかなように、図１０の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、その読みが子音、母音、子音の順で構成される単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。

図１１は、北京語を母国語とする中国出身者が、アルファベット「Ｄ」を、その前に何も付加せずに「ディー」と発話した場合のスペクトログラムである。また、図１２は、図１１と同じ人物が、アルファベット「Ｄ」の前に「点（ディエン）」を付加し、「ディエンディー」と発話した場合のスペクトログラムである。図１１および図１２ともに、横軸は時間を表し縦軸は周波数を表す。また、明るさが強さを表す。
図１１および図１２において、点線で囲まれた領域は「Ｄ」の子音部分を表す。この点線で囲まれた領域を拡大したのが図１３および図１４であって、図１３は、図１１の点線で囲まれた部分を拡大したもの、図１４は、図１２の点線で囲まれた領域を拡大したものである。

図１１および図１２の点線で囲まれた部分、つまり「Ｄ」の子音部分を比較すると、図１３および図１４から明らかなように、図１４の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、その読みが中国語声調で第３声に分類され且つ一音節となる単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。

また、図１５から図１８は、日本語を母国語とする話者が、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に「ドット」を付加して発話した場合とで、音声認識率を比較したものである。
図１５および図１６は、日本語を母国語とする成人男性５名、成人女性５名、計１０名を被験者とし、アルファベット１文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。ここで、第Ｎ候補の認識率とは、音声認識結果の第Ｎ候補までに正解のアルファベットが含まれている確率を表す。

アルファベット１文字だけの場合でも、アルファベットの前に何も付加せずに発話した場合に比べ、アルファベットの前に「ドット」を付加して発話するほうが、認識率が向上していることが分かる。
同様に、図１７および図１８は日本語を母国語とする成人男性３名を被験者とし、アルファベット２文字を、アルファベットの前に何も付加せずに発話した場合とアルファベット毎にその前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。

図１５および図１６に示すように、アルファベット１文字の場合、アルファベットの前に「ドット」を付加しない場合の平均認識率は、第一候補の場合９１．１５％、第二候補の場合が９６．５４％であるのに対し、アルファベットの前に「ドット」を付加した場合の平均認識率は、第一候補の場合９３．８５％、第二候補の場合が９９．６２％であって、認識率が約２〜３％改善されている。

これに対し、図１７および図１８に示すように、アルファベット２文字の場合、アルファベットの前に「ドット」を付加しない場合の平均認識率は、第一候補の場合７７．３３％、第二候補の場合９０．３３％であるのに対し、各アルファベットの前に「ドット」を付加した場合の平均認識率は、第一候補の場合８８．６７％、第二候補の場合９７．６７％であって、認識率が約７〜１１％改善されている。

つまり、アルファベット２文字の認識の場合、アルファベット毎にその前に「ドット」を付加して発話することによる音声認識率の改善がアルファベット１文字の認識を行う場合に比べて大きい。
すなわち、アルファベットが連続するような発話の場合、アルファベット毎にその前に「ドット」を付加して発話することで、認識率の向上に対してより効果があることがわかる。

これは、アルファベット毎にその前に「ドット」を付加して発話することは、アルファベットの前に何も付加せず発話する場合に比べ、各アルファベットの先頭音素をはっきり発話しやすくなる他、アルファベット間が「ドット」という単語で区切られることにより、アルファベットの発話が連続することがなくなるため、アルファベット部分が崩れた発話になりにくいことが理由として挙げられる。

そして、この方式の場合、全てのアルファベット英文字の前に共通した単語（例えば、「ドット」）を付加して発話するだけであるため、発話者にとって入力方式を理解し記憶することが容易である。
特に、「ドット」や「アット」を共通に付加する単語とした場合、短い単語である上、それぞれ「．」や「＠」という日常でもよく見かける記号を連想しやすいため、特に記憶、および単語への付加の実施が容易である。

図１９、図２０は、英語を母国語とする北米出身者１名を被験者とし、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に「パブ」を付加して発話した場合とで、音声認識率を比較したものである。
図１９は、アルファベット１文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「「パブ」を付加して発話した場合の第一から第五候補の認識率を表したものである。

図２０は図１９と同じ被験者で、アルファベット２文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「パブ」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図２１および図２２は、北京語を母国語とする中国出身者１名を被験者とし、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に中国語読みで「点（ディエン）」を付加して発話した場合とで、音声認識率を比較したものである。

図２１は、アルファベット１文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点（ディエン）」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図２２は、図２１と同じ被験者で、アルファベット２文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点（ディエン）」を付加して発話した場合の第一から第五候補の認識率を表したものである。

図１９〜図２２から明らかなように、アルファベットの前に「パブ」、「点（ディエン）」等の、読みが子音、母音、子音の順で構成される文字列、読みが中国語声調で第３声に分類され且つ一音節となる文字列を付加すると、認識率が向上することがわかる。
これはアルファベット毎にその前に「ドット」を付加して発話したときと同様に、アルファベットの前に何も付加せず発話する場合に比べて、「パブ」、「点（ディエン）」等の文字列を付加した方が各アルファベットの先頭音素をはっきり発話しやすくなる他、アルファベット間が上記文字列で区切られることにより、アルファベットの発話が連続することがなくなるため、アルファベット部分が崩れた発話になりにくいことが理由として挙げられる。

さらに、本実施形態では、共通する単語を各アルファベットに付加するとともに、さらにアルファベット部分を１回発話するか、２回発話するか、を各アルファベットについて個別に設定することを可能としている。
例えばアルファベットの「Ｍ」および「Ｎ」は、その発音に違いがある部分は先頭ではなく２モーラ目であり、かつ「エム」の「ム」と「エヌ」の「ヌ」とはどちらも鼻音であるため識別が難しい。

このような識別が難しいアルファベットの組に対しては、片方はアルファベット部分を１回読む、もう片方はアルファベットを２回読むというように設定すれば(例えば「Ｍ」は「ドットエム」とし「Ｎ」は「ドットエヌエヌ」とする等)、発話時間長に明確な違いが生まれるため、互いのアルファベットの識別が容易になる。
また、本実施形態では、各アルファベットについて、共通して付加する単語に続いて、アルファベットを１回のみ発話するかアルファベットを２回発話するかを、個人毎に設定可能としている。

つまり、共通して付加する単語に続いて、アルファベットを１回のみ発話するか、アルファベットを２回発話するかで、どちらが認識しやすいかということは、個人毎、あるいはアルファベット毎に異なることが予想される。なお、共通して付加する単語に続いてアルファベットを１回のみ発話する方式により十分な認識精度が得られるのであれば、実用上はその方が望ましい。
そこで、共通して付加する単語に続いて、アルファベットを１回のみ発話するか、２回発話するかについての情報（以下、アルファベット入力方式情報という）をユーザごとにアルファベット発話方式データベース１３に保持している。

例えば、特に互いに認識誤りを起こしやすいとされるアルファベットについて、アルファベットを１回読む場合と２回続けて読む場合とで、どちらの読み方の方が音声認識装置１００において認識しやすいかを事前に個人毎にテストしておく。そして、テストした結果を元に、各アルファベットについて、共通して付加する単語に続いてアルファベットを１回のみ発話するかアルファベットを２回発話するかについての情報を、アルファベット発話方式データベース１３に登録する。

例えばユーザＡの場合には、識別が困難なアルファベットの組「ＭとＮ」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば「Ｍ」は１回、「Ｎ」は２回として設定する。また、識別が困難なアルファベットの組「ＢとＰ」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば、「Ｂ」は１回、「Ｐ」は２回として設定する。

同様にして、例えばユーザＢの場合には、アルファベットの組「ＭとＮ」について、例えば「Ｍ」は２回、「Ｎ」は１回として設定し、アルファベットの組「ＢとＰ」について、例えば、「Ｂ」は２回、「Ｐ」は１回として設定する。そして、これら情報をアルファベット入力方式情報としてユーザＩＤと対応付けて、アルファベット発話方式データベース１３に格納しておく。

そして、音声認識装置１００へのログイン時など、ユーザ情報入力装置１１においてユーザ情報が入力された時点で、このユーザ情報に含まれるユーザＩＤに基づき、アルファベット発話方式データベース１３から、このユーザＩＤに対応する、アルファベット入力方式情報を獲得し、獲得したアルファベット入力方式情報を、音声認識器２の音声照合処理実行部２１に出力する。
そして、音声照合処理実行部２１では、ユーザ情報処理実行部１２から入力されたアルファベット入力方式情報に基づき音声認識を行う。
これにより、音声認識装置１００のユーザ毎に、最適な設定で音声認識を行うことが可能となる。

次に、上記実施の形態の動作を図２３のフローチャートを伴って説明する。
図２３は、音声認識を行う場合の、音声認識装置１００の一連の動作の一例を示したものである。
ユーザＡは、まず、ユーザ情報入力装置１１を操作してユーザ情報を入力し、ログイン操作を行う。
ユーザ情報が入力されるとユーザ情報入力装置１１はユーザ情報を読み込み、これをユーザ情報処理実行部１２に出力する（ステップＳ１）。
ユーザ情報処理実行部１２は、ユーザ情報に含まれるユーザＩＤに対応するアルファベット入力方式情報を、アルファベット発話方式データベース１３から読み出し、音声照合処理実行部２１に出力する（ステップＳ２）。

ユーザＡが、音声入力装置３に対して認識対象のアルファベット列を発話する。
このとき、ユーザＡは、予めユーザＡのアルファベット入力方式情報として設定された入力方式により発話する。例えば、前述のように、識別が困難なアルファベットの組「ＭとＮ」については、ユーザＡの場合、アルファベット入力方式情報として、付加した単語「ドット」に続くアルファベットを読む回数として、例えば「Ｍ」は１回、「Ｎ」は２回として定められており、また、アルファベットの組「ＢとＰ」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば、「Ｂ」は１回、「Ｐ」は２回として設定として定められているものとする。

今、ユーザＡがアルファベット列として、例えば「ＰＡＭ」を入力するものとする。ユーザＡは、このユーザＡのアルファベット入力方式情報として設定された入力方式にしたがって、「ドットピーピードットエードットエム」と発話する。
ユーザＡの発声音声は、音声入力装置３で集音され所定の処理が行われた後、デジタル信号からなる音声データに変換され、音声照合処理実行部２１に入力される（ステップＳ３、Ｓ４）。

そして、音声照合処理実行部２１では、音響モデル、単語辞書、言語モデルをもとに、入力された音声データに対して音声認識処理を実行する（ステップＳ５）。
ここで、単語辞書データベース２３には、アルファベット列からなる単語またはアルファベット列を含む単語については、音声認識装置１００を使用するユーザのアルファベット入力方式情報に対応した、単語辞書が登録されている。

音声照合処理実行部２１では、ユーザ情報処理実行部１２から入力したアルファベット入力方式情報に対応した単語辞書を用いて音声認識処理を実行する。
つまり、単語辞書データベース２３には、各ユーザのアルファベット入力方式情報に対応した単語辞書が設定されている。なお、この単語辞書の設定は、認識させたい単語と、この単語の読みを表す音声データの特徴量とを対応付けた単語辞書の生成を行う公知の単語辞書生成装置を用いて行えばよい。

例えば、前述のユーザＡおよびユーザＢが利用者である場合には、前述のように、ユーザＡとユーザＢとでは、「Ｍ」、「Ｎ」、「Ｐ」、「Ｂ」について発話を繰り返す回数が異なる。そのため、アルファベット毎にその前に予め設定した単語、例えば「ドット」を付加した登録対象の単語を表す音響モデルの時系列の特徴量が対応付けられて格納されている。

このとき、「Ｍ」の音声データについては「ドットエムエム」、「Ｎ」の音声データについては「ドットエヌエヌ」、「Ｂ」の音声データについては「ドットビービー」、「Ｐ」の音声データについては「ドットピーピー」を表す音声データとして、これに対応する音響モデルの特徴量が対応付けられて格納されている。
つまり、例えば、単語「ＰＡＭ」には、ユーザＡのアルファベット入力方式に対応した「ドットピーピードットエードットエム」とユーザＢのアルファベット入力方式に対応した「ドットピードットエードットエムエム」とが対応付けられて格納されている。

また、単語「ＮＢ」には、「ドットエヌエヌドットビー」と「ドットエヌドットビービー」とが対応付けられて格納されている。
そして、ユーザＡの場合、前述のようにアルファベット入力方式情報として、「Ｍ」は１回、「Ｎ」は２回、「Ｂ」は１回、「Ｐ」は２回として設定されている。そのため、ユーザＡのアルファベット入力方式に対応した、単語「ＰＡＭ」と「ドットピーピードットエードットエム」とが対応付けられた単語辞書を参照して音声認識が行われる。

したがって、「ドットピーピードットエードットエム」を表す音声データは、ユーザＡのアルファベット入力方式情報に対応する単語辞書を参照することにより、「ＰＡＭ」として認識され、これが認識結果として、認識結果出力装置４に出力されて表示される（ステップＳ６）。
一方、ユーザＢの場合には、アルファベット入力方式情報として、「Ｍ」は２回、「Ｎ」は１回として設定され、「Ｂ」は２回、「Ｐ」は１回として設定されているため、単語「ＰＡＭ」を音声入力する場合、ユーザＢは、「ドットピードットエードットエムエム」と発話する。

音声照合処理実行部２１では、ユーザＢのアルファベット入力方式情報に対応する単語辞書を用いて音声認識を行うため、単語「ＰＡＭ」と「ドットピードットエードットエムエム」とが対応付けられた単語辞書を参照して音声認識が行われる。
したがって、「ドットピードットエードットエムエム」を表す音声データは、ユーザＢのアルファベット入力方式情報に対応する単語辞書を参照することにより、「ＰＡＭ」として認識される。

ここで、前述のようにアルファベット列を音声入力する場合、「ＰＡＭ」のうち、「ＡＭ」の部分は、「エーム」と発話されやすい。また、「Ｐ」と「Ｂ」も識別しにくい。
しかしながら、ユーザＡは、「ＰＡＭ」と発話する際に、アルファベット毎にその前に「ドット」を付加し、且つ、「Ｐ」については、「ピー」を２回繰り返して「ドットピーピー」と発話している。

このため、アルファベット「Ｐ」、「Ａ」、「Ｍ」間が「ドット」という単語で区切られることになり、その結果、「ＡＭ」の部分が「エーム」と発話されにくくなり、また、各アルファベットの先頭要素がはっきり発話されやすい。そのため、音声データに「Ｍ」の音響的特徴量が現れやすくなる。したがって、認識率を向上させることができる。
また、ユーザは、アルファベットの前に「ドット」を付加する必要があるが、各アルファベットに対して共通の単語である「ドット」を付加しており、比較的発話しやすいため、付加する単語を間違えたり、言い淀んだりすることを抑制することができる。

また、アルファベット入力方式情報を、ユーザ毎に設定しており、ユーザＡは、このユーザＡが発話した音声データに基づき音声認識を行ったときに、ある程度の認識率を確保することのできる入力方式を用いて発話することになる。そのため、ユーザＡの発話特性を考慮して音声認識を行うことによって、認識率をより向上させることができる。
なお、上記実施の形態においては、アルファベットの前に付加する単語として「ドット」を用いた場合について説明したが、これに限るものではない。

前述のように、「アット」や「アルファベット」を付加する構成としてもよい。また、アルファベットの前に付加する単語による認識率の差を考慮し、付加すべき単語として、予めユーザ毎に、認識率のよい単語を検出しておくことで、ユーザ毎に異なる単語を付加するようにしてもよい。

つまり、ユーザによって、発話に癖などがあるため、「ドット」や「アット」など以外に、アルファベットの先頭音素の音声エネルギを高くするような単語が存在することが考えられる。したがって、ユーザ毎に自身の発話特性に適した、アルファベットの先頭音素の音声エネルギを高くするような単語を付加するようにしてもよい。
この場合には、ユーザ毎のアルファベット入力方式情報に、アルファベットの前に付加する単語としてどの単語を付加するかの情報も含めるように構成すればよい。

また、発声音声には個人差があり、ユーザによってはアルファベットの前に単語を付加しなくても十分な認識率を得ることができる可能性がある。
したがって、アルファベットの前に単語を付加するか否かもアルファベット入力方式情報として含めることによって、アルファベットの前に単語を付加する必要がないユーザの場合には、単語を付加しなくても音声認識を行うことの可能な構成とすることもできる。
また、上記実施の形態においては、全てのアルファベットの前に、単語を付加する場合について説明したが、必ずしも全てのアルファベットの前に付加する必要はなく、「Ｍ」、「Ｎ」、「Ｐ」、「Ｂ」などの認識しにくいアルファベットのみの前に単語を付加する構成としてもよい。

また、上記実施の形態においては、アルファベット列を単語辞書に登録する際に、各アルファベットの前に「ドット」を付加した単語を表す音響モデルの特徴量と、アルファベット列とを対応付けて、単語辞書に登録する場合について説明したがこれに限るものではない。
例えば、「ドット」を付加したアルファベットの単位で、単語辞書に登録してもよい。つまり、「ドットエム」、「ドットビー」の単位で単語辞書に登録するようにしてもよい。

また、上記実施の形態においては、認識辞書に、アルファベットと、アルファベットの先頭音素の音声エネルギを高める文字列およびこれに続くアルファベットからなる連続文字列の読みを表す音声データに関する情報を対応付けて登録する場合を中心に説明した。しかしながら、認識対象の文字はアルファベットに限定されるものではなく、平仮名、カタカナ、特に限定はなく、また、認識対象の文字数に限定は無い。

すなわち、上記実施の形態においては、アルファベットのみからなるアルファベット列において、各アルファベットに単語を付加する場合について説明したが、例えば、アルファベットと数字、アルファベットとひらがな／カタカナ、など、アルファベットと他の文字とが混合した文字列であっても適用することができる。この場合には、アルファベットについてのみ単語を付加する構成としてもよく、また、文字列全てについて単語を付加する構成としてもよい。
また、アルファベットを含まない文字列であっても適用することができ、この場合、アルファベット列からなる文字列について音声認識を行う場合と同等の作用効果を得ることができる。

また、上記実施の形態においては、図１に示すように、ユーザ情報処理部１と、音声認識器２とを１つの装置に組み込み、音声認識装置１００を構成した場合について説明したが、これに限るものではない。例えば、ユーザ情報処理部１と音声認識器２とは別々の装置に組み込まれていてもよく、この場合には、ユーザ情報処理部１と音声認識器２とを通信回線などで接続すればよい。

また、上記実施の形態においては、「ＭとＮ」、「ＢとＰ」など識別しにくいアルファベットについては、一方を２回繰り返す場合について説明したが、これに限るものではない。例えば、２回繰り返す代わりに発話しやすい文字、あるいは単語を、アルファベットの後に付加するようにしてもよい。また、アルファベットの前に付加する単語として「ドット」を付加する代わりに、一方は別の単語、例えば「アット」を付加するようにしてもよい。要は、識別しにくいアルファベット間で、音響的特徴量を十分得ることができるような単語あるいは文字を付加するようにすればよい。
なお、上記実施の形態において、単語辞書データベース２３に格納されている単語辞書が認識辞書に対応し、音声照合処理実行部２１が音声認識処理部に対応し、「ドット」が所定文字列に対応している。

１ユーザ情報処理部
２音声認識器
３音声入力装置
４認識結果出力装置
１１ユーザ情報入力装置
１２ユーザ情報処理実行部
１３アルファベット発話方式データベース
２１音声照合処理実行部
２２音響モデルデータベース
２３単語辞書データベース
２４言語モデルデータベース
１００音声認識装置

Claims

認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める日本語の文字列であり、その読みが３モーラ以上であり且つその末尾の２モーラが「っと（ｔｔｏ）」となる文字列であって、
前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。
認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であって、
前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。
認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める中国語の文字列であり、その読みが中国語声調で第３声に分類され且つ一音節となる文字列であって、
前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。
前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていることを特徴とする請求項１から請求項３のいずれか１項に記載の音声認識装置。
前記認識対象の文字は、アルファベットであることを特徴とする請求項１から請求項４のいずれか１項に記載の音声認識装置。