JP5596869B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP5596869B2 JP5596869B2 JP2013532432A JP2013532432A JP5596869B2 JP 5596869 B2 JP5596869 B2 JP 5596869B2 JP 2013532432 A JP2013532432 A JP 2013532432A JP 2013532432 A JP2013532432 A JP 2013532432A JP 5596869 B2 JP5596869 B2 JP 5596869B2
- Authority
- JP
- Japan
- Prior art keywords
- alphabet
- recognition
- character
- speech
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 description 55
- 230000010365 information processing Effects 0.000 description 14
- RPNUMPOLZDHAAY-UHFFFAOYSA-N Diethylenetriamine Chemical compound NCCNCCN RPNUMPOLZDHAAY-UHFFFAOYSA-N 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000000832 Ayote Nutrition 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 240000001980 Cucurbita pepo Species 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- BJAJDJDODCWPNS-UHFFFAOYSA-N dotp Chemical compound O=C1N2CCOC2=NC2=C1SC=C2 BJAJDJDODCWPNS-UHFFFAOYSA-N 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
特に、物流・医療などの業務においては、製品の型番やIDなど、アルファベットと数字とが混在するような文字列の入力を必要とするケースが多く、アルファベットや数字の音声認識精度が良く、且つ誤認識が少ないということは、音声認識による業務の効率化に大きく貢献する。
しかしながら、特にアルファベットは、発話した際に非常に短い上、発音が互いに近い文字も多く、正確に認識することは困難である。
特に、倉庫や工場など雑音が存在する環境では、子音が雑音に紛れ、はっきりとしなくなるため認識がより困難なものとなる。
そのため、従来は、A:alpha(アルファー)、B:bravo(ブラボー)、C:Charlie(チャーリー)などのように、アルファベット毎にその文字で始まる英単語を割り当て、その読みを音声認識装置に登録しておき、ユーザにはこれらの割り当てられた英単語を発話させることで英単語に対応するアルファベットを取得するという手段がとられていた。
この方式では、例えば「ADC」の場合の読みは、「エービー ディーイー シーディー」となる。
これは、アルファベット2文字の組み合わせとすることにより、発話の音響的特徴量が大きくなるということを利用して、アルファベット1文字の場合に比べて認識率を向上させることを狙いとしている。
また、アルファベット毎にその文字で始まる英単語を割り付ける方式の場合には、発話者が発話時に常に次のアルファベットを連想し、これに対応する英単語を思い出しながら発話しなければならないという問題がある。
そこでこの発明は、音声認識の精度の向上に繋がり、かつ発話者にとって負担を小さくするのに好適な音声認識装置を提供することを目的としている。
前記所定文字列は、英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であってよい。
前記所定文字列は、中国語の文字列であり、その読みが中国語声調で第3声に分類され且つ一音節となる文字列であってよい。
前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていてよい。
前記認識対象の文字は、アルファベットであってよい。
また、所定文字列として、英語の文字列であり且つ「dot」、「pub」、「pot」、「dub」といった、その文字列の英語読みが、子音、母音、子音の順で構成される文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列を付加するだけでなく、認識対象の文字を連続させてなる連続文字列に対応する認識辞書を用いることによって、識別しにくい認識対象の文字どうしであっても、一方は認識対象の文字を連続させ音響的特徴量を抽出しやすくすることにより、識別しにくい文字どうしを識別しやすくすることができ、すなわち、認識率をより向上させることができる。
図1は、本発明の一実施形態を示す、音声認識装置100の一例を示す概略構成図である。
この音声認識装置100は、例えばパーソナルコンピュータで構成され、ユーザ情報処理部1と、音声認識器2と、音声入力装置3と、認識結果出力装置4と、を備える。
ユーザ情報入力装置11は、音声認識装置100へのログイン操作、またユーザ情報などを入力するための装置であって、例えばキーボードなどで構成される。前記ユーザ情報とは、音声認識を行うユーザを特定する情報であって、例えばユーザIDを含む。
音声認識器2は、音声照合処理実行部21と、音響モデルデータベース22と、単語辞書データベース23と、言語モデルデータベース24と、を備える。
ここで、単語辞書データベース23には、単語辞書として、任意の単語を表す文字列とこれに対応する音響モデルの時系列の特徴量とが対応付けられて格納されている。さらに、アルファベット列からなる単語、またアルファベットを含む単語については、アルファベット毎にその前に予め設定した単語、例えば「ドット」が付加された単語を表す音響モデルの時系列の特徴量が対応付けられて格納されている。
認識結果出力装置4は例えば表示装置で構成され、音声認識器2での音声認識された結果、すなわち入力された音声データに対応する文字列を表示する。
本音声認識装置100では、アルファベットを入力する際には、各アルファベットの前に予め設定した単語を付加して入力する。この付加する単語としては、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語が設定される。
この他、英語の文字列であり英語読みで子音、母音、子音の順で構成される単語や、中国語の文字列でありその読みが中国語声調で第3声に分類され且つ一音節となる単語が設定される。
モーラ(mora)とは音の文節単位であり、その語句を何拍で読むかを表すものである。例えば日本語読みで、「なす」は2モーラ、「かぼちゃ」は3モーラ、「らっかせい」は5モーラとなる。
中国語などのいわゆる声調言語は、声調(Tone)を用いて言葉の意味を区別する。例えば、図2に示すように、中国語には基本的に4つの声調(第1声〜第4声:Tone1〜Tone4)が存在する。なお、図2の横軸は規格化した時間であり、縦軸は入力された音声から抽出される基本周波数(f0)である。中国語の「0〜9」の数字は、「1、3、7、8」は第1声(Tone1)、「0」は第2声(Tone2)、「5、9」は第3声(Tone3)、「0、2、4、6」は第4声(Tone4)に分類される。
前述のようにアルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な、各アルファベットに対して共通に付加する単語として、具体的には、「ドット」、「アット」、「アルファベット」、「パブ」、「ポット」、また、中国語読みで「点(ディエン)」、「簡(ジエン)」、「党(ダン)」などを適用することが可能である。
通常、「ドット」など、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語をアルファベットの前に付加した場合、まずアルファベットの前に付加された「ット」の部分が強く発話され、その勢いを保ちながら「ット」に続くアルファベットの先頭音素も強く発話されやすくなる。
このアルファベットの先頭音素は、各アルファベットを音響的に区別するのに有効な部分であり、その部分が強くはっきり発話されることは、音響的特徴量が抽出されやすくなることに繋がる。そのため、このような単語をアルファベットの前に付加して発話することはアルファベットの認識率の向上に繋がる。
例えば「NHK(登録商標)」や「SI」はそれぞれ本来の読み方は「エヌエイチケー」や「エスアイ」であるが、実際の発話では「エネーチケー」「エサイ」などという発音に近くなりやすい。
これらのいわゆる崩れたアルファベット発話と言うのは、音声認識器2で用いられる音響モデルで学習されている、通常のアルファベットの発音とは異なるため、認識ミスを発生させる要因となる。
すなわち、音響モデルで学習されているアルファベットの発音に近くなるため、アルファベットの認識率の向上に繋がる。
図3および図4において、点線で囲まれた領域は「B」の子音部分を表す。この点線で囲まれた領域を拡大したのが図5および図6であって、図5は、図3の点線で囲まれた部分を拡大したもの、図6は、図4の点線で囲まれた領域を拡大したものである。
このことより、アルファベットの前に、日本語の文字列でありその読みが3モーラ以上であり且つ末尾が「っと」で終わるような単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図7および図8の点線で囲まれた部分、つまり「K」の子音部分を比較すると、図9および図10から明らかなように、図10の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、その読みが子音、母音、子音の順で構成される単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図11および図12において、点線で囲まれた領域は「D」の子音部分を表す。この点線で囲まれた領域を拡大したのが図13および図14であって、図13は、図11の点線で囲まれた部分を拡大したもの、図14は、図12の点線で囲まれた領域を拡大したものである。
このことより、アルファベットの前に、その読みが中国語声調で第3声に分類され且つ一音節となる単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図15および図16は、日本語を母国語とする成人男性5名、成人女性5名、計10名を被験者とし、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。ここで、第N候補の認識率とは、音声認識結果の第N候補までに正解のアルファベットが含まれている確率を表す。
同様に、図17および図18は日本語を母国語とする成人男性3名を被験者とし、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベット毎にその前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。
すなわち、アルファベットが連続するような発話の場合、アルファベット毎にその前に「ドット」を付加して発話することで、認識率の向上に対してより効果があることがわかる。
特に、「ドット」や「アット」を共通に付加する単語とした場合、短い単語である上、それぞれ「.」や「@」という日常でもよく見かける記号を連想しやすいため、特に記憶、および単語への付加の実施が容易である。
図19は、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「「パブ」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図21および図22は、北京語を母国語とする中国出身者1名を被験者とし、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に中国語読みで「点(ディエン)」を付加して発話した場合とで、音声認識率を比較したものである。
図22は、図21と同じ被験者で、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点(ディエン)」を付加して発話した場合の第一から第五候補の認識率を表したものである。
これはアルファベット毎にその前に「ドット」を付加して発話したときと同様に、アルファベットの前に何も付加せず発話する場合に比べて、「パブ」、「点(ディエン)」等の文字列を付加した方が各アルファベットの先頭音素をはっきり発話しやすくなる他、アルファベット間が上記文字列で区切られることにより、アルファベットの発話が連続することがなくなるため、アルファベット部分が崩れた発話になりにくいことが理由として挙げられる。
例えばアルファベットの「M」および「N」は、その発音に違いがある部分は先頭ではなく2モーラ目であり、かつ「エム」の「ム」と「エヌ」の「ヌ」とはどちらも鼻音であるため識別が難しい。
また、本実施形態では、各アルファベットについて、共通して付加する単語に続いて、アルファベットを1回のみ発話するかアルファベットを2回発話するかを、個人毎に設定可能としている。
そこで、共通して付加する単語に続いて、アルファベットを1回のみ発話するか、2回発話するかについての情報(以下、アルファベット入力方式情報という)をユーザごとにアルファベット発話方式データベース13に保持している。
そして、音声照合処理実行部21では、ユーザ情報処理実行部12から入力されたアルファベット入力方式情報に基づき音声認識を行う。
これにより、音声認識装置100のユーザ毎に、最適な設定で音声認識を行うことが可能となる。
図23は、音声認識を行う場合の、音声認識装置100の一連の動作の一例を示したものである。
ユーザAは、まず、ユーザ情報入力装置11を操作してユーザ情報を入力し、ログイン操作を行う。
ユーザ情報が入力されるとユーザ情報入力装置11はユーザ情報を読み込み、これをユーザ情報処理実行部12に出力する(ステップS1)。
ユーザ情報処理実行部12は、ユーザ情報に含まれるユーザIDに対応するアルファベット入力方式情報を、アルファベット発話方式データベース13から読み出し、音声照合処理実行部21に出力する(ステップS2)。
このとき、ユーザAは、予めユーザAのアルファベット入力方式情報として設定された入力方式により発話する。例えば、前述のように、識別が困難なアルファベットの組「MとN」については、ユーザAの場合、アルファベット入力方式情報として、付加した単語「ドット」に続くアルファベットを読む回数として、例えば「M」は1回、「N」は2回として定められており、また、アルファベットの組「BとP」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば、「B」は1回、「P」は2回として設定として定められているものとする。
ユーザAの発声音声は、音声入力装置3で集音され所定の処理が行われた後、デジタル信号からなる音声データに変換され、音声照合処理実行部21に入力される(ステップS3、S4)。
ここで、単語辞書データベース23には、アルファベット列からなる単語またはアルファベット列を含む単語については、音声認識装置100を使用するユーザのアルファベット入力方式情報に対応した、単語辞書が登録されている。
つまり、単語辞書データベース23には、各ユーザのアルファベット入力方式情報に対応した単語辞書が設定されている。なお、この単語辞書の設定は、認識させたい単語と、この単語の読みを表す音声データの特徴量とを対応付けた単語辞書の生成を行う公知の単語辞書生成装置を用いて行えばよい。
つまり、例えば、単語「PAM」には、ユーザAのアルファベット入力方式に対応した「ドットピーピー ドットエー ドットエム」とユーザBのアルファベット入力方式に対応した「ドットピー ドットエー ドットエムエム」とが対応付けられて格納されている。
そして、ユーザAの場合、前述のようにアルファベット入力方式情報として、「M」は1回、「N」は2回、「B」は1回、「P」は2回として設定されている。そのため、ユーザAのアルファベット入力方式に対応した、単語「PAM」と「ドットピーピー ドットエー ドットエム」とが対応付けられた単語辞書を参照して音声認識が行われる。
一方、ユーザBの場合には、アルファベット入力方式情報として、「M」は2回、「N」は1回として設定され、「B」は2回、「P」は1回として設定されているため、単語「PAM」を音声入力する場合、ユーザBは、「ドットピー ドットエー ドットエムエム」と発話する。
したがって、「ドットピー ドットエー ドットエムエム」を表す音声データは、ユーザBのアルファベット入力方式情報に対応する単語辞書を参照することにより、「P A M」として認識される。
しかしながら、ユーザAは、「PAM」と発話する際に、アルファベット毎にその前に「ドット」を付加し、且つ、「P」については、「ピー」を2回繰り返して「ドットピーピー」と発話している。
また、ユーザは、アルファベットの前に「ドット」を付加する必要があるが、各アルファベットに対して共通の単語である「ドット」を付加しており、比較的発話しやすいため、付加する単語を間違えたり、言い淀んだりすることを抑制することができる。
なお、上記実施の形態においては、アルファベットの前に付加する単語として「ドット」を用いた場合について説明したが、これに限るものではない。
この場合には、ユーザ毎のアルファベット入力方式情報に、アルファベットの前に付加する単語としてどの単語を付加するかの情報も含めるように構成すればよい。
したがって、アルファベットの前に単語を付加するか否かもアルファベット入力方式情報として含めることによって、アルファベットの前に単語を付加する必要がないユーザの場合には、単語を付加しなくても音声認識を行うことの可能な構成とすることもできる。
また、上記実施の形態においては、全てのアルファベットの前に、単語を付加する場合について説明したが、必ずしも全てのアルファベットの前に付加する必要はなく、「M」、「N」、「P」、「B」などの認識しにくいアルファベットのみの前に単語を付加する構成としてもよい。
例えば、「ドット」を付加したアルファベットの単位で、単語辞書に登録してもよい。つまり、「ドットエム」、「ドットビー」の単位で単語辞書に登録するようにしてもよい。
また、アルファベットを含まない文字列であっても適用することができ、この場合、アルファベット列からなる文字列について音声認識を行う場合と同等の作用効果を得ることができる。
なお、上記実施の形態において、単語辞書データベース23に格納されている単語辞書が認識辞書に対応し、音声照合処理実行部21が音声認識処理部に対応し、「ドット」が所定文字列に対応している。
2 音声認識器
3 音声入力装置
4 認識結果出力装置
11 ユーザ情報入力装置
12 ユーザ情報処理実行部
13 アルファベット発話方式データベース
21 音声照合処理実行部
22 音響モデルデータベース
23 単語辞書データベース
24 言語モデルデータベース
100 音声認識装置
Claims (5)
- 認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める日本語の文字列であり、その読みが3モーラ以上であり且つその末尾の2モーラが「っと(tto)」となる文字列であって、
前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。 - 認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であって、
前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。 - 認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める中国語の文字列であり、その読みが中国語声調で第3声に分類され且つ一音節となる文字列であって、
前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。 - 前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていることを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。
- 前記認識対象の文字は、アルファベットであることを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013532432A JP5596869B2 (ja) | 2011-09-09 | 2012-08-31 | 音声認識装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011197625 | 2011-09-09 | ||
JP2011197625 | 2011-09-09 | ||
PCT/JP2012/005540 WO2013035293A1 (ja) | 2011-09-09 | 2012-08-31 | 音声認識装置 |
JP2013532432A JP5596869B2 (ja) | 2011-09-09 | 2012-08-31 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5596869B2 true JP5596869B2 (ja) | 2014-09-24 |
JPWO2013035293A1 JPWO2013035293A1 (ja) | 2015-03-23 |
Family
ID=47831765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013532432A Expired - Fee Related JP5596869B2 (ja) | 2011-09-09 | 2012-08-31 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9437190B2 (ja) |
EP (1) | EP2755202B1 (ja) |
JP (1) | JP5596869B2 (ja) |
CN (1) | CN103827962B (ja) |
WO (1) | WO2013035293A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6106708B2 (ja) * | 2015-04-28 | 2017-04-05 | 四郎丸 功 | 音声認識装置及び音声認識システム |
CN107731228B (zh) * | 2017-09-20 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2820093B2 (ja) * | 1995-12-26 | 1998-11-05 | 日本電気株式会社 | 単音節認識装置 |
JP3797497B2 (ja) * | 1996-03-28 | 2006-07-19 | 株式会社Yozan | ページャへのメッセージ作成方式 |
JPH1188507A (ja) * | 1997-09-08 | 1999-03-30 | Hitachi Ltd | ページャ用音声認識装置 |
US5987410A (en) * | 1997-11-10 | 1999-11-16 | U.S. Philips Corporation | Method and device for recognizing speech in a spelling mode including word qualifiers |
JPH11167393A (ja) | 1997-12-04 | 1999-06-22 | Hitachi Eng & Service Co Ltd | 音声認識装置および音声認識装置用辞書 |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
FI981154A (fi) * | 1998-05-25 | 1999-11-26 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen tunnistamiseksi |
DE19851287A1 (de) * | 1998-11-06 | 2000-06-21 | Siemens Ag | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte |
US6321196B1 (en) * | 1999-07-02 | 2001-11-20 | International Business Machines Corporation | Phonetic spelling for speech recognition |
US6304844B1 (en) * | 2000-03-30 | 2001-10-16 | Verbaltek, Inc. | Spelling speech recognition apparatus and method for communications |
US6975986B2 (en) * | 2001-05-30 | 2005-12-13 | International Business Machines Corporation | Voice spelling in an audio-only interface |
EP1372139A1 (en) * | 2002-05-15 | 2003-12-17 | Pioneer Corporation | Speech recognition apparatus and program with error correction |
US7143037B1 (en) * | 2002-06-12 | 2006-11-28 | Cisco Technology, Inc. | Spelling words using an arbitrary phonetic alphabet |
JP2004170466A (ja) * | 2002-11-15 | 2004-06-17 | Toshihisa Tsukada | 音声認識方法と電子装置 |
US20040236581A1 (en) * | 2003-05-01 | 2004-11-25 | Microsoft Corporation | Dynamic pronunciation support for Japanese and Chinese speech recognition training |
JP2007535692A (ja) * | 2004-03-09 | 2007-12-06 | ラオ、アシュウィン | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 |
US7418387B2 (en) * | 2004-11-24 | 2008-08-26 | Microsoft Corporation | Generic spelling mnemonics |
US20060183090A1 (en) * | 2005-02-15 | 2006-08-17 | Nollan Theordore G | System and method for computerized training of English with a predefined set of syllables |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8515969B2 (en) * | 2010-02-19 | 2013-08-20 | Go Daddy Operating Company, LLC | Splitting a character string into keyword strings |
US20130209970A1 (en) * | 2010-02-24 | 2013-08-15 | Siemens Medical Instruments Pte. Ltd. | Method for Training Speech Recognition, and Training Device |
-
2012
- 2012-08-31 US US14/239,315 patent/US9437190B2/en not_active Expired - Fee Related
- 2012-08-31 JP JP2013532432A patent/JP5596869B2/ja not_active Expired - Fee Related
- 2012-08-31 WO PCT/JP2012/005540 patent/WO2013035293A1/ja active Application Filing
- 2012-08-31 CN CN201280040807.7A patent/CN103827962B/zh not_active Expired - Fee Related
- 2012-08-31 EP EP12830496.1A patent/EP2755202B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
EP2755202A1 (en) | 2014-07-16 |
WO2013035293A1 (ja) | 2013-03-14 |
EP2755202B1 (en) | 2016-07-13 |
CN103827962B (zh) | 2016-12-07 |
EP2755202A4 (en) | 2015-05-27 |
JPWO2013035293A1 (ja) | 2015-03-23 |
CN103827962A (zh) | 2014-05-28 |
US20140163987A1 (en) | 2014-06-12 |
US9437190B2 (en) | 2016-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
EP1701338A1 (en) | Speech recognition method | |
JP6747434B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN105210147B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
US7406408B1 (en) | Method of recognizing phones in speech of any language | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP5596869B2 (ja) | 音声認識装置 | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
JP4839291B2 (ja) | 音声認識装置およびコンピュータプログラム | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP5474723B2 (ja) | 音声認識装置およびその制御プログラム | |
US20190189026A1 (en) | Systems and Methods for Automatically Integrating a Machine Learning Component to Improve a Spoken Language Skill of a Speaker | |
JP5772219B2 (ja) | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム | |
JP2013175067A (ja) | 自動読み付与装置及び自動読み付与方法 | |
JP2002189490A (ja) | ピンイン音声入力の方法 | |
JP4445371B2 (ja) | 認識語彙の登録装置と音声認識装置および方法 | |
JP2004309654A (ja) | 音声認識装置 | |
Islam et al. | A process to improve the accuracy of voice recognition system by using word correction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5596869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |