JP5596869B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5596869B2
JP5596869B2 JP2013532432A JP2013532432A JP5596869B2 JP 5596869 B2 JP5596869 B2 JP 5596869B2 JP 2013532432 A JP2013532432 A JP 2013532432A JP 2013532432 A JP2013532432 A JP 2013532432A JP 5596869 B2 JP5596869 B2 JP 5596869B2
Authority
JP
Japan
Prior art keywords
alphabet
recognition
character
speech
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013532432A
Other languages
English (en)
Other versions
JPWO2013035293A1 (ja
Inventor
朋之 熊井
敏幸 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2013532432A priority Critical patent/JP5596869B2/ja
Application granted granted Critical
Publication of JP5596869B2 publication Critical patent/JP5596869B2/ja
Publication of JPWO2013035293A1 publication Critical patent/JPWO2013035293A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識装置に関する。
物流・医療などの業務従事者にとっては、音声認識により、業務の効率化、業務のハンズフリー化を実現したいという要望がある。
特に、物流・医療などの業務においては、製品の型番やIDなど、アルファベットと数字とが混在するような文字列の入力を必要とするケースが多く、アルファベットや数字の音声認識精度が良く、且つ誤認識が少ないということは、音声認識による業務の効率化に大きく貢献する。
しかしながら、特にアルファベットは、発話した際に非常に短い上、発音が互いに近い文字も多く、正確に認識することは困難である。
例えば、「C」、「E」、「T」などは、発音のエネルギが強い部分の大部分が語尾の「イー」と伸ばす部分となり、人間でも聞き取りが困難である。
特に、倉庫や工場など雑音が存在する環境では、子音が雑音に紛れ、はっきりとしなくなるため認識がより困難なものとなる。
そのため、従来は、A:alpha(アルファー)、B:bravo(ブラボー)、C:Charlie(チャーリー)などのように、アルファベット毎にその文字で始まる英単語を割り当て、その読みを音声認識装置に登録しておき、ユーザにはこれらの割り当てられた英単語を発話させることで英単語に対応するアルファベットを取得するという手段がとられていた。
また、あるアルファベット1文字と、アルファベット順がこのアルファベットに続くアルファベット1文字とを連続で発話させる方法も考案されている(例えば、特許文献1参照)。
この方式では、例えば「ADC」の場合の読みは、「エービー ディーイー シーディー」となる。
これは、アルファベット2文字の組み合わせとすることにより、発話の音響的特徴量が大きくなるということを利用して、アルファベット1文字の場合に比べて認識率を向上させることを狙いとしている。
特開平11−167393号公報
しかしながら、アルファベット毎にその文字で始まる英単語を割り付ける方式は、発話者がアルファベット26文字に対応する英単語を学習する必要がある。つまり、より速やかな音声入力を行うためには、アルファベット毎に対応する英単語を記憶しておく必要があり、記憶に時間を要するためトレーニングコストの増大に繋がる。
また、アルファベット毎にその文字で始まる英単語を割り付ける方式の場合には、発話者が発話時に常に次のアルファベットを連想し、これに対応する英単語を思い出しながら発話しなければならないという問題がある。
また、アルファベット1文字と、アルファベット順がこのアルファベットに続くアルファベット1文字とを連続で発話させる方式に従った場合、「ADC」は「エービー ディーイー シーディー」と読むことになるが、「エー」の次にそのまま「ディー」と発話してしまったり、あるいは、あるアルファベットに続けるべきアルファベットが咄嗟に出ずに言い淀んでしまったりするなど、誤発話が起こりやすい。
そのため、常に正しく入力させるためには、発話者がこれらの誤発話を起こさないように集中力を保つ必要があり、負担が大きい。
そこでこの発明は、音声認識の精度の向上に繋がり、かつ発話者にとって負担を小さくするのに好適な音声認識装置を提供することを目的としている。
本発明の一態様は、認識辞書と、当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める文字列であって、前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置である。
前記所定文字列は、日本語の文字列であり、その読みが3モーラ(mora)以上であり且つその末尾の2モーラが「っと(tto)」となる文字列であってよい。
前記所定文字列は、英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であってよい。
前記所定文字列は、中国語の文字列であり、その読みが中国語声調で第3声に分類され且つ一音節となる文字列であってよい。
前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていてよい。
前記認識対象の文字は、アルファベットであってよい。
本発明の一態様によれば、所定文字列およびこれに続く認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、認識対象の文字とが対応付けられた認識データが認識辞書に登録されており、所定文字列として認識対象の文字の先頭音素の音声エネルギを高める文字列が設定される。ユーザが、認識対象の文字の前に、所定文字列を付加して発話することにより、認識対象の文字の音響的特徴量を抽出しやすくすることができ、その結果、認識対象の文字の認識率を向上させることができる。
また、所定文字列として、日本語の文字列であり、「ドット」、「アット」などの、日本語読みで3モーラ以上の単語であり且つその末尾の2モーラが「っと(tto)」である文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列として、英語の文字列であり且つ「dot」、「pub」、「pot」、「dub」といった、その文字列の英語読みが、子音、母音、子音の順で構成される文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列として、中国語の文字列であり且つ「点(ディエン)」、「簡(ジエン)」、「党(ダン)」といった、その文字列の中国語読みが中国語声調で第3声に分類され且つ一音節となる文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列を付加するだけでなく、認識対象の文字を連続させてなる連続文字列に対応する認識辞書を用いることによって、識別しにくい認識対象の文字どうしであっても、一方は認識対象の文字を連続させ音響的特徴量を抽出しやすくすることにより、識別しにくい文字どうしを識別しやすくすることができ、すなわち、認識率をより向上させることができる。
また、本発明の他の態様によれば、アルファベットに対して所定文字列を付加している。アルファベットは発話されたときの長さが短くまた互いに発音が近い文字も多いが、アルファベットに所定文字列を付加することにより、アルファベットの音響的特徴量をより抽出しやすくなり、認識率をより向上させることができる。
本発明における音声認識装置の一例を示す概略構成図である。 中国語における各声調のパターンを示す図である。 日本語を母国語とする日本人がアルファベット「B」を発話したときのスペクトログラムの一例である。 日本語を母国語とする日本人がアルファベット「B」の前に「ドット」を付加して発話したときのスペクトログラムの一例である。 図3のアルファベット「B」の先頭要素部分の拡大図である。 図4のアルファベット「B」の先頭要素部分の拡大図である。 英語を母国語とする北米出身者がアルファベット「K」を発話したときのスペクトログラムの一例である。 英語を母国語とする北米出身者がアルファベット「K」の前に「パブ」を付加して発話したときのスペクトログラムの一例である。 図7のアルファベット「K」の先頭要素部分の拡大図である。 図8のアルファベット「K」の先頭要素部分の拡大図である。 北京語を母国語とする中国出身者がアルファベット「D」を発話したときのスペクトログラムの一例である。 北京語を母国語とする中国出身者がアルファベット「D」の前に「点(ディエン)」を付加して発話したときのスペクトログラムの一例である。 図11のアルファベット「D」の先頭要素部分の拡大図である。 図12のアルファベット「D」の先頭要素部分の拡大図である。 アルファベット1文字を発話した場合の認識率の一例である。 アルファベット1文字の前に「ドット」を付加して発話した場合の認識率の一例である。 アルファベット2文字を連続発話した場合の認識率の一例である。 各アルファベットの前に「ドット」を付加してアルファベット2文字を連続発話した場合の認識率の一例である。 英語を母国語とする北米出身者1名が、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「「パブ」を付加して発話した場合の第一から第五候補の認識率を表した図である。 英語を母国語とする北米出身者1名が、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「パブ」を付加して発話した場合の第一から第五候補の認識率を表した図である。 北京語を母国語とする中国出身者1名が、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点(ディエン)」を付加して発話した場合の第一から第五候補の認識率を表した図である。 北京語を母国語とする中国出身者1名が、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点(ディエン)」を付加して発話した場合の第一から第五候補の認識率を表した図である。 音声認識時の音声認識装置の処理手順の一例を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の一実施形態を示す、音声認識装置100の一例を示す概略構成図である。
この音声認識装置100は、例えばパーソナルコンピュータで構成され、ユーザ情報処理部1と、音声認識器2と、音声入力装置3と、認識結果出力装置4と、を備える。
ユーザ情報処理部1は、ユーザ情報入力装置11と、ユーザ情報処理実行部12と、アルファベット発話方式データベース13と、を備える。
ユーザ情報入力装置11は、音声認識装置100へのログイン操作、またユーザ情報などを入力するための装置であって、例えばキーボードなどで構成される。前記ユーザ情報とは、音声認識を行うユーザを特定する情報であって、例えばユーザIDを含む。
ユーザ情報処理実行部12は、ユーザ情報入力装置11からユーザ情報を入力し、ユーザ情報に対応する各種情報を、アルファベット発話方式データベース13から読み出す。ここでアルファベット発話方式データベース13には、ユーザIDごとに、当該ユーザIDで特定されるユーザが、アルファベットをどのような入力方式で入力するかを表すアルファベット入力方式情報が格納されている。このアルファベット入力方式情報については後述する。
ユーザ情報処理実行部12は、ユーザ情報入力装置11から入力したユーザ情報に対応するアルファベット入力方式情報を、アルファベット発話方式データベース13から読み出し、これを音声認識器2の後述の音声照合処理実行部21に出力する。
音声認識器2は、音声照合処理実行部21と、音響モデルデータベース22と、単語辞書データベース23と、言語モデルデータベース24と、を備える。
音声照合処理実行部21は、音声入力装置3から音声データを入力し、音響モデルデータベース22、単語辞書データベース23、および言語モデルデータベース24に格納された音響モデル、単語辞書および言語モデルに基づき、入力された音声データに対して音声認識を行い、その結果を、認識結果出力装置4に出力する。
ここで、単語辞書データベース23には、単語辞書として、任意の単語を表す文字列とこれに対応する音響モデルの時系列の特徴量とが対応付けられて格納されている。さらに、アルファベット列からなる単語、またアルファベットを含む単語については、アルファベット毎にその前に予め設定した単語、例えば「ドット」が付加された単語を表す音響モデルの時系列の特徴量が対応付けられて格納されている。
例えば、単語「ADC」の場合には、「ドットエー ドットディー ドットシー」に対応する音響モデルの時系列の特徴量と、単語「ADC」とが対応付けられて格納されている。なお、ここでいうアルファベット列とは英単語ではなく、アルファベット毎に発話されて一つの単語を表すアルファベットの並びのことをいう。
さらに、例えば「N」については「ドットエヌエヌ」、「P」については「ドットピーピー」に対応する音響モデルの特徴量が対応付けられて格納されている。例えば、単語「PM」の場合には「ドットピーピー ドットエム」に対応する音響モデルの時系列の特徴量と、単語「PM」とが対応付けられて格納されている。なお、これらアルファベットの前に付加する単語の種類や、アルファベット「N」および「P」に関する特徴量の設定方法は、音声認識装置100を利用する各ユーザのアルファベット入力方式情報に対応して設定されている。
音声入力装置3はマイクロフォンなどの集音装置で構成される。この音声入力装置3は、発声音声をその音声に対応するアナログの電気信号に変換し、この電気信号を図示しないA/D変換器でデジタル信号に変換しこれを音声データとして音声認識器2に出力する。
認識結果出力装置4は例えば表示装置で構成され、音声認識器2での音声認識された結果、すなわち入力された音声データに対応する文字列を表示する。
次に、本音声認識装置100における、アルファベット入力方法および認識方法の原理を説明する。
本音声認識装置100では、アルファベットを入力する際には、各アルファベットの前に予め設定した単語を付加して入力する。この付加する単語としては、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語が設定される。
このような単語として、日本語の文字列であり日本語読みで3モーラ以上の単語であり、且つその末尾2モーラに、促音「っと(tto)」をもつ単語が設定される。
この他、英語の文字列であり英語読みで子音、母音、子音の順で構成される単語や、中国語の文字列でありその読みが中国語声調で第3声に分類され且つ一音節となる単語が設定される。
(モーラについての説明)
モーラ(mora)とは音の文節単位であり、その語句を何拍で読むかを表すものである。例えば日本語読みで、「なす」は2モーラ、「かぼちゃ」は3モーラ、「らっかせい」は5モーラとなる。
(中国語声調についての説明)
中国語などのいわゆる声調言語は、声調(Tone)を用いて言葉の意味を区別する。例えば、図2に示すように、中国語には基本的に4つの声調(第1声〜第4声:Tone1〜Tone4)が存在する。なお、図2の横軸は規格化した時間であり、縦軸は入力された音声から抽出される基本周波数(f0)である。中国語の「0〜9」の数字は、「1、3、7、8」は第1声(Tone1)、「0」は第2声(Tone2)、「5、9」は第3声(Tone3)、「0、2、4、6」は第4声(Tone4)に分類される。
第3声は他の声調に比べ基本周波数(f0)が低く、また発声直後に基本周波数(f0)が下降し、その後上昇するといった特徴がある。
前述のようにアルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な、各アルファベットに対して共通に付加する単語として、具体的には、「ドット」、「アット」、「アルファベット」、「パブ」、「ポット」、また、中国語読みで「点(ディエン)」、「簡(ジエン)」、「党(ダン)」などを適用することが可能である。
例えば各アルファベットに共通して付加する単語として「ドット」を採用した場合、「ADC」は、「ドットエー ドットディー ドットシー」と読む。
通常、「ドット」など、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語をアルファベットの前に付加した場合、まずアルファベットの前に付加された「ット」の部分が強く発話され、その勢いを保ちながら「ット」に続くアルファベットの先頭音素も強く発話されやすくなる。
「パブ」、「ポット」、中国語読みの「点(ディエン)」などの単語をアルファベットの前に付加した場合も、同様に、付加した単語の語尾が強く発話され、その勢いを保ちながらそれに続くアルファベットの先頭音素が強く発話されやすくなる。
このアルファベットの先頭音素は、各アルファベットを音響的に区別するのに有効な部分であり、その部分が強くはっきり発話されることは、音響的特徴量が抽出されやすくなることに繋がる。そのため、このような単語をアルファベットの前に付加して発話することはアルファベットの認識率の向上に繋がる。
ここで、アルファベットの発話が連続する場合、アルファベットから次のアルファベットへ移る部分の発話が変形しやすかったり、はっきりと発話しにくくなったりする場合がある。
例えば「NHK(登録商標)」や「SI」はそれぞれ本来の読み方は「エヌエイチケー」や「エスアイ」であるが、実際の発話では「エネーチケー」「エサイ」などという発音に近くなりやすい。
また、例えば「AM」は本来の読み方は「エーエム」であるが、実際には「M」の先頭の「エ」が発話しにくく、発音は「エー」の部分を長めに伸ばした「エーム」に近くなりやすい。
これらのいわゆる崩れたアルファベット発話と言うのは、音声認識器2で用いられる音響モデルで学習されている、通常のアルファベットの発音とは異なるため、認識ミスを発生させる要因となる。
本実施形態では、各アルファベットの前に共通の単語を付加して発話することで、アルファベットの発話が連続することはなくなる。そのため、アルファベット毎に発話が行われやすくなる。
すなわち、音響モデルで学習されているアルファベットの発音に近くなるため、アルファベットの認識率の向上に繋がる。
図3は、日本語を母国語とする日本人が、アルファベット「B」を、その前に何も付加せずに「ビー」と発話した場合のスペクトログラムである。また、図4は、図3と同じ人物が、アルファベット「B」の前に「ドット」を付加し、「ドットビー」と発話した場合のスペクトログラムである。図3および図4ともに、横軸は時間を表し縦軸は周波数を表す。また、明るさが強さを表す。
図3および図4において、点線で囲まれた領域は「B」の子音部分を表す。この点線で囲まれた領域を拡大したのが図5および図6であって、図5は、図3の点線で囲まれた部分を拡大したもの、図6は、図4の点線で囲まれた領域を拡大したものである。
図3および図4の点線で囲まれた部分、つまり「B」の子音部分を比較すると、図5および図6から明らかなように、図6の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、日本語の文字列でありその読みが3モーラ以上であり且つ末尾が「っと」で終わるような単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図7は、英語を母国語とする北米出身者が、アルファベット「K」を、その前に何も付加せずに「ケー」と発話した場合のスペクトログラムである。また、図8は、図7と同じ人物が、アルファベット「K」の前に「pub(パブ)」を付加し、「パブケー」と発話した場合のスペクトログラムである。図7および図8ともに、横軸は時間を表し縦軸は周波数を表す。また、明るさが強さを表す。
図7および図8において、点線で囲まれた領域は「K」の子音部分を表す。この点線で囲まれた領域を拡大したのが図9および図10であって、図9は、図7の点線で囲まれた部分を拡大したもの、図10は、図8の点線で囲まれた領域を拡大したものである。
図7および図8の点線で囲まれた部分、つまり「K」の子音部分を比較すると、図9および図10から明らかなように、図10の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、その読みが子音、母音、子音の順で構成される単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図11は、北京語を母国語とする中国出身者が、アルファベット「D」を、その前に何も付加せずに「ディー」と発話した場合のスペクトログラムである。また、図12は、図11と同じ人物が、アルファベット「D」の前に「点(ディエン)」を付加し、「ディエンディー」と発話した場合のスペクトログラムである。図11および図12ともに、横軸は時間を表し縦軸は周波数を表す。また、明るさが強さを表す。
図11および図12において、点線で囲まれた領域は「D」の子音部分を表す。この点線で囲まれた領域を拡大したのが図13および図14であって、図13は、図11の点線で囲まれた部分を拡大したもの、図14は、図12の点線で囲まれた領域を拡大したものである。
図11および図12の点線で囲まれた部分、つまり「D」の子音部分を比較すると、図13および図14から明らかなように、図14の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、その読みが中国語声調で第3声に分類され且つ一音節となる単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
また、図15から図18は、日本語を母国語とする話者が、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に「ドット」を付加して発話した場合とで、音声認識率を比較したものである。
図15および図16は、日本語を母国語とする成人男性5名、成人女性5名、計10名を被験者とし、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。ここで、第N候補の認識率とは、音声認識結果の第N候補までに正解のアルファベットが含まれている確率を表す。
アルファベット1文字だけの場合でも、アルファベットの前に何も付加せずに発話した場合に比べ、アルファベットの前に「ドット」を付加して発話するほうが、認識率が向上していることが分かる。
同様に、図17および図18は日本語を母国語とする成人男性3名を被験者とし、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベット毎にその前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。
図15および図16に示すように、アルファベット1文字の場合、アルファベットの前に「ドット」を付加しない場合の平均認識率は、第一候補の場合91.15%、第二候補の場合が96.54%であるのに対し、アルファベットの前に「ドット」を付加した場合の平均認識率は、第一候補の場合93.85%、第二候補の場合が99.62%であって、認識率が約2〜3%改善されている。
これに対し、図17および図18に示すように、アルファベット2文字の場合、アルファベットの前に「ドット」を付加しない場合の平均認識率は、第一候補の場合77.33%、第二候補の場合90.33%であるのに対し、各アルファベットの前に「ドット」を付加した場合の平均認識率は、第一候補の場合88.67%、第二候補の場合97.67%であって、認識率が約7〜11%改善されている。
つまり、アルファベット2文字の認識の場合、アルファベット毎にその前に「ドット」を付加して発話することによる音声認識率の改善がアルファベット1文字の認識を行う場合に比べて大きい。
すなわち、アルファベットが連続するような発話の場合、アルファベット毎にその前に「ドット」を付加して発話することで、認識率の向上に対してより効果があることがわかる。
これは、アルファベット毎にその前に「ドット」を付加して発話することは、アルファベットの前に何も付加せず発話する場合に比べ、各アルファベットの先頭音素をはっきり発話しやすくなる他、アルファベット間が「ドット」という単語で区切られることにより、アルファベットの発話が連続することがなくなるため、アルファベット部分が崩れた発話になりにくいことが理由として挙げられる。
そして、この方式の場合、全てのアルファベット英文字の前に共通した単語(例えば、「ドット」)を付加して発話するだけであるため、発話者にとって入力方式を理解し記憶することが容易である。
特に、「ドット」や「アット」を共通に付加する単語とした場合、短い単語である上、それぞれ「.」や「@」という日常でもよく見かける記号を連想しやすいため、特に記憶、および単語への付加の実施が容易である。
図19、図20は、英語を母国語とする北米出身者1名を被験者とし、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に「パブ」を付加して発話した場合とで、音声認識率を比較したものである。
図19は、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「「パブ」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図20は図19と同じ被験者で、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「パブ」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図21および図22は、北京語を母国語とする中国出身者1名を被験者とし、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に中国語読みで「点(ディエン)」を付加して発話した場合とで、音声認識率を比較したものである。
図21は、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点(ディエン)」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図22は、図21と同じ被験者で、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点(ディエン)」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図19〜図22から明らかなように、アルファベットの前に「パブ」、「点(ディエン)」等の、読みが子音、母音、子音の順で構成される文字列、読みが中国語声調で第3声に分類され且つ一音節となる文字列を付加すると、認識率が向上することがわかる。
これはアルファベット毎にその前に「ドット」を付加して発話したときと同様に、アルファベットの前に何も付加せず発話する場合に比べて、「パブ」、「点(ディエン)」等の文字列を付加した方が各アルファベットの先頭音素をはっきり発話しやすくなる他、アルファベット間が上記文字列で区切られることにより、アルファベットの発話が連続することがなくなるため、アルファベット部分が崩れた発話になりにくいことが理由として挙げられる。
さらに、本実施形態では、共通する単語を各アルファベットに付加するとともに、さらにアルファベット部分を1回発話するか、2回発話するか、を各アルファベットについて個別に設定することを可能としている。
例えばアルファベットの「M」および「N」は、その発音に違いがある部分は先頭ではなく2モーラ目であり、かつ「エム」の「ム」と「エヌ」の「ヌ」とはどちらも鼻音であるため識別が難しい。
このような識別が難しいアルファベットの組に対しては、片方はアルファベット部分を1回読む、もう片方はアルファベットを2回読むというように設定すれば(例えば「M」は「ドットエム」とし「N」は「ドットエヌエヌ」とする等)、発話時間長に明確な違いが生まれるため、互いのアルファベットの識別が容易になる。
また、本実施形態では、各アルファベットについて、共通して付加する単語に続いて、アルファベットを1回のみ発話するかアルファベットを2回発話するかを、個人毎に設定可能としている。
つまり、共通して付加する単語に続いて、アルファベットを1回のみ発話するか、アルファベットを2回発話するかで、どちらが認識しやすいかということは、個人毎、あるいはアルファベット毎に異なることが予想される。なお、共通して付加する単語に続いてアルファベットを1回のみ発話する方式により十分な認識精度が得られるのであれば、実用上はその方が望ましい。
そこで、共通して付加する単語に続いて、アルファベットを1回のみ発話するか、2回発話するかについての情報(以下、アルファベット入力方式情報という)をユーザごとにアルファベット発話方式データベース13に保持している。
例えば、特に互いに認識誤りを起こしやすいとされるアルファベットについて、アルファベットを1回読む場合と2回続けて読む場合とで、どちらの読み方の方が音声認識装置100において認識しやすいかを事前に個人毎にテストしておく。そして、テストした結果を元に、各アルファベットについて、共通して付加する単語に続いてアルファベットを1回のみ発話するかアルファベットを2回発話するかについての情報を、アルファベット発話方式データベース13に登録する。
例えばユーザAの場合には、識別が困難なアルファベットの組「MとN」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば「M」は1回、「N」は2回として設定する。また、識別が困難なアルファベットの組「BとP」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば、「B」は1回、「P」は2回として設定する。
同様にして、例えばユーザBの場合には、アルファベットの組「MとN」について、例えば「M」は2回、「N」は1回として設定し、アルファベットの組「BとP」について、例えば、「B」は2回、「P」は1回として設定する。そして、これら情報をアルファベット入力方式情報としてユーザIDと対応付けて、アルファベット発話方式データベース13に格納しておく。
そして、音声認識装置100へのログイン時など、ユーザ情報入力装置11においてユーザ情報が入力された時点で、このユーザ情報に含まれるユーザIDに基づき、アルファベット発話方式データベース13から、このユーザIDに対応する、アルファベット入力方式情報を獲得し、獲得したアルファベット入力方式情報を、音声認識器2の音声照合処理実行部21に出力する。
そして、音声照合処理実行部21では、ユーザ情報処理実行部12から入力されたアルファベット入力方式情報に基づき音声認識を行う。
これにより、音声認識装置100のユーザ毎に、最適な設定で音声認識を行うことが可能となる。
次に、上記実施の形態の動作を図23のフローチャートを伴って説明する。
図23は、音声認識を行う場合の、音声認識装置100の一連の動作の一例を示したものである。
ユーザAは、まず、ユーザ情報入力装置11を操作してユーザ情報を入力し、ログイン操作を行う。
ユーザ情報が入力されるとユーザ情報入力装置11はユーザ情報を読み込み、これをユーザ情報処理実行部12に出力する(ステップS1)。
ユーザ情報処理実行部12は、ユーザ情報に含まれるユーザIDに対応するアルファベット入力方式情報を、アルファベット発話方式データベース13から読み出し、音声照合処理実行部21に出力する(ステップS2)。
ユーザAが、音声入力装置3に対して認識対象のアルファベット列を発話する。
このとき、ユーザAは、予めユーザAのアルファベット入力方式情報として設定された入力方式により発話する。例えば、前述のように、識別が困難なアルファベットの組「MとN」については、ユーザAの場合、アルファベット入力方式情報として、付加した単語「ドット」に続くアルファベットを読む回数として、例えば「M」は1回、「N」は2回として定められており、また、アルファベットの組「BとP」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば、「B」は1回、「P」は2回として設定として定められているものとする。
今、ユーザAがアルファベット列として、例えば「PAM」を入力するものとする。ユーザAは、このユーザAのアルファベット入力方式情報として設定された入力方式にしたがって、「ドットピーピー ドットエー ドットエム」と発話する。
ユーザAの発声音声は、音声入力装置3で集音され所定の処理が行われた後、デジタル信号からなる音声データに変換され、音声照合処理実行部21に入力される(ステップS3、S4)。
そして、音声照合処理実行部21では、音響モデル、単語辞書、言語モデルをもとに、入力された音声データに対して音声認識処理を実行する(ステップS5)。
ここで、単語辞書データベース23には、アルファベット列からなる単語またはアルファベット列を含む単語については、音声認識装置100を使用するユーザのアルファベット入力方式情報に対応した、単語辞書が登録されている。
音声照合処理実行部21では、ユーザ情報処理実行部12から入力したアルファベット入力方式情報に対応した単語辞書を用いて音声認識処理を実行する。
つまり、単語辞書データベース23には、各ユーザのアルファベット入力方式情報に対応した単語辞書が設定されている。なお、この単語辞書の設定は、認識させたい単語と、この単語の読みを表す音声データの特徴量とを対応付けた単語辞書の生成を行う公知の単語辞書生成装置を用いて行えばよい。
例えば、前述のユーザAおよびユーザBが利用者である場合には、前述のように、ユーザAとユーザBとでは、「M」、「N」、「P」、「B」について発話を繰り返す回数が異なる。そのため、アルファベット毎にその前に予め設定した単語、例えば「ドット」を付加した登録対象の単語を表す音響モデルの時系列の特徴量が対応付けられて格納されている。
このとき、「M」の音声データについては「ドットエムエム」、「N」の音声データについては「ドットエヌエヌ」、「B」の音声データについては「ドットビービー」、「P」の音声データについては「ドットピーピー」を表す音声データとして、これに対応する音響モデルの特徴量が対応付けられて格納されている。
つまり、例えば、単語「PAM」には、ユーザAのアルファベット入力方式に対応した「ドットピーピー ドットエー ドットエム」とユーザBのアルファベット入力方式に対応した「ドットピー ドットエー ドットエムエム」とが対応付けられて格納されている。
また、単語「NB」には、「ドットエヌエヌ ドットビー」と「ドットエヌ ドットビービー」とが対応付けられて格納されている。
そして、ユーザAの場合、前述のようにアルファベット入力方式情報として、「M」は1回、「N」は2回、「B」は1回、「P」は2回として設定されている。そのため、ユーザAのアルファベット入力方式に対応した、単語「PAM」と「ドットピーピー ドットエー ドットエム」とが対応付けられた単語辞書を参照して音声認識が行われる。
したがって、「ドットピーピー ドットエー ドットエム」を表す音声データは、ユーザAのアルファベット入力方式情報に対応する単語辞書を参照することにより、「P A M」として認識され、これが認識結果として、認識結果出力装置4に出力されて表示される(ステップS6)。
一方、ユーザBの場合には、アルファベット入力方式情報として、「M」は2回、「N」は1回として設定され、「B」は2回、「P」は1回として設定されているため、単語「PAM」を音声入力する場合、ユーザBは、「ドットピー ドットエー ドットエムエム」と発話する。
音声照合処理実行部21では、ユーザBのアルファベット入力方式情報に対応する単語辞書を用いて音声認識を行うため、単語「PAM」と「ドットピー ドットエー ドットエムエム」とが対応付けられた単語辞書を参照して音声認識が行われる。
したがって、「ドットピー ドットエー ドットエムエム」を表す音声データは、ユーザBのアルファベット入力方式情報に対応する単語辞書を参照することにより、「P A M」として認識される。
ここで、前述のようにアルファベット列を音声入力する場合、「PAM」のうち、「AM」の部分は、「エーム」と発話されやすい。また、「P」と「B」も識別しにくい。
しかしながら、ユーザAは、「PAM」と発話する際に、アルファベット毎にその前に「ドット」を付加し、且つ、「P」については、「ピー」を2回繰り返して「ドットピーピー」と発話している。
このため、アルファベット「P」、「A」、「M」間が「ドット」という単語で区切られることになり、その結果、「AM」の部分が「エーム」と発話されにくくなり、また、各アルファベットの先頭要素がはっきり発話されやすい。そのため、音声データに「M」の音響的特徴量が現れやすくなる。したがって、認識率を向上させることができる。
また、ユーザは、アルファベットの前に「ドット」を付加する必要があるが、各アルファベットに対して共通の単語である「ドット」を付加しており、比較的発話しやすいため、付加する単語を間違えたり、言い淀んだりすることを抑制することができる。
また、アルファベット入力方式情報を、ユーザ毎に設定しており、ユーザAは、このユーザAが発話した音声データに基づき音声認識を行ったときに、ある程度の認識率を確保することのできる入力方式を用いて発話することになる。そのため、ユーザAの発話特性を考慮して音声認識を行うことによって、認識率をより向上させることができる。
なお、上記実施の形態においては、アルファベットの前に付加する単語として「ドット」を用いた場合について説明したが、これに限るものではない。
前述のように、「アット」や「アルファベット」を付加する構成としてもよい。また、アルファベットの前に付加する単語による認識率の差を考慮し、付加すべき単語として、予めユーザ毎に、認識率のよい単語を検出しておくことで、ユーザ毎に異なる単語を付加するようにしてもよい。
つまり、ユーザによって、発話に癖などがあるため、「ドット」や「アット」など以外に、アルファベットの先頭音素の音声エネルギを高くするような単語が存在することが考えられる。したがって、ユーザ毎に自身の発話特性に適した、アルファベットの先頭音素の音声エネルギを高くするような単語を付加するようにしてもよい。
この場合には、ユーザ毎のアルファベット入力方式情報に、アルファベットの前に付加する単語としてどの単語を付加するかの情報も含めるように構成すればよい。
また、発声音声には個人差があり、ユーザによってはアルファベットの前に単語を付加しなくても十分な認識率を得ることができる可能性がある。
したがって、アルファベットの前に単語を付加するか否かもアルファベット入力方式情報として含めることによって、アルファベットの前に単語を付加する必要がないユーザの場合には、単語を付加しなくても音声認識を行うことの可能な構成とすることもできる。
また、上記実施の形態においては、全てのアルファベットの前に、単語を付加する場合について説明したが、必ずしも全てのアルファベットの前に付加する必要はなく、「M」、「N」、「P」、「B」などの認識しにくいアルファベットのみの前に単語を付加する構成としてもよい。
また、上記実施の形態においては、アルファベット列を単語辞書に登録する際に、各アルファベットの前に「ドット」を付加した単語を表す音響モデルの特徴量と、アルファベット列とを対応付けて、単語辞書に登録する場合について説明したがこれに限るものではない。
例えば、「ドット」を付加したアルファベットの単位で、単語辞書に登録してもよい。つまり、「ドットエム」、「ドットビー」の単位で単語辞書に登録するようにしてもよい。
また、上記実施の形態においては、認識辞書に、アルファベットと、アルファベットの先頭音素の音声エネルギを高める文字列およびこれに続くアルファベットからなる連続文字列の読みを表す音声データに関する情報を対応付けて登録する場合を中心に説明した。しかしながら、認識対象の文字はアルファベットに限定されるものではなく、平仮名、カタカナ、特に限定はなく、また、認識対象の文字数に限定は無い。
すなわち、上記実施の形態においては、アルファベットのみからなるアルファベット列において、各アルファベットに単語を付加する場合について説明したが、例えば、アルファベットと数字、アルファベットとひらがな/カタカナ、など、アルファベットと他の文字とが混合した文字列であっても適用することができる。この場合には、アルファベットについてのみ単語を付加する構成としてもよく、また、文字列全てについて単語を付加する構成としてもよい。
また、アルファベットを含まない文字列であっても適用することができ、この場合、アルファベット列からなる文字列について音声認識を行う場合と同等の作用効果を得ることができる。
また、上記実施の形態においては、図1に示すように、ユーザ情報処理部1と、音声認識器2とを1つの装置に組み込み、音声認識装置100を構成した場合について説明したが、これに限るものではない。例えば、ユーザ情報処理部1と音声認識器2とは別々の装置に組み込まれていてもよく、この場合には、ユーザ情報処理部1と音声認識器2とを通信回線などで接続すればよい。
また、上記実施の形態においては、「MとN」、「BとP」など識別しにくいアルファベットについては、一方を2回繰り返す場合について説明したが、これに限るものではない。例えば、2回繰り返す代わりに発話しやすい文字、あるいは単語を、アルファベットの後に付加するようにしてもよい。また、アルファベットの前に付加する単語として「ドット」を付加する代わりに、一方は別の単語、例えば「アット」を付加するようにしてもよい。要は、識別しにくいアルファベット間で、音響的特徴量を十分得ることができるような単語あるいは文字を付加するようにすればよい。
なお、上記実施の形態において、単語辞書データベース23に格納されている単語辞書が認識辞書に対応し、音声照合処理実行部21が音声認識処理部に対応し、「ドット」が所定文字列に対応している。
1 ユーザ情報処理部
2 音声認識器
3 音声入力装置
4 認識結果出力装置
11 ユーザ情報入力装置
12 ユーザ情報処理実行部
13 アルファベット発話方式データベース
21 音声照合処理実行部
22 音響モデルデータベース
23 単語辞書データベース
24 言語モデルデータベース
100 音声認識装置

Claims (5)

  1. 認識辞書と、
    当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
    前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める日本語の文字列であり、その読みが3モーラ以上であり且つその末尾の2モーラが「っと(tto)」となる文字列であって、
    前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。
  2. 認識辞書と、
    当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
    前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であって、
    前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。
  3. 認識辞書と、
    当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
    前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める中国語の文字列であり、その読みが中国語声調で第3声に分類され且つ一音節となる文字列であって、
    前記音声認識処理部は、前記認識辞書において、入力された音声データに対応する前記音声データに関する情報を検索し、検索した音声データに関する情報に対応付けられた前記認識対象の文字を、前記入力された音声データに対応する文字として認識することを特徴とする音声認識装置。
  4. 前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていることを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。
  5. 前記認識対象の文字は、アルファベットであることを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。
JP2013532432A 2011-09-09 2012-08-31 音声認識装置 Expired - Fee Related JP5596869B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013532432A JP5596869B2 (ja) 2011-09-09 2012-08-31 音声認識装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011197625 2011-09-09
JP2011197625 2011-09-09
PCT/JP2012/005540 WO2013035293A1 (ja) 2011-09-09 2012-08-31 音声認識装置
JP2013532432A JP5596869B2 (ja) 2011-09-09 2012-08-31 音声認識装置

Publications (2)

Publication Number Publication Date
JP5596869B2 true JP5596869B2 (ja) 2014-09-24
JPWO2013035293A1 JPWO2013035293A1 (ja) 2015-03-23

Family

ID=47831765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013532432A Expired - Fee Related JP5596869B2 (ja) 2011-09-09 2012-08-31 音声認識装置

Country Status (5)

Country Link
US (1) US9437190B2 (ja)
EP (1) EP2755202B1 (ja)
JP (1) JP5596869B2 (ja)
CN (1) CN103827962B (ja)
WO (1) WO2013035293A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6106708B2 (ja) * 2015-04-28 2017-04-05 四郎丸 功 音声認識装置及び音声認識システム
CN107731228B (zh) * 2017-09-20 2020-11-03 百度在线网络技术(北京)有限公司 英文语音信息的文本转换方法和装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2820093B2 (ja) * 1995-12-26 1998-11-05 日本電気株式会社 単音節認識装置
JP3797497B2 (ja) * 1996-03-28 2006-07-19 株式会社Yozan ページャへのメッセージ作成方式
JPH1188507A (ja) * 1997-09-08 1999-03-30 Hitachi Ltd ページャ用音声認識装置
US5987410A (en) * 1997-11-10 1999-11-16 U.S. Philips Corporation Method and device for recognizing speech in a spelling mode including word qualifiers
JPH11167393A (ja) 1997-12-04 1999-06-22 Hitachi Eng & Service Co Ltd 音声認識装置および音声認識装置用辞書
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
FI981154A (fi) * 1998-05-25 1999-11-26 Nokia Mobile Phones Ltd Menetelmä ja laite puheen tunnistamiseksi
DE19851287A1 (de) * 1998-11-06 2000-06-21 Siemens Ag Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
US6975986B2 (en) * 2001-05-30 2005-12-13 International Business Machines Corporation Voice spelling in an audio-only interface
EP1372139A1 (en) * 2002-05-15 2003-12-17 Pioneer Corporation Speech recognition apparatus and program with error correction
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
JP2004170466A (ja) * 2002-11-15 2004-06-17 Toshihisa Tsukada 音声認識方法と電子装置
US20040236581A1 (en) * 2003-05-01 2004-11-25 Microsoft Corporation Dynamic pronunciation support for Japanese and Chinese speech recognition training
JP2007535692A (ja) * 2004-03-09 2007-12-06 ラオ、アシュウィン 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
US7418387B2 (en) * 2004-11-24 2008-08-26 Microsoft Corporation Generic spelling mnemonics
US20060183090A1 (en) * 2005-02-15 2006-08-17 Nollan Theordore G System and method for computerized training of English with a predefined set of syllables
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
US8515969B2 (en) * 2010-02-19 2013-08-20 Go Daddy Operating Company, LLC Splitting a character string into keyword strings
US20130209970A1 (en) * 2010-02-24 2013-08-15 Siemens Medical Instruments Pte. Ltd. Method for Training Speech Recognition, and Training Device

Also Published As

Publication number Publication date
EP2755202A1 (en) 2014-07-16
WO2013035293A1 (ja) 2013-03-14
EP2755202B1 (en) 2016-07-13
CN103827962B (zh) 2016-12-07
EP2755202A4 (en) 2015-05-27
JPWO2013035293A1 (ja) 2015-03-23
CN103827962A (zh) 2014-05-28
US20140163987A1 (en) 2014-06-12
US9437190B2 (en) 2016-09-06

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
EP1701338A1 (en) Speech recognition method
JP6747434B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US7406408B1 (en) Method of recognizing phones in speech of any language
US8219386B2 (en) Arabic poetry meter identification system and method
JP4089861B2 (ja) 音声認識文章入力装置
JP5596869B2 (ja) 音声認識装置
KR102217292B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP3378547B2 (ja) 音声認識方法及び装置
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
US20190189026A1 (en) Systems and Methods for Automatically Integrating a Machine Learning Component to Improve a Spoken Language Skill of a Speaker
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
JP2013175067A (ja) 自動読み付与装置及び自動読み付与方法
JP2002189490A (ja) ピンイン音声入力の方法
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JP2004309654A (ja) 音声認識装置
Islam et al. A process to improve the accuracy of voice recognition system by using word correction system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140807

R150 Certificate of patent or registration of utility model

Ref document number: 5596869

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees