JP2012078650A - 音声入力支援装置 - Google Patents

音声入力支援装置 Download PDF

Info

Publication number
JP2012078650A
JP2012078650A JP2010224961A JP2010224961A JP2012078650A JP 2012078650 A JP2012078650 A JP 2012078650A JP 2010224961 A JP2010224961 A JP 2010224961A JP 2010224961 A JP2010224961 A JP 2010224961A JP 2012078650 A JP2012078650 A JP 2012078650A
Authority
JP
Japan
Prior art keywords
text
word
words
reliability
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010224961A
Other languages
English (en)
Other versions
JP5688677B2 (ja
Inventor
Atsunori Sakai
敦典 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010224961A priority Critical patent/JP5688677B2/ja
Publication of JP2012078650A publication Critical patent/JP2012078650A/ja
Application granted granted Critical
Publication of JP5688677B2 publication Critical patent/JP5688677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】従来の音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換することのできる音声入力支援システムなどを提供する。
【解決手段】音声入力支援システムは、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える。
【選択図】図1

Description

本発明は、音声認識により音声でテキスト入力を行う技術に関する。
従来、音声によるテキスト入力は、キー操作が煩雑なモバイル端末での利用が期待されており、これまでも音声認識機能を実装した携帯電話等が実装されている。しかしながら、発話の際の言い淀みや言い誤り、言い直し、声が小さいといった発声の影響、音声認識用の辞書に発話内容が登録されていない等の辞書の影響、周囲の雑音の大きい場合、その他の各種要因によって、誤認識が発生することがあり、認識精度を100%にすることは困難である。また、音声認識で誤認識が発生した場合、誤認識箇所へのカーソルの移動、誤認識箇所の削除、正しい文の入力、次の音声入力に備えるためカーソルを文の最後尾に移動させるといった誤認識の際の修正処理を、キー入力で行う必要がある。しかし、一般的なユーザの場合、モバイル端末ではキー操作を行う指が親指等に限られているため、修正作業が非常に煩雑である。
特開2001−5809号公報 特開2003−263190号公報 特開2002−14693号公報
音声認識により音声でテキスト入力を行う技術については、これまでに次のようなものが知られている。
特許文献1は、音声認識結果をユーザ自身で修正した場合、修正前の単語と修正後の単語の関連情報を保存しておくことによって、次回に音声認識結果の修正を行う場合に、自動修正を行うことができることが記載されている。しかしながら、修正前の単語と修正後の単語の関連情報がない単語では修正を行うことができず、また、前後の単語の繋がりを見て判断しているわけでないため、前後の単語の繋がりに則さない単語でも自動的に置き換えられてしまう。
特許文献2は、音声認識された質問に対して、あらかじめ誤認識テキストと正しいテキストとの対応データを持つ誤認識修正データベースを持っておくことで、対話型音声認識において、認識結果の修正を行うことが記載されている。しかし、特許文献2も、あらかじめ誤認識と正解のテキスト対応を学習させる必要があり非常に手間がかかる。また、誤認識修正データベースにない文の修正は行うことができない。
特許文献3は、認識結果の中で誤っている箇所をユーザが修正した際に、その修正情報を音声認識用の辞書に反映させることで、ユーザが語彙を登録しなくても、自動的に語彙が増える音声認識システム用辞書作成方法が記載されている。しかし、発話者の言い淀みや言い間違いなどの際の認識誤りを防ぐことはできない。
本発明では、発話者の言い淀みや言い誤り、周囲の雑音等により誤認識が発生した場合でも、従来の音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換しようとするものである。また、前もって修正前単語と修正後単語の関連情報を登録しておく必要がないものを提供しようとするものである。さらに、変換候補を修正した場合に予測変換候補に反映させることで、誤認識修正の精度を向上させようとするものである。
本発明の一実施形態に係る音声入力支援システムは、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える。かかる実施形態によれば、発話者の言い淀みや言い誤り、周囲の雑音等により誤認識が発生した場合でも、音声認識エンジンが誤認識する箇所を、前後の単語繋がりに則した単語に変換することが可能となる。また、予測変換辞書を転用できるため、前もって修正前単語と修正後単語の関連情報を登録しておく必要がない。予測変換機能を利用し、音声認識結果の誤認識を補間することで、認識精度の向上と利便性の向上を図ることができる。
好適には、音声認識エンジンは、入力された音声をテキストに変換する際に、テキストに含まれる各単語の信頼度を出力する。また、音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力することが好ましい。かかる実施形態によれば、音声認識エンジンが誤認識する箇所について、複数の候補単語を比較することができる。
また、予測変換モジュールは、信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正することが好ましい。かかる実施形態によれば、高信頼度の単語からの予測変換候補と低信頼度の単語の上位の候補とを比較し、一致する候補を選択することで、誤認識単語を前後の数単語と意味の繋がりが合う単語に変換することができるので、音声認識エンジンが誤認識する箇所を、予測変換の結果を用いて、最も確からしい候補で修正することができる。
さらに好適には、信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、信頼度の低い単語の一つ前の単語までを含む。
音声入力支援システムは、予測変換を行うための情報が格納され、予測変換モジュールによって参照される予測変換情報格納部と、予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して予測変換情報格納部に格納する予測変換候補順位決定部と、をさらに備えることが好ましい。かかる実施形態によれば、変換候補を修正した場合に予測変換候補に反映させることで、誤認識修正の精度を向上させることができる。また、ユーザが使い込むほど認識精度が向上する。
また、本発明にの一実施形態に係る音声入力支援方法は、音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、予測変換モジュールが、出力されたテキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、テキストの修正を行い、修正後のテキストを出力するステップと、を備える。
本発明によれば、既存の予測変換機能を用いて音声認識結果の修正を行うため、音声認識の誤認識を補正するための特別な情報を持っておく必要がなく、音声認識の誤認識を自動的に修正することができる。また、予測変換候補と信頼度が上位の候補とを比較し一致する候補を選択する場合には、誤認識を前後の単語と意味の繋がりが合う単語に修正することができる。さらに、ユーザがキー入力等で誤認識箇所を修正する場合には、その内容が予測変換に反映することができ、その場合には、使い込むほど誤認識修正の精度を向上させることができる。加えて、モバイル端末に標準で実装されている予測変換機能を利用する場合には、比較的容易に本システムを実装することが可能である。
音声入力支援システムの概略構成の一例を示すブロック図である。 言語モデルの仕組みを示す概略図である。 音声入力支援システムの一実施形態の構成を示すブロック図である。 本実施形態における処理の流れを示すフローチャートの一部である。 本実施形態における処理の流れを示すフローチャートの一部である。 本実施形態における処理の流れを示すフローチャートの一部である。 本実施形態による音声入力変換の実施例を示す図である。 本実施形態による音声入力変換の実施例を示す図である。 本実施形態による音声入力変換の実施例を示す図である。
以下、本発明の実施の形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。
図1は、本発明による音声入力支援システムの概略構成の一例を示すブロック図である。同図に示すように、音声入力支援システム1は、モバイル端末10と、音声認識サーバ20とを含み、これらがネットワークNを介して相互に接続されている。モバイル端末10は、携帯電話やスマートフォン、携帯情報端末(PDA)、キーボードレス情報機器、その他の携帯可能な情報機器を含む。モバイル端末10と音声認識サーバ20はそれぞれ、各部の動作や処理を制御するための制御装置としてのプロセッサ、処理プログラムや各種データの記録及び作業領域として用いられる記憶装置としての外部記録装置やメモリ、文字入力を行うためのキーや音声入力を行うためのマイクを含む入力インターフェース、液晶ディスプレイ等の出力装置を含む出力インターフェース、ネットワークNを介して通信を行うための通信インターフェース、及びこれらを結ぶバスを備える専用又は汎用のコンピュータを適用することができる。また、ネットワークNは通信用のネットワークを含み、インターネットやLAN、電話回線等を含み、無線であるか有線であるかを問わない。
このように構成される音声入力支援システム1において、モバイル端末10は、ユーザから音声が入力されると、その音声を、ネットワークNを介して音声認識サーバ20に送る。音声認識サーバ20が音声を受信すると、音声認識エンジン21が言語モデル22と音響モデル23とを適用して音声認識処理を行い、音声をテキスト化する。
ここで、言語モデル22とは、言語に関するデータを集めた統計的モデルであり、好適には、単語とその並び方の情報を集めた統計的モデルである。この場合、言語モデル22は、単語の並び方に関する制約を表すことになる。具体的には、例えば、単語N−gram方式が好ましい。言語モデル22を利用することにより、次に発声されうる単語を予測して、認識対象語彙を絞ることが可能となる。なお、図2は、言語モデルの仕組みを示す概略図である。図2に示すように、言語モデル22は、次に続く単語候補の重み付けを行うモデルとなる。
音響モデル23とは、音に関するデータを集めた統計的モデルであり、好適には、音声の波形データを集めた統計的モデルである。この場合、認識対象の音素がそれぞれどのような周波数特性を持っているかを統計的に表したものとなる。
予測変換モジュール24には、音声認識エンジン21による音声認識の結果得られたテキスト(以下「認識結果テキスト」という)が渡される。予測変換モジュール24は、認識結果テキスト内の各単語の中に信頼度の低い単語があるか否かを判断する。信頼度の低い単語がない場合は、認識結果テキストがそのままモバイル端末10に転送され、モバイル端末10の出力インターフェースに認識結果テキストが表示される。一方、認識結果テキスト内の単語の中に信頼度の低い単語がある場合、予測変換モジュール24は、認識結果テキスト内の信頼度の高い単語を一つ以上接続してなる予測変換元テキストに基づいて予測変換を行い、予測変換候補により低信頼度の単語を変換した後、変換後の認識結果テキストをモバイル端末10に送る。モバイル端末10は、受信した変換後の認識結果テキストを出力インターフェースに表示する。
モバイル端末10上に表示された認識結果に誤認識がある場合、ユーザはキー入力等により誤認識の単語を修正する。キー入力等で修正した単語は、予測変換モジュール24における予測変換候補に反映される。この操作により、次回に同じ誤認識があった場合、予測変換候補の上位に正しい単語が表示されるため、正しく変換される確率が高まり、認識結果の誤認識を低減させることができる。
また、図1では、音声認識機能と予測変換機能は、音声認識サーバ20上で行っているが、モバイル端末10自身の処理能力によっては、音声認識サーバ20の機能をモバイル端末10内に含めることも可能である。すなわち、音声認識エンジン21、言語モデル22、音響モデル23、及び予測変換モジュール24をモバイル端末10内に含めることにより、音声認識と予測変換をモバイル端末10内単体で実施することが可能となる。この場合は、ネットワークNに接続できない際にも、本システムを利用することが可能となる。
図3は、音声入力支援システムの一実施形態の構成を示すブロック図である。
モバイル端末10は、音声検知部101と、認識結果表示部102と、入力検知部103を備える。音声認識サーバ20は、音声認識処理部201と、言語モデル格納部202と、音響モデル格納部203と、低信頼度単語変換部204と、予測変換候補順位決定部205と、単語境界判別部206と、予測変換部207と、予測変換情報格納部208とを備える。なお、図1に記載の概略構成の一例と対応付けるとすると、音声認識処理部201は音声認識エンジン21を含む。言語モデル格納部202と音響モデル格納部203には、それぞれ言語モデル22と音響モデル23が格納されている。また、予測変換モジュール24は、低信頼度単語変換部204、予測変換候補順位決定部205、単語境界判別部206、予測変換部207、及び予測変換情報格納部208を含むものである。
このように構成される音声入力支援システムにおいて、ユーザはモバイル端末10のマイクなどの音声入力装置(図示略)に向かって認識させたい文章を発話する。音声入力装置に入力された音声は、音声検知部101により音声区間が検知され、検出された音声は、ネットワークNを介して音声認識サーバ20の音声認識処理部201に送られる。
音声認識サーバ20が受信した音声は、音声認識処理部201の音声認識エンジン21において、言語モデル格納部202に格納された言語モデル22と、音響モデル格納部203に格納された音響モデル23とが適用された状態で、音声認識処理が行われる。音声認識エンジン21による音声認識の結果として出力された認識結果テキストと、認識の際に合わせて出力される認識結果テキストに含まれる各単語の信頼度と、認識結果テキストとして出力された各単語に次ぐ所定数の上位候補の単語が、低信頼度単語変換部204に送られる。なお、以下では、認識結果テキストとして出力された各単語を「最上位信頼度単語」といい、最上位信頼度単語とその単語に次ぐ上位候補の単語を合わせて「上位信頼度単語」という。認識結果テキストに含まれる各単語について、音声認識処理部201から低信頼度単語変換部204に送られる上位信頼度単語の数は、複数の所定数の候補単語を低信頼度単語変換部204に送るものとしてもよいし、最上位信頼度単語の信頼度に応じて決定するようにしてもよい。また、信頼度が所定の値よりも大きい候補単語を全て低信頼度単語変換部204に送るようにしてもよい。
本発明において、単語の信頼度とは、本システムの出力する認識結果をどれだけ「信頼」してよいかを表す尺度である。値は0.0〜1.0の範囲で、数値が1.0に近いほど、その単語に似たスコアを持つ他の競合候補がほとんど無かったことを示し、0に近づくほど、その単語と同じ程度のスコアをもつ他の単語候補が多く出現していたことを示す。すなわち、数値が高いほど、その認識結果の一位候補の単語に近い他の候補が無く、音声認識処理部201が「確信」をもってその認識結果を出力した単語となる。また、認識結果として出力される各単語の信頼度は、音響モデルから算出された確率(音の観点から算出された確率)と言語モデルから算出された確率(文章での各単語の繋がりモデルから算出された確率)の統計確率で最上位のものが出力される。
図3に戻り、低信頼度単語変換部204では、認識結果テキスト中に閾値以下の信頼度の単語が一つもない場合には、認識結果テキストをそのままモバイル端末10に送付する。認識結果テキスト中に閾値以下の信頼度の単語が一つ以上ある場合、認識結果テキストの先頭からその閾値以下の単語の一つ前の単語までを予測変換元テキストとして、予測変換部207に送る。予測変換部207は、予測変換元テキストを基に予測変換を行い、予測変換候補のうち上位の候補を単語境界判別部206に送る。予測変換とは、入力されたテキストの先に続く内容を予測して、一以上の候補を提示等する機能である。本実施例の予測変換部207は、予測変換元テキストの先に続く内容を予測して、複数の予測変換候補を生成し、所定の基準を満たす複数の予測変換候補を予測変換候補一覧として単語境界判別部206に送る。
単語境界判別部206は、受け取った予測変換候補一覧の各テキストに対して形態素解析処理を行い、予測変換候補一覧に含まれる各予測変換候補の文章を単語に分解する。形態素解析とは、ある文章に対して文を構成する最小の意味単位である形態素(例えば、単語)に分解する処理をいう。そして、予測変換候補一覧と、予測変換候補一覧中の各候補文章の単語の境界情報は、低信頼度単語変換部204に送られる。低信頼度単語変換部204は、最上位信頼度単語が閾値以下の信頼度の単語の上位信頼度単語と予測変換候補一覧中の各予測変換候補に含まれる各単語とを比較し、一致する予測変換候補があれば、その予測変換候補を変換後認識結果テキストとして出力する。一致する予測変換候補が複数ある場合には、最上位信頼度単語が閾値以下の単語以降のテキストの一致度も利用して、最も一致度が高くて類似する予測変換候補を変換後認識結果テキストとして出力する。こうして、音声認識の結果に低信頼度の単語がある場合に、認識テキストの先頭からその単語の一つ前の単語までのテキストから予測変換を行い、出力された予測変換候補と、上位信頼度単語とを比較し、一致する候補があればその単語を出力するという処理を行うことで、誤変換された認識テキストを予測変換機能により修正することができる。
出力された変換後認識結果テキストは、ネットワークNを介してモバイル端末10に送付される。送付された認識結果テキストは、認識結果表示部102により、モバイル端末10の出力インターフェース画面に表示される。
ユーザは、表示された認識結果テキストを確認し、誤認識の単語があれば、キー入力やタッチ入力などにより、誤認識箇所を修正する。入力検知部103は、キー入力等により修正された箇所の単語を検出し、その入力情報(その単語の前にどの単語があるかなどの予測変換に利用される情報も含む)を、ネットワークNを介して音声認識サーバ20に送付する。送られてきた入力情報は、予測変換候補順位決定部205により、予測変換の順位に反映される。反映された予測変換情報は、予測変換情報格納部208の予測変換辞書に格納され、次回以降の予測変換を行う際に、予測変換部207にて利用される。こうして、出力されてきた変換後認識結果テキストに誤りがあった場合は、ユーザがキー入力等で修正することになるが、修正されたテキストを予測変換に反映することで、次回以降に同じ文章の発話があった際に、誤認識された単語は予測変換の上位となるため、正しく修正されるようになる。
図4〜6は、本実施形態における処理の流れを示すフローチャートである。
まず、図4について説明すると、ユーザは、モバイル端末10に認識させたい文章を発話し、モバイル端末10内の音声検知部101において、ユーザより発話された音声を検出する(S1)。検出された音声は音声認識サーバ20に送付され、音声認識エンジン21により音声認識処理が実行される。音声認識処理実行時に、認識結果テキストの各単語の信頼度と、信頼度が出力された単語に次ぐ上位所定数の候補の単語と、を含む上位信頼度単語を出力する(S2)。次に低信頼度単語変換部204は、出力された認識結果テキストのすべての単語の信頼度が閾値以上となるかを判定する(S3)。S3において、すべての単語の信頼度が閾値以上の場合(S3:はい)、認識結果テキストをそのままモバイル端末10に送信し、認識結果テキストを出力インターフェースに表示する(S8)。S3において、一つでも信頼度が閾値未満の単語がある場合(S3:いいえ)、信頼度が閾値未満となる単語の中で認識結果テキストの先頭となる単語があるか、すなわち、認識結果テキストの先頭の単語の信頼値が閾値未満であるかを判定する(S4)。信頼度が閾値未満となる単語の中で認識テキストの先頭となる単語がある場合(S4:はい)、図5に記載の処理S9に進む。S4において、信頼度が閾値未満となる単語の中で認識テキストの先頭となる単語がない場合(S4:いいえ)、テキストの先頭から、信頼度が閾値未満となる単語の一つ前の単語までのテキスト(予測変換元テキスト)を基に予測変換を行う(S5)。ただし、閾値未満の信頼度の単語が複数ある場合は、閾値未満の信頼度の単語の中で最も先頭の単語の前のテキストから、予測変換を行う。S5の後、予測変換候補の中で、上位信頼度単語とその後に続くテキストが一致する候補があるかを判定する(S6)。S6において、一致する候補がない場合(S6:いいえ)、認識結果テキストをそのまま変換後認識結果テキストとしてモバイル端末10に送り、出力インターフェースに表示する(S8)。S6において、一致する候補がある場合(S6:はい)、一致した候補の中で、一致する単語数が最も多い予測変換候補を変換後認識結果テキストとして、モバイル端末10の出力インターフェースに表示する(S7)。ただし、一致する単語数が同数の場合は、候補順位が上位の予測変換候補を選択する。
次に図5に付いて説明すると、処理S4において、信頼度が閾値未満となる単語の中でテキストの先頭となる単語が存在する場合(S4:はい)、テキストの先頭となる信頼度が閾値未満となる単語の各上位信頼度単語から、予測変換を行う(S9)。その後、各上位信頼度単語からの予測変換候補で、上位信頼度単語とその後に続きテキストが一致する候補があるかを判定する(S10)。ここで、一致する候補がない場合(S10:いいえ)、認識結果テキストをそのまま変換後認識結果テキストとして、モバイル端末10の出力インターフェースに表示する(S14)。S10において、一致する候補が存在する場合(S10:はい)、一致した予測変換候補は、正しいテキストとして確定する(S11)。その後、確定したテキスト以降で、信頼度閾値未満となる単語があるかを判定する(S12)。確定したテキスト以降で信頼度が閾値未満の単語がない場合(S12:いいえ)、確定されたテキストを変換後認識結果テキストとして、モバイル端末10の出力インターフェースに表示する(S13)。S12において、確定したテキスト以降で信頼度が閾値未満の単語が存在する場合(S12:はい)、S5で、確定したテキストから信頼度が閾値未満の単語の一つ前の単語までのテキストを元に予測変換を行い、その後、S6以降の処理を実行し、変換後認識結果テキストをモバイル端末10の出力インターフェースに表示する。
次に図6について説明する。S7、S8、S13、及びS14の各処理ステップで、変換後認識結果テキストがモバイル端末10の出力インターフェースに表示された後、ユーザは表示されたテキストを確認し、誤認識があるかを判定する(S15)。S15において、出力したテキストに誤認識が含まれなかった場合(S15:いいえ)、ユーザは次の音声入力に移る(S19)。S15において、出力したテキストに誤認識が含まれる場合(S15:はい)、ユーザは誤認識の単語をモバイル端末のキー入力等により、誤認識の単語を修正する(S16)。S16の後、キー入力等で修正した単語(当該単語の他、予測変換に利用する当該単語の前の単語も含む)は、入力検知部103で検出する(S17)。S17の後、検出した単語を予測変換候補に反映させる(S18)。S18の後、ユーザは次の音声入力に移る(S19)。
図7〜9は、本実施形態による音声入力変換の実施例を示す図である。
図7において、認識結果テキスト701は、音声認識処理部201の音声認識エンジン21における音声認識の結果の一例である。この例では、「今日の天気はあれのち雨です」という認識結果テキストが音声認識の結果として出力されたものである。音声認識処理部201から出力された認識結果テキスト701は単語毎に区切られていて、各区切りに含まれる単語の信頼度702も算出されている。この図の例では、「今日/の/天気/は/あれ/のち/雨/です」と区切られ、各単語の信頼度はそれぞれ、0.90、0.85、0.80、0.70、0.40、0.70、0.90、0.85である。音声認識処理部201は、単語区切り情報を含む認識結果テキスト701と、各単語の信頼度702とに加え、認識結果テキスト701の区切りごとに各最上位信頼度単語に次ぐ信頼度を有する所定数の上位候補の単語を、低信頼度単語変換部204に送る。図7では、単語「あれ」の上位候補として「晴れ」(信頼度0.38)と「雨」(信頼度0.30)が出力されていることが分かる。この例では、上位3単語が出力されているが、これらは、音声認識エンジン21で算出された信頼度の高い順での単語候補、すなわち上位信頼度単語706、である。また、図7では、「あれ」以外の各単語の上位候補の表示を省略している。
次に、低信頼度単語変換部204は、認識結果テキスト701の最初から信頼度が所定の閾値よりも低い単語の一つ前の単語までを予測変換元テキストとして設定する。例えば、閾値を0.50とすると、本例では、認識結果テキスト701の最初の単語「今日」から、信頼度が閾値よりも低い単語「あれ」の一つ前の単語「は」まで、すなわち、「今日の天気は」が予測変換元テキスト703として設定される。そして、低信頼度単語変換部204から予測変換元テキストを受け取った予測変換部207では、信頼度の高い予測変換元テキスト「今日の天気は」に基づいて予測変換を行う。この予測変換処理においては、予測変換情報格納部208に格納された情報が参照され、「今日の天気は」の後に続く文字列が予測され、複数の予測変換候補が出力される。本例では、上位候補から順に、「今日の天気は雨」、「今日の天気は晴れ」、「今日の天気は晴れみたい」、「今日の天気は晴れのち曇り」、「今日の天気は晴れのち雨」、及び「今日の天気は雨みたい」という6つの予測変換候補が出力される。これら6つの予測変換候補とこれらの候補順位が、予測変換候補一覧704として、単語境界判別部206に渡される。なお、予測変換候補一覧に含まれる予測変換候補の数は6つに限られず、予め適宜設定可能であるし、また、予測変換候補の信頼度に応じて可変であってもよい。
単語境界判別部206では、予測変換候補一覧704に含まれる予測変換候補のそれぞれについて単語の境界を判別し、予測変換候補一覧704と各予測変換候補の単語境界情報とが、低信頼度単語変換部204に送られる。低信頼度単語変換部204は、予測変換候補一覧704中の各予測変換候補と、認識結果テキスト701及びその上位信頼度単語706とを比較して、予測変換候補一覧の中から最も認識結果テキストに近い予測変換候補を出力する。より具体的には、認識結果テキスト701において、最上位信頼度単語が閾値よりも低い単語「あれ」における、上位信頼度単語706「あれ」、「晴れ」、「雨」と、この上位信頼度単語より後の文字列「のち雨です」と一致する予測変換候補があるか探索する。一致する変換候補がある場合、より上位の変換候補を変換後認識結果テキストとして出力する。一致する変換候補が複数ある場合、一致する単語数が多い方の候補を選択する。ここで、一致する単語数が同数の場合は、候補順位が上位の方を選択する。また、一致する変換候補がない場合は、そのまま認識結果テキストを変換後認識結果テキストとして出力する。図7に示す例では、予測変換候補一覧704中の各予測変換候補と、認識結果テキスト701及びその上位信頼度単語706とを比較すると、予測変換候補一覧のうち、「今日の天気は雨」、「今日の天気は晴れ」、「今日の天気は晴れのち雨」については、認識結果テキスト701とその上位信頼度単語のいずれかの組み合わせと一致する。一致する候補の中では、「今日の天気は雨」がより上位の候補順位となっているが、「今日の天気は晴れのち雨」の方が一致する単語数が多いので、こちらが変換結果として選択される。こうして、低信頼度単語変換部204は、「今日の天気は晴れのち雨です」を変換後認識結果テキスト705として出力する。
図8は、本実施形態による音声入力変換の別の実施例を示すものであり、音声認識後の認識結果テキストに低信頼度の単語が複数含まれる場合である。
まず、音声認識を行い、各単語の信頼度も算出する。この例では、認識結果テキスト801として「音声を文章へ変換しま」が得られ、各単語の区切りは「音声/を/文章/へ/変換/し/ま」であり、信頼度802はそれぞれ、0.90、0.85、0.80、0.37、0.90、0.70、0.40である。信頼値が所定の閾値よりも低い単語は「へ」(信頼度0.37)と「ま」(信頼度0.40)である。ここでは例えば、単語「へ」は、発音が曖昧だったために音声認識エンジン21が誤変換したものであり、単語「ま」は、発音が弱かったために最後が切れてしまったものである。図8には、この2つの単語のそれぞれについて、上位候補が一つずつ示されている。単語「へ」に対応する上位信頼度単語806は「に」(信頼度0.33)を含み、単語「ま」に対応する上位信頼度単語807は「ます」(信頼度0.35)を含む。
次に、予測変換元テキストを生成する。低信頼度の単語が複数ある場合は、その中で最も先頭寄りの単語より一つ前の単語までのテキストを、予測変換元テキストとする。この例では、2つある低信頼度の単語「へ」と「ま」のうち、先頭寄りの単語「へ」の一つ前の単語「文章」までのテキストを基に、予測変換元テキスト803として「音声を文章」を出力する。そして、この「音声を文章」に基づいて予測変換を行った結果、「音声を文章に変換」、「音声を文章に」、「音声を文章に変換します」、「音声を文章に変換する」、「音声を文章にします」、「音声を文章へ」という6つの予測変換候補が予測変換候補一覧804として出力される。
この予測変換候補一覧804が、認識結果テキスト801及びその上位信頼度単語806、807と比較され、最も類似する予測変換候補が出力結果として出力される。この例では、単語「ま」は部分的には一致するが単語単位では一致しないので選択されず、単語単位で一致する「ます」が選択される。こうして、「音声を文章に変換します」が変換後認識結果テキスト805として出力される。
図9は、本実施形態による音声入力変換のさらに別の実施例を示すものであり、音声認識後の認識結果テキストの最初の単語が低信頼度である場合を示す。
この例では、音声認識の結果、「恩師を改善しることができた」が認識結果テキスト901として出力される。各単語の区切りは「恩師/を/改善/しる/こと/が/でき/た」であり、信頼度902はそれぞれ、0.43、0.85、0.80、0.38、0.90、0.82、0.80である。信頼度が閾値よりも低い単語は「恩師」と「しる」である。ここでは例えば、単語「恩師」は、「つ」の発音が弱かったため誤変換したものであり、単語「しる」は、発音が曖昧だったため誤変換したものである。図9には、これらの各単語に対応する上位信頼度単語906、907として、それぞれ「音質」と「する」が含まれることが示されている。
低信頼度の単語が認識結果テキスト901の最も先頭にある場合、当該先頭の単語に対応する上位信頼度単語906に含まれる各単語、すなわち「恩師」と「音質」のそれぞれから、予測変換を実施する。単語「恩師」からの予測変換の結果、「恩師へ」、「恩師への」、「恩師を」、「恩師に合う」、「恩師への手紙」という5つの予測変換候補が予測変換候補一覧9041として出力される。また、単語「音質」からの予測変換の結果、「音質を上げる」、「音質改善」、「音質が悪い」、「音質を改善」、「音質を」という5つの予測変換候補が予測変換候補一覧9042として出力される。そして、予測変換候補一覧9041と予測変換候補一覧9042に含まれる全ての予測変換候補の中から、認識結果テキスト901とその上位信頼度候補906の組み合わせに最も類似する候補を選択する。一致する予測変換候補が複数ある場合、一致する単語数が多い方の候補を選択する。一致する単語数が多いものが複数ある場合には、候補順位が高い方の候補を選択する。図9の例の場合、「恩師を」より「音質を改善」の方が一致する単語数が多いため、「音質」が選択される。
認識結果テキスト901の最初の単語として「音質」が選択されたため、次に現れる低信頼度の単語「しる」の一つ前の単語「改善」まで、すなわち「音質を改善」、を予測変換元テキストとして、さらに予測変換を行う。その結果、「音質を改善」、「音質を改善する」、「音質を改善します」等々の予測変換候補が、予測変換候補一覧9043として出力される。この予測変換候補一覧9043を、認識結果テキスト901とその上位信頼度単語907と比較して、最も一致度の高い「音質を改善する」が選択される。こうして、「音質を改善することができた」が変換後認識結果テキスト905として出力される。
なお、音声認識サーバ20が後方一致検索を実装している場合には、低信頼度の単語が先頭になっている場合でも、低信頼度の一つ後ろの高信頼度のテキスト(図9の例では「を改善」)から、後方一致検索により予測変換候補を出力し、先頭の低信頼度の単語を決定するようにしてもよい。
以上のとおり、本発明の所定の実施形態によれば、既存の予測変換機能を用いて音声認識結果の修正を行うため、音声認識の誤認識を補正するための特別な情報を持っておく必要がなく、音声認識の誤認識を自動的に修正することができる。また、本発明の所定の実施形態においては、予測変換候補と信頼度が上位の候補とを比較し一致する候補を選択するため、誤認識を前後の単語と意味の繋がりが合う単語に修正することができる。さらに、本発明の所定の実施形態においては、ユーザがキー入力等で誤認識箇所を修正した場合に、予測変換に反映されるため、使い込むほど誤認識修正の精度を向上させることができる。また、本発明の所定の実施形態においては、モバイル端末に標準で実装されている予測変換機能を利用することで、比較的容易に本システムを実装することが可能となる。
また、本発明の所定の実施形態によれば、モバイル端末に発話された音声の認識結果テキストにおいて、単語信頼度の低い単語を、その低信頼度の単語よりも前の高信頼度の単語を用いて予測変換を行う。出力された予測変換候補と、低信頼度の単語とその候補単語とを比較して、一致する単語数の多い予測変換候補を修正後のテキストとして出力する。これによりユーザが意図した文章に変換され易くなる。この場合、単語間の並びの情報の統計モデルである言語モデルから出力された信頼度が上位の候補と、予測変換候補を比較しているため、前後の数単語と意味の繋がりが合う候補を選択することができる。一方、前後の単語と意味の繋がりが合わない単語は、候補に入らない。また、出力された音声認識結果テキストが、ユーザの求める結果と違っており、ユーザがキー入力等でテキストを修正した場合、予測変換の候補に反映する。これにより、次回の予測変換時には予測変換候補の上位になるため、よりユーザの求める変換結果を得られることが期待できる。
本発明の利用が考えられる分野としては、モバイル端末(携帯電話、スマートフォン、PDAなどを含む)やパーソナルコンピュータ(PC)など、音声認識によるテキスト入力機能を利用する機器、音声認識を実装するシステム全般、ウェブ検索サイトでの音声での検索ワード入力などがあるが、これらに限定されるものではない。
なお、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。
例えば、認識結果をそのまま出力したテキストと、予測変換を利用した変換後のテキストとをユーザが画面上で、選択できるようなユーザインターフェースも想定される。また、ウェブ検索サイトで音声により検索ワードを入力したい場合、ウェブ検索における予測変換又は履歴変換と連携させることで、本発明の音声認識の精度を向上させることが可能である。さらに、モバイル端末で後方一致検索を実装している場合、低信頼度単語の一つ後ろの高信頼度の単語から、後方検索により本発明を実施することもできる。
また、本実施形態および各変形例において示した各処理のステップは処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。さらに本明細書等において、手段とは、単に物理的手段を意味するものではなく、その手段が有する機能をソフトウェアによって実現する場合も含む。さらにまた、1つの手段が有する機能が2つ以上の物理的手段により実現されても、2つ以上の手段の機能が1つの物理的手段により実現されてもよい。また、本発明に係るソフトウェアの開発支援プログラムは、CD−ROMやDVD−ROM等の光学ディスク、磁気ディスク、半導体メモリなどの各種の記録媒体を通じて、又は通信ネットワークなどを介してダウンロードすることにより、コンピュータにインストール又はロードすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限
られない。
(付記1)入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、を備える音声入力支援システム。
(付記2)前記音声認識エンジンは、入力された音声をテキストに変換する際に、前記テキストに含まれる各単語の信頼度を出力する、ことを特徴とする付記1に記載の音声入力支援システム。
(付記3)前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力する、ことを特徴とする付記2に記載の音声入力支援システム。
(付記4)前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する、ことを特徴とする付記3に記載の音声入力支援システム。
(付記5)前記信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、前記信頼度の低い単語の一つ前の単語までを含む、ことを特徴とする付記1乃至4のいずれかに記載の音声入力支援システム。
(付記6)予測変換を行うための情報が格納され、前記予測変換モジュールによって参照される予測変換情報格納部と、前記予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して前記予測変換情報格納部に格納する予測変換候補順位決定部と、をさらに備えることを特徴とする請求項1乃至5のいずれかに記載の音声入力支援システム。
(付記7)音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、前記音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、前記予測変換モジュールが、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力するステップと、を備える音声入力支援方法。
(付記8)コンピュータに、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、を実現させるための音声入力支援プログラム。
(付記9)コンピュータに、入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、を実現させるための音声入力支援プログラムを記録したコンピュータ読み取り可能な記録媒体。
1…音声入力支援システム、10…モバイル端末、20…音声認識サーバ、21…音声認識エンジン、22…言語モデル、23…音響モデル、24…予測変換モジュール、101…音声検知部、102…認識結果表示部、103…入力検知部、201…音声認識処理部、202…言語モデル格納部、203…音響モデル格納部、204…低信頼度単語変換部、205…予測変換候補順位決定部、206…単語境界判別部、207…予測変換部、208…予測変換情報格納部

Claims (9)

  1. 入力された音声を、音声認識処理によりテキストに変換して出力する音声認識エンジンと、
    前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換モジュールと、
    を備える音声入力支援システム。
  2. 前記音声認識エンジンは、入力された音声をテキストに変換する際に、前記テキストに含まれる各単語の信頼度を出力する、
    ことを特徴とする請求項1に記載の音声入力支援システム。
  3. 前記音声認識エンジンは、変換したテキストに信頼度の低い単語が含まれる場合には、当該単語に換わる、一以上の候補単語を出力する、
    ことを特徴とする請求項2に記載の音声入力支援システム。
  4. 前記予測変換モジュールは、前記信頼度の高い一以上の単語からなる文字列に基づく複数の予測変換候補と、前記信頼度の低い単語及び当該単語の候補単語とを比較して、一致する候補を選択することによって、信頼度の低い単語を修正する、
    ことを特徴とする請求項3に記載の音声入力支援システム。
  5. 前記信頼度の高い一以上の単語からなる文字列は、音声認識エンジンが出力したテキストの最初の単語から、前記信頼度の低い単語の一つ前の単語までを含む、
    ことを特徴とする請求項1乃至4のいずれかに記載の音声入力支援システム。
  6. 予測変換を行うための情報が格納され、前記予測変換モジュールによって参照される予測変換情報格納部と、
    前記予測変換モジュールが出力したテキストをユーザが修正したとき、当該修正された内容を予測変換の順位に反映して前記予測変換情報格納部に格納する予測変換候補順位決定部と、
    をさらに備えることを特徴とする請求項1乃至5のいずれかに記載の音声入力支援システム。
  7. 音声認識エンジンと予測変換モジュールを備える音声入力支援システムにおいて、音声入力を支援する方法であって、
    前記音声認識エンジンが、入力された音声を、音声認識処理によりテキストに変換して出力するステップと、
    前記予測変換モジュールが、前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力するステップと、
    を備える音声入力支援方法。
  8. コンピュータに、
    入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、
    前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、
    を実現させるための音声入力支援プログラム。
  9. コンピュータに、
    入力された音声を、音声認識処理によりテキストに変換して出力する音声認識機能と、
    前記出力されたテキスト内の単語の中に信頼度の低い単語がある場合、前記テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換により、前記テキストの修正を行い、修正後のテキストを出力する予測変換機能と、
    を実現させるための音声入力支援プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2010224961A 2010-10-04 2010-10-04 音声入力支援装置 Active JP5688677B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010224961A JP5688677B2 (ja) 2010-10-04 2010-10-04 音声入力支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010224961A JP5688677B2 (ja) 2010-10-04 2010-10-04 音声入力支援装置

Publications (2)

Publication Number Publication Date
JP2012078650A true JP2012078650A (ja) 2012-04-19
JP5688677B2 JP5688677B2 (ja) 2015-03-25

Family

ID=46238959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010224961A Active JP5688677B2 (ja) 2010-10-04 2010-10-04 音声入力支援装置

Country Status (1)

Country Link
JP (1) JP5688677B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010836A (ja) * 2012-06-29 2014-01-20 Samsung Electronics Co Ltd 多重入力処理方法及び装置
JP2014035361A (ja) * 2012-08-07 2014-02-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法とプログラム
KR20160104243A (ko) * 2015-02-26 2016-09-05 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20190098090A (ko) * 2019-07-23 2019-08-21 엘지전자 주식회사 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US11270692B2 (en) 2018-07-27 2022-03-08 Fujitsu Limited Speech recognition apparatus, speech recognition program, and speech recognition method
WO2024053476A1 (ja) * 2022-09-05 2024-03-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004184535A (ja) * 2002-11-29 2004-07-02 Fujitsu Ltd 音声認識装置及び方法
JP2005234742A (ja) * 2004-02-18 2005-09-02 Toshiba Corp 文章作成装置および入力単語予測方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004184535A (ja) * 2002-11-29 2004-07-02 Fujitsu Ltd 音声認識装置及び方法
JP2005234742A (ja) * 2004-02-18 2005-09-02 Toshiba Corp 文章作成装置および入力単語予測方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014010836A (ja) * 2012-06-29 2014-01-20 Samsung Electronics Co Ltd 多重入力処理方法及び装置
JP2014035361A (ja) * 2012-08-07 2014-02-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法とプログラム
KR20160104243A (ko) * 2015-02-26 2016-09-05 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR102217292B1 (ko) 2015-02-26 2021-02-18 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US11270692B2 (en) 2018-07-27 2022-03-08 Fujitsu Limited Speech recognition apparatus, speech recognition program, and speech recognition method
KR20190098090A (ko) * 2019-07-23 2019-08-21 엘지전자 주식회사 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR102281515B1 (ko) * 2019-07-23 2021-07-26 엘지전자 주식회사 개인화 언어 모델을 이용하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
US11302311B2 (en) 2019-07-23 2022-04-12 Lg Electronics Inc. Artificial intelligence apparatus for recognizing speech of user using personalized language model and method for the same
WO2024053476A1 (ja) * 2022-09-05 2024-03-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム
JP7482459B2 (ja) 2022-09-05 2024-05-14 ダイキン工業株式会社 システム、支援方法、サーバ装置及び通信プログラム

Also Published As

Publication number Publication date
JP5688677B2 (ja) 2015-03-25

Similar Documents

Publication Publication Date Title
KR102596446B1 (ko) 모바일 디바이스들에서의 모달리티 학습
US8423351B2 (en) Speech correction for typed input
CN109844740B (zh) 跟进话音查询预测
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US8311829B2 (en) Multimodal disambiguation of speech recognition
US9123339B1 (en) Speech recognition using repeated utterances
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
JP5688677B2 (ja) 音声入力支援装置
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
KR20050071334A (ko) 텍스트 입력 방법
US20150073801A1 (en) Apparatus and method for selecting a control object by voice recognition
JP2007041319A (ja) 音声認識装置および音声認識方法
WO2007069762A1 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP4966324B2 (ja) 音声翻訳装置、および方法
JP2012003090A (ja) 音声認識装置および音声認識方法
KR20130050132A (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP4347716B2 (ja) 音声認識サーバ、音声入力システム、及び、音声入力方法
US11514899B2 (en) Using multiple languages during speech to text input
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
KR20090000858A (ko) 멀티모달 기반의 정보 검색 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150105

R150 Certificate of patent or registration of utility model

Ref document number: 5688677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150118