JP2013225115A - 音声認識装置、音声認識プログラム、及び、音声認識方法 - Google Patents

音声認識装置、音声認識プログラム、及び、音声認識方法 Download PDF

Info

Publication number
JP2013225115A
JP2013225115A JP2013044442A JP2013044442A JP2013225115A JP 2013225115 A JP2013225115 A JP 2013225115A JP 2013044442 A JP2013044442 A JP 2013044442A JP 2013044442 A JP2013044442 A JP 2013044442A JP 2013225115 A JP2013225115 A JP 2013225115A
Authority
JP
Japan
Prior art keywords
character string
correction
corrected
voice recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013044442A
Other languages
English (en)
Other versions
JP6169864B2 (ja
Inventor
Masato Obayashi
真人 大林
Akira Yoshizawa
顕 吉澤
Toru Nada
徹 名田
Seiki Taguchi
清貴 田口
Makoto Manabe
真 眞鍋
Shinji Hatanaka
真二 畑中
Norio Mima
紀雄 三摩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Denso IT Laboratory Inc
Soken Inc
Original Assignee
Denso Corp
Nippon Soken Inc
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Nippon Soken Inc, Denso IT Laboratory Inc filed Critical Denso Corp
Priority to JP2013044442A priority Critical patent/JP6169864B2/ja
Priority to US13/847,001 priority patent/US9153234B2/en
Priority to DE102013204841A priority patent/DE102013204841A1/de
Publication of JP2013225115A publication Critical patent/JP2013225115A/ja
Application granted granted Critical
Publication of JP6169864B2 publication Critical patent/JP6169864B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】発話した内容が誤認識された際に、誤認識された発話内容を容易且つ正確に修正することができる音声認識装置等を提供する。
【解決手段】音声認識装置は、ドライバ等の発話内容の音声認識結果(音声文字列)を表示した後、ステアリングに取り付けられたタッチパッドを介して、ドライバから、音声文字列における誤認識箇所(誤認識文字列)の正常な音声認識結果である修正文字列の入力を受け付ける(S230)。そして、音声文字列から、修正文字列と文字数が同じ文字列を抽出すると共に、これらの文字列のうち、修正文字列と一致する文字が最も多い文字列を誤認識文字列として検出し(S240)、該誤認識文字列を修正文字列に置換することで、音声文字列の修正を行う(S265)。
【選択図】図4

Description

本発明は、ユーザが発話した音声を認識する音声認識装置等に関する。
従来、ユーザが発話した内容を認識する音声認識技術が知られている。このような音声認識技術を車載装置に適用し、音声認識結果に応じて各種処理を行うことで、運転中のドライバは、視線を前方に向け、ステアリングを握ったまま、車載装置の操作を行うことが可能となる。しかしながら、発話内容を常に正確に認識することは困難であり、特に、走行中の車両のように騒音が多い環境では、良好な音声認識結果を得ることは難しい。
これに対し、特許文献1には、音声認識結果と、該音声認識結果に対する複数のパターンの修正指示を表示すると共に、いずれかの修正指示が発話されるとこれを音声認識し、音声認識した修正指示に基づき当初の音声認識結果に修正を加える音声認識装置について記載されている。このような音声認識装置によれば、発話内容が誤認識された場合であっても、容易に修正を加えることが可能となる。
特開2005−283797号公報
しかしながら、各修正指示を発話した際の音声が似通っている場合には、再び誤認識が生じる可能性がある。さらに、一般的に、発話内容が誤認識された場合、ユーザは、自分の発音のどこがどのように不適切であったかを把握することができず、同様の誤認識が繰り返し発生する場合が多い。このため、特許文献1に記載の音声認識装置のように、発話により音声認識結果の修正指示を行う場合には、発話した修正指示も同様に誤認識されるおそれがあり、ユーザに強いストレスを与えてしまう可能性がある。
本願発明は上記課題に鑑みてなされたものであり、発話した内容が誤認識された際に、誤認識された発話内容を容易且つ正確に修正することができる音声認識装置等を提供することを目的とする。
上記課題に鑑みてなされた請求項1に記載の発明に係る音声認識装置は、ユーザにより発話された内容を認識し、認識結果を示す文字列である音声文字列を生成する認識手段と、認識手段により生成された音声文字列を表示する表示手段と、を備える。また、ユーザが体の一部に当接させた状態で操作を行う操作部を介して、表示手段により表示された音声文字列の修正に用いる修正文字列の入力を受け付ける受付手段と、受付手段により入力が受け付けられた修正文字列を用いて、音声文字列の修正を行う修正手段と、を備える。
このような構成によれば、音声認識された発話内容に誤りがある場合には、操作部を押す操作やこする操作等といった手動による操作により該誤りを修正することができ、誤認識された発話内容を容易且つ正確に修正することができる。
第一実施形態の音声認識装置の構成を示すブロック図である。 第一実施形態のタッチパッドの構成を示すブロック図である。 第一実施形態の音声認識プログラムの構成を示すブロック図である。 第一実施形態の音声認識処理についてのフローチャートである。 第一実施形態において、修正文字列に基づき音声文字列中の誤認識文字列を検出する処理についての説明図である。 第二実施形態の音声認識処理についてのフローチャートである。 第二実施形態において、修正文字列の修正範囲を設定する際に表示される画面についての説明図である。 第三実施形態の音声認識処理についてのフローチャートである。 第三実施形態において、修正文字列の修正範囲を設定する際に表示される画面についての説明図である。 第四実施形態の音声認識処理についてのフローチャートである。 第四実施形態の音声認識処理についてのフローチャートである。 第四実施形態において、音声文字列における修正範囲を設定する際に表示される画面についての説明図である。 第四実施形態において、音声文字列における修正範囲を設定する際に表示される画面についての説明図である。 第五実施形態のPCの構成を示すブロック図である。
以下、本発明の実施形態について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。
[第一実施形態]
[構成の説明]
まず、第一実施形態の車載用の音声認識装置10の構成について、図1を用いて説明する。
この音声認識装置10は、自車両のステアリング30に取り付けられ、ドライバがステアリングホイールを握った状態で操作可能な二つのタッチパッド20に接続されている。また、車内LAN40を介して、ナビゲーション装置50a,エアコン50bや、無線通信によりインターネットにアクセスするための周知の通信装置50c等の車載装置と接続されている。
なお、音声認識装置10をナビゲーション装置等として構成しても良い。また、以後、舵角が0°の状態を基準として、ステアリング30に向かって右側に位置するタッチパッド20を右側のタッチパッド20と、左側に位置するタッチパッド20を左側のタッチパッド20と記載する。
そして、音声認識装置10は、ドライバ等の音声を集音し、音声信号を生成するマイク11と、各タッチパッド20と通信を行い、操作情報を取得する操作受付部12と、例えば周知のCPU,ROM,RAM等から構成され、音声認識装置10を統括制御する制御部13を備える。また、車内LAN40を介して車載装置と通信を行う車内LAN通信部14と、液晶ディスプレイ等から構成される表示部15と、例えばフラッシュメモリやHDD等から構成された記憶部16とを備える。
なお、図2に記載されているように、タッチパッド20は、板状の操作面によりタッチ操作を受け付ける操作部21と、音声認識装置10と通信を行う通信部22と、例えば周知のCPU,ROM,RAM等から構成され、タッチパッド20を統括制御する制御部23を備える。
そして、制御部23は、周期的なタイミングで、操作部21に対して行われたタッチ操作の有無や、タッチ操作がなされた位置(タッチ位置)を示す操作情報を生成し、通信部22を介して音声認識装置10に送信する。
一方、音声認識装置10の制御部13は、タッチパッド20から操作情報を取得すると、該操作情報に応じて各種処理を行うと共に、必要に応じて、該操作情報を他の車載装置に送信する。このため、ドライバは、タッチパッド20を介して、音声認識装置10や他の車載装置の操作を行うことが可能となっている。
また、音声認識装置10は、マイク11を介してドライバ等が発話した内容を認識する音声認識機能を有しており、音声認識結果に応じたコマンドを生成し、車内LAN40を介して他の車載装置に送信するよう構成されている。このため、ドライバ等は、発話により音声認識装置10や、ナビゲーション装置50a等の車載装置の操作を行うことができる。
さらに、これ以外にも、音声認識装置10は、音声認識結果から文書を生成し、通信装置50cを介してメールとして外部に送信することや、インターネットにアクセスしてツイッター等に該文書を投稿することができる。
また、この音声認識装置10は、タッチパッド20を介して受け付けた操作により、音声認識結果を修正する機能を有している。
すなわち、この音声認識装置10に搭載された(制御部13のROMに記憶された)音声認識プログラム100は、マイク11にて生成された音声信号に基づき周知の方法により音声認識を行い、音声認識結果を示す文字列(音声文字列)を生成する音声認識処理部110を有する(図3参照)。
また、タッチパッド20から取得した操作情報が示すタッチ位置の軌跡に基づき、タッチパッド20の操作面に描かれた文字を認識し、認識した文字を表示部15に表示させる文字認識部120を有する。
また、文字認識部120により認識された文字からなる文字列や、タッチパッド20から受け付けた操作に基づき音声文字列を修正し、修正後の音声文字列(修正済文字列)を表示部15に表示する修正処理部130を有する。
また、修正処理部130により修正がなされた修正済文字列に応じて各種処理を行うコマンド処理部140を有する。このコマンド処理部140は、修正済文字列に対応するコマンドを生成し、車内LAN40を介して他の車載装置50に送信すると共に、修正済文字列を文書として通信装置50cに送信し、メールの送信等を行わせる。
[動作の説明]
次に、第一実施形態の音声認識装置10の動作について説明する。第一実施形態では、音声認識装置10は、タッチパッド20を介して入力された文字からなる修正文字列により、ドライバ等の発話内容の認識結果である音声文字列から、誤認識された文字列(誤認識文字列)を検出する。そして、音声文字列における誤認識文字列を修正文字列に置換することで修正済文字列を生成し、修正済文字列に基づき各種処理を行う。
以下では、ドライバ等の発話内容の音声認識を行うと共に、修正文字列を用いて音声認識結果である音声文字列を修正する音声認識処理について、図4に記載のフローチャートを用いて説明する。なお、本処理は、音声認識プログラム100に従い動作する音声認識装置10により実現されると共に、ドライバ等の発話が開始された際に実行される処理である。
S205では、音声認識装置10の制御部13は、周知の方法により発話内容の音声認識を行うと共に、音声認識結果を示すひらがなの文字列を生成する。そして、該文字列を周知の方法により漢字変換或いはカタカナ変換し、変換後の文字列を音声文字列として、S210に処理を移行する。
S210では、制御部13は、音声認識結果である音声文字列を表示部15に表示し、S215に処理を移行する。
S215では、制御部13は、過去に行われた音声文字列の修正の記録である修正記録データに基づく音声文字列の修正(自動修正)を行うか否かを判定する。
具体的には、例えば、記憶部16にアクセスして音声認識についての設定データを参照し、自動修正を行う設定となっているか否かを判定しても良い。また、表示部15を介してドライバ等へ自動修正を行うか否かの問い合わせを行うと共に、タッチパッド20を介して該問い合わせに対する応答を受け付け、該応答に応じて自動修正を行うか否かを判定しても良い。そして、肯定判定が得られた場合には(S215:Yes)、S220に処理を移行し、否定判定が得られた場合には(S215:No)、S230に処理を移行する。
S220では、制御部13は、記憶部16に記憶されている修正記録データに基づき、音声文字列の修正を行う。この修正記録データとは、過去に生成された音声文字列に含まれていた誤認識文字列と、該誤認識文字列を置換した修正文字列とを対応付けて記録したものである。制御部13は、新たに生成された音声文字列の中に、修正記録データに記録されている誤認識文字列が含まれているか否かを判定する。
そして、該誤認識文字列が含まれている場合には、音声文字列中の該誤認識文字列を、修正記録データにおいて該誤認識文字列に対応付けられている修正文字列に置換すると共に、置換後の音声文字列を修正済文字列として表示部15に表示し、S225に処理を移行する。
S225では、制御部13は、表示部15を介して、ドライバ等に対し、自動修正による修正結果が正しいか否かを問い合わせると共に、タッチパッド20を介して該問い合わせに対する応答を受け付ける。そして、修正結果が正しいとの応答を受け付けた場合には(S225:Yes)、本処理を終了し、修正結果が間違っているとの応答を受け付けた場合には(S225:No)、S230に処理を移行する。
S230では、制御部13は、一方(例えば右側)のタッチパッド20を介して、修正文字列の入力を受け付ける。具体的には、該タッチパッド20の操作面に1文字ずつ文字を描く操作を受け付けると共に、該操作が行われている間に該タッチパッド20から受信した操作情報が示すタッチ位置の軌跡に基づき、描かれた各文字を検出する。そして、これらの文字を検出した順に並べて文字列とすると共に、該文字列に対して、周知の方法により漢字変換,カタカナ変換,ひらがな変換を行ったものを修正文字列とし、S235に処理を移行する。
S235では、制御部13は、他方(例えば左側)のタッチパッド20を介して、音声文字列から削除する文字列である削除文字列の入力を受け付ける。具体的には、修正文字列の入力を受け付ける際と同様、該タッチパッド20を介して操作面に1文字ずつ文字を描く操作を受け付けると共に、該タッチパッド20から受信した操作情報が示すタッチ位置の軌跡に基づき、描かれた各文字を検出する。そして、これらの文字を検出した順に並べて文字列とすると共に、該文字列に対して、周知の方法により漢字変換,カタカナ変換,ひらがな変換を行ったものを削除文字列とし、S240に処理を移行する。
S240では、制御部13は、修正文字列に基づき音声文字列の中から誤認識文字列を検出する。
具体的には、例えば、図5に記載されているように、修正文字列300と同一の文字数の文字列を対象文字列とすると共に、最初に、音声文字列310の始端に位置する文字を先頭とする対象文字列320を抽出する。その後、先頭の文字を音声文字列310の終端に向かって一文字ずつずらしながら、音声文字列310から対象文字列321〜324を順次抽出する。そして、音声文字列310の終端に位置する文字を最後尾とする対象文字列325が抽出されると、音声文字列310から全ての対象文字列を抽出したものとし、対象文字列の抽出を終える。
なお、これとは逆に、最初に、音声文字列の終端に位置する文字を最後尾とする対象文字列を抽出し、以後、最後尾の文字を音声文字列の始端に向かって一文字ずつずらしながら、音声文字列から対象文字列を順次抽出しても良い。そして、音声文字列の始端に位置する文字を先頭とする対象文字列が抽出されると、音声文字列から全ての対象文字列を抽出したものとし、対象文字列の抽出を終えても良い。
また、修正文字列と文字数が同一の文字列に加え、例えば、1文字或いは2文字程度文字数が異なる文字列を対象文字列とし、同様の抽出を行っても良い。
また、これ以外にも、周知の方法により修正文字列を構成する各品詞を抽出し、これらの品詞を対象文字列として抽出しても良い。
そして、制御部13は、抽出された各対象文字列と修正文字列とを比較し、対象文字列のうち、修正文字列と一致する文字が最も多いものを誤認識文字列として検出し、S245に処理を移行する。なお、修正文字列と一致する文字の割合が所定値以上である対象文字列を、誤認識文字列として検出しても良い。
S245では、制御部13は、複数の誤認識文字列が検出されたか否かを判定する。そして、肯定判定が得られた場合には(S245:Yes)、S250に処理を移行し、否定判定が得られた場合には(S245:No)、S265に処理を移行する。
S250では、制御部13は、検出された複数の誤認識文字列のうち、修正記録データに記録されている誤認識文字列と一致するものを、誤検出されたものではない誤認識文字列として特定し、表示部15に表示すると共に、他の誤認識文字列を無効とする。そして、S255に処理を移行する。
S255では、制御部13は、表示部15を介して、ドライバ等に対し、誤認識文字列の特定結果が正しいか否かを問い合わせると共に、タッチパッド20を介して該問い合わせに対する応答を受け付ける。そして、特定結果が正しいとの応答を受け付けた場合には(S255:Yes)、S265に処理を移行し、特定結果が間違っているとの応答を受け付けた場合には(S255:No)、S260に処理を移行する。
S260では、制御部13は、タッチパッド20を介して、誤認識文字列を指定する操作を受け付ける。このとき、制御部13は、S240で検出された複数の誤認識文字列を表示部15に表示し、これらの中から誤認識文字列を指定する操作を受け付けても良い。また、仮に修正記録データに基づき複数の誤認識文字列が特定された場合であれば、これらの誤認識文字列を表示部15に表示し、これらの中から誤認識文字列を指定する操作を受け付けても良い。
続くS265では、制御部13は、音声文字列に含まれている誤認識文字列を、該誤認識文字列の検出に用いられた修正文字列に置換すると共に、削除文字列が入力された場合には、置換がなされた音声文字列に含まれている削除文字列を削除することで、修正済文字列を生成する。そして、修正済文字列を表示部15に表示し、S270に処理を移行する。
S270では、制御部13は、修正文字列と、該修正文字列を置換した誤認識文字列とを対応付けて修正記録データとして新たに記録し、本処理を終了する。
なお、制御部13は、音声認識処理を終了すると、修正済文字列が、音声認識装置10や他の車載装置50への操作を行うための語句として登録された文字列と一致するか否かを判定し、一致する場合には、修正済文字列に基づき各種処理を行う。また、通信装置50cを介してメールの送信等が行われる場合には、修正済文字列を文書とし、車内LAN40を介して通信装置50cに送信する。
[第二実施形態]
[構成の説明]
次に、第二実施形態の車載用の音声認識装置10について説明する。
第二実施形態の音声認識装置10は、第一実施形態と同様の構成を有しており、ナビゲーション装置50a等が接続された車内LAN40に接続されていると共に、第一実施形態と同様にしてステアリング30に取り付けられた二つのタッチパッド20に接続されている。
第二実施形態のタッチパッド20は、第一実施形態と同様に操作部21,通信部22,制御部23を備えるが、この操作部21には、操作面に加えられた荷重を検出する歪検出素子(図示無し)が設けられている。
そして、制御部23は、歪検出素子からの信号に基づき、周知の方法により、タッチ位置と、タッチ位置に加えられた力の大きさ(操作力)を検出し、周期的なタイミングで、タッチ操作の有無や、タッチ位置と操作力を示す操作情報を生成し、通信部22を介して音声認識装置10に送信する。
[動作の説明]
次に、第二実施形態の音声認識装置10の動作について説明する。第二実施形態では、音声認識装置10は、タッチパッド20を介して修正文字列の入力を受け付けると共に、音声文字列に含まれる文字列を修正範囲として指定する操作を受け付ける。そして、修正範囲の文字列を修正文字列に置換することで音声文字列の修正を行い、修正済の音声文字列(修正済文字列)に基づき、第一実施形態と同様の処理を行う。
以下では、ドライバ等の発話内容の音声認識を行うと共に、修正文字列を用いて音声認識結果である音声文字列を修正する音声認識処理について、図6に記載のフローチャートを用いて説明する。なお、本処理は、音声認識プログラム100に従い動作する音声認識装置10により実現されると共に、ドライバ等の発話が開始された際に実行される処理である。
S405では、音声認識装置10の制御部13は、周知の方法により発話内容の音声認識を行うと共に、音声認識結果を示すひらがなの文字列を生成する。そして、該文字列を周知の方法により漢字変換或いはカタカナ変換し、変換後の文字列を音声文字列として、S410に処理を移行する。
S410では、制御部13は、音声認識結果である音声文字列を表示部15に表示し、S415に処理を移行する。
S415では、制御部13は、第一実施形態と同様にして、タッチパッド20を介して修正文字列の入力を受け付け、S420に処理を移行する。
S420では、制御部13は、左右のタッチパッド20を介して、音声文字列中の修正範囲を指定する操作を受け付ける。
具体的には、例えば、図7に記載されているように、制御部13は、表示部15に表示された音声文字列330の両端に位置する文字と重複した状態で、左カーソル331と右カーソル332とを表示する。
なお、表示部15の画面に向かって左側に左カーソル331が、向かって右側に右カーソル332が表示され、これらのカーソルは、常に、いずれかの文字と重複した状態で表示される。また、左カーソル331は左側のタッチパッド20に、右カーソル332は右側のタッチパッド20に対応している。
そして、制御部13は、左側のタッチパッド20に加えられた操作力の大きさに応じて左カーソル331の位置を移動させる。すなわち、該タッチパッド20に操作力が加えられていない場合には、左カーソル331を音声文字列330の左端に表示すると共に、操作力が大きくなるにつれ、左カーソル331を右方に表示する。また、右カーソル332についても、同様にして、右側のタッチパッド20に加えられた操作力の大きさに応じて左方に位置を移動させる。
なお、これ以外にも、制御部13は、例えば、各タッチパッド20の操作面をなぞる操作(スライド操作)に応じて、対応するカーソルの位置を移動させても良い。すなわち、制御部13は、右方向へのスライド操作を受け付けた場合には、対応するカーソルを右方に移動させ、左方向へのスライド操作を受け付けた場合には、対応するカーソルを左方に移動させても良い。
その後、制御部13は、タッチパッド20を介して特定の操作を受け付けると、その時点における左,右カーソル331,332を両端とする文字列を修正範囲とみなし、S425に処理を移行する。なお、左,右カーソル331,332を同一の文字に重複して表示させることもできるが、このような場合には、該文字が修正範囲となる。
また、例えば、制御部13は、タッチパッド20を介して特定の操作を受け付けた場合には、修正範囲を指定する操作に替えて、修正文字列を挿入する挿入位置を指定する操作を受け付けても良い。このような場合には、例えば、音声文字列のいずれかの文字に隣接して、挿入位置を示す1つの棒状のカーソルを表示し、タッチパッド20を介して受け付けたスライド操作に応じて、該カーソルの表示位置を移動させても良い。
S425では、制御部13は、修正範囲に対応する文字列を入力された修正文字列に置換することで音声文字列を修正し、修正済文字列を生成する。また、修正文字列の挿入位置の指定を受け付けた場合には、該挿入位置に修正文字列を挿入することで、修正済文字列を生成しても良い。そして、修正済文字列を表示部15に表示し、本処理を終了する。
[第三実施形態]
[構成の説明]
次に、第三実施形態の車載用の音声認識装置10について説明する。
第三実施形態の音声認識装置10もまた、第一,第二実施形態と同様の構成を有しており、ナビゲーション装置50a等が接続された車内LAN40に接続されていると共に、第一,第二実施形態と同様にしてステアリング30に取り付けられた二つのタッチパッド20に接続されている。
第三実施形態のタッチパッド20は、第一,第二実施形態と同様に操作部21,通信部22,制御部23を備えるが、この操作部21は、操作面に沿って格子状の電極列が設けられた静電容量方式のタッチパネルとして構成されている。
このため、制御部23は、操作部21の操作面の2箇所を同時にタッチする操作を検出することができ、周期的なタイミングで、タッチ操作の有無や、最大2箇所のタッチ位置を示す操作情報を生成し、通信部22を介して音声認識装置10に送信する。
[動作の説明]
次に、第三実施形態の音声認識装置10の動作について説明する。第三実施形態では、音声認識装置10は、タッチパッド20を介して音声文字列を編集する操作を受け付ける。また、修正文字列の入力を受け付けると共に、音声文字列における修正文字列の挿入位置や修正範囲を指定する操作を受け付け、これらに基づき音声文字列の編集を行う。そして、編集がなされた音声文字列(修正済文字列)に基づき、第一,第二実施形態と同様の処理を行う。
以下では、ドライバ等の発話内容の音声認識を行うと共に、音声認識結果である音声文字列を修正する音声認識処理について、図8に記載のフローチャートを用いて説明する。なお、本処理は、音声認識プログラム100に従い動作する音声認識装置10により実現されると共に、ドライバ等の発話が開始された際に実行される処理である。
S505では、音声認識装置10の制御部13は、周知の方法により発話内容の音声認識を行うと共に、音声認識結果を示すひらがなの文字列を生成する。そして、該文字列を周知の方法により漢字変換或いはカタカナ変換し、変換後の文字列を音声文字列として、S510に処理を移行する。
S510では、制御部13は、音声認識結果である音声文字列を表示部15に表示し、S515に処理を移行する。
S515では、制御部13は、いずれかのタッチパッド20を介して、修正文字列を入力するか否かの指示を受け付ける。そして、該指示を受け付けた場合には(S515:Yes)、S525に処理を移行し、該指示を受け付けなかった場合には(S515:No)、S520に処理を移行する。
S520では、制御部13は、タッチパッド20を介して受け付けた操作に応じて音声文字列を編集し、編集後の音声文字列を修正済文字列とする。
具体的には、図9に記載されているように、例えば、制御部13は、音声文字列の中央に位置する文字に重複した状態で、一つのカーソル350を表示し、タッチパッド20を介して受け付けた操作に応じて、カーソル350の位置をいずれかの文字に重複する位置に移動させる。
そして、タッチパッド20の操作面の2箇所を同時にタッチする操作を受け付けると、以後、隣接する2文字に重複する位置に左カーソル351,右カーソル352を表示する。なお、左,右カーソル351,352は、常に、音声文字列におけるいずれかの文字と重複した状態で表示される。
その後、2つのタッチ位置が離間或いは接近するように各タッチ位置を横にずらす操作(ピンチ操作)を受け付けると、これらのタッチ位置の間隔に応じて左,右カーソル351,352の位置を移動させる。すなわち、タッチ位置の間隔が大きくなるにつれ、間隔が広がるようにこれらのカーソルを移動させると共に、タッチ位置の間隔が小さくなるにつれ、間隔が縮まるようにこれらのカーソルを移動させる。
なお、ピンチ操作に限らず、例えば、制御部13は、第二実施形態と同様に、左右のタッチパッド20へのスライド操作に応じて左,右カーソル351,352を移動させても良い。
さらに、制御部13は、タッチパッド20を介して、左右カーソル351,352を両端とする修正範囲の文字列を削除する操作を受け付ける。なお、ピンチ操作等により、左,右カーソル351,352を同一の文字に重複して表示させることもできるが、このような場合には、該文字が修正範囲となる。
また、これ以外にも、例えば、修正範囲をコピーして音声文字列中の特定の挿入位置に挿入させる操作等を受け付け、これらの操作に応じて音声文字列を編集し、編集後の音声文字列を修正済文字列として本処理を終了する。
一方、S525では、制御部13は、第一実施形態と同様にして、一方(例えば右側)のタッチパッド20を介して修正文字列の入力を受け付け、S530に処理を移行する。
S530では、制御部13は、他方(例えば左側)のタッチパッド20を介して、修正文字列を用いて音声文字列を編集する指示を受け付ける。具体的には、例えば、S520と同様、該タッチパッド20に対するピンチ操作により修正範囲の指定を受け付けると共に、修正範囲の文字列を修正文字列に置換する指示を受け付けても良い。また、これ以外にも、例えば、該タッチパッド20に対するスライド操作により、修正文字列の挿入位置等の指定を受け付けると共に、該挿入位置に修正文字列を挿入する指示を受け付けても良い。
続くS535では、制御部13は、S530で受け付けた指示に応じて、修正文字列を用いて音声文字列を編集し、修正済文字列を生成する。そして、修正済文字列を表示部15に表示し、本処理を終了する。
[第四実施形態]
[構成の説明]
次に、第四実施形態の車載用の音声認識装置10について説明する。
第四実施形態の音声認識装置10は、第一実施形態と同様の構成を有しており、ナビゲーション装置50a等が接続された車内LAN40に接続されていると共に、第一実施形態と同様にしてステアリング30に取り付けられた二つのタッチパッド20に接続されている。
これらのタッチパッド20は、第二実施形態と同様に構成されており、周期的なタイミングで、タッチ操作の有無や、タッチ位置と操作力を示す操作情報を音声認識装置10に送信する。
また、第四実施形態の音声認識装置10には、第一実施形態と同様の構成を有する音声認識プログラム100が搭載されている。
[動作の説明]
次に、第四実施形態の音声認識装置10の動作について説明する。第四実施形態では、音声認識装置10は、第一実施形態と同様、タッチパッド20を介して入力された修正文字列により音声文字列から誤認識文字列を検出すると共に、誤認識文字列を修正文字列に置換することで修正済文字列を生成し、修正済文字列に基づき各種処理を行う。
しかし、第一実施形態では、音声文字列の全範囲を対象に誤認識文字列を検出するのに対し、第四実施形態では、音声文字列に対し誤認識文字列を検出する対象となる修正範囲を設定可能となっており、この点において第一実施形態と相違している。
以下では、ドライバ等の発話内容の音声認識を行って音声文字列を生成すると共に、修正文字列を用いて音声文字列を修正する音声認識処理について、図10,11に記載のフローチャートを用いて説明する。なお、本処理は、音声認識プログラム100に従い動作する音声認識装置10により実現されると共に、ドライバ等の発話が開始された際に実行される処理である。
S605〜S635の処理は、それぞれ、第一実施形態における音声認識処理のS205〜S235と同様であるため、説明を省略する。
S640では、音声認識装置10の制御部13は、一方のタッチパッド20を介して修正範囲の設定を受け付ける。
具体的には、制御部13は、表示部15に表示された音声文字列の表示領域360にカーソル361を表示すると共に、タッチパッド20の操作面をなぞる操作に応じてカーソル361の位置を移動させる(図12参照)。
また、このとき、操作面に一定の操作力が加えられると、制御部13は、音声文字列の表示領域360にカーソル361の表示位置(基準位置)を中心とした円形の修正領域362を表示し、該操作力に応じて修正領域362の広さを調整する。なお、操作力が大きくなるにつれ修正領域362が広くなる。
そして、制御部13は、修正領域362に含まれる文字列を修正範囲として設定する。なお、基準位置や操作力によっては、表示領域360に表示された音声文字列のうちの連続しない複数の文字列が、修正範囲として設定される場合もある。
このほかにも、制御部13は、表示領域360に表示された音声文字列を構成するいずれかの文字を選択するためのカーソル365を表示し、操作面をなぞる操作に応じてカーソル365を移動させ、いずれかの文字を選択する構成としても良い(図13参照)。
また、このとき、操作面に一定の操作力が加えられると、制御部13は、カーソル365により選択された文字が中央(基準位置)に位置する文字列を修正範囲として特定し、音声文字列の表示領域360に修正範囲366を表示しても良い。そして、制御部13は、操作力に応じて修正範囲366の長さを調整し、操作力が大きくなるにつれ、修正範囲366が長くなる構成としても良い。
このとき、カーソル365の位置や操作力によっては、表示領域360に表示された音声文字列における複数行に跨った文字列が修正範囲として特定される場合もある。また、これ以外にも、例えば、カーソル365により選択された文字が先頭或いは最後尾に位置する文字列を修正範囲としても良い。
その後、タッチパッド20の操作面から指が離され、操作面をなぞる操作や押圧する操作が終了すると、制御部13は、その時点における修正範囲を確定させる。しかし、一定時間内にこれらの操作が再開された場合には、制御部13は、これに応じて修正範囲の調整を再開する。
続くS645では、制御部13は、修正範囲の設定に用いられたタッチパッド20に対し、予め定められた方向に向かって一定速度以上でスライド操作(フリック操作)がなされたか否かを判定する。そして、制御部13は、肯定判定が得られた場合には(S645:Yes)、S650に処理を移行すると共に、否定判定が得られた場合には(S645:No)、S640に処理を移行する。
なお、制御部13は、修正範囲が確定した後、一定時間が経過してもスライド操作がなされない場合には、本処理を終了しても良い。
S650では、制御部13は、音声文字列における修正範囲に含まれる文字列の中から、第一実施形態における音声認識処理のS240と同様にして誤認識文字列を検出し、S655に処理を移行する。なお、修正範囲に複数の文字列が含まれるという場合には、各文字列に対して誤認識文字列の検出がなされる。
S655〜S670の処理は、それぞれ、第一実施形態における音声認識処理のS245〜S260と同様であるため、説明を省略する。
S675では、制御部13は、S265と同様にして、誤認識文字列を修正文字列に置換すると共に、置換がなされた音声文字列から削除文字列を削除することで、修正済文字列を生成する。そして、制御部13は、音声文字列の表示領域360において、修正文字列363,367を明示した状態で修正済文字列を表示し(図12,13)、S680に処理を移行する。
S680の処理は、第一実施形態における音声認識処理のS270と同様であるため、説明を省略する。
[第五実施形態]
[構成の説明]
まず、第五実施形態の音声認識装置について説明する。
図14には、第五実施形態の音声認識装置として動作する周知のパーソナルコンピュータ(PC)60が記載されており、このPC60は、各種映像を表示するディスプレイ61と、キーボード,マウス,タッチパッド,マイク等として構成された入力装置62を備える。
また、書き込み可能な揮発性メモリであるRAM65と、読み出し専用の不揮発性メモリであるROM66と、書き込み可能な不揮発性メモリであり、各種プログラム等が記憶されているHDD64を備える。
なお、RAM65は、CPU63がROM66,HDD64に記憶されたプログラムを実行する際に、そのプログラムを一時的に保存するための記憶領域、及び作業用のデータを一時的に保存するための記憶領域として用いられる。
また、CPU63は、オペレーティングシステム(OS)をHDD64から読み出して実行し、HDD64に記憶されている各種プログラムをOS上のプロセスとして実行する。また、このプロセスにおいて、CPU63は、必要に応じて入力装置62から信号の入力を受け付け、ディスプレイ61に映像信号を出力し、RAM65,HDD64に対してデータの読み出し/書き込みの制御を行う。
このPC60には、第一或いは第四実施形態と同様の構成を有する音声認識プログラム100がインストールされており、CPU63は、OS上のプロセスとして音声認識プログラム100を実行する。そして、入力装置62として設けられたマイク,キーボード,マウス,タッチパッド等を介して、音声認識や音声認識結果(音声文字列)の修正を行うと共に、修正後の音声認識結果に応じて、上記プロセスとして動作するアプリケーションの操作や、文書の作成等を行う。
[動作の説明]
次に、第五実施形態の音声認識装置(音声認識プログラム100を実行するPC60)の動作について説明する。PC60においても、第一或いは第四実施形態とほぼ同様の音声認識処理により、ユーザの発話内容の音声認識や音声認識結果の修正が行われるが、修正文字列や削除文字列の入力方法等が相違している。
すなわち、第一或いは第四実施形態の音声認識処理における制御部13をCPU63に、表示部15をディスプレイ61に、記憶部16をHDD64に、タッチパッド20を入力装置62(キーボード,マウス,タッチパッド)に置き換えたものが、第五実施形態の音声認識処理に相当する。
また、第一実施形態におけるS230,S235や、第四実施形態におけるS630〜S645では、タッチパッド20の操作面をなぞる操作を介して修正文字列や削除文字列の入力を受け付ける。
一方、第五実施形態では、第一或いは第四実施形態と同様にタッチパッドを介して修正文字列等の入力を受け付けても良いが、キーボードを介して修正文字列等の入力を受け付けても良いし、マウスを移動させて文字を描く操作により修正文字列等の入力を受け付けても良い。また、キーボードやマウスを介して修正範囲の入力を受け付けても良い。
[効果]
第一〜第五実施形態の音声認識装置によれば、音声認識結果(音声文字列)に誤りがある場合には、タッチパッド20等を介して行った操作により該誤りを修正することができ、誤認識された部分(誤認識文字列)を容易且つ正確に修正することができる。このため、例えば車内のような騒音の多い環境であっても、発話による車載装置やPCの操作やメール等の文書の作成を円滑に行うことができる。
また、第一,第四,第五実施形態の音声認識装置によれば、ドライバ等は、音声文字列における誤認識部分(誤認識文字列)を把握し、タッチパッド20等を介して正しい認識結果(修正文字列)を入力するのみで、該誤認識文字列が修正文字列に置換される。このため、極めて容易に音声文字列を修正することができる。
特に、第一,第四実施形態の音声認識装置では、ステアリング30に取り付けられたタッチパッド20の操作面に文字を描くことで修正文字列が入力されるため、ドライバがステアリング30を握った状態で修正文字列を入力することができる。したがって、運転中であっても極めて容易に音声文字列を修正することができ、騒音の多い車内において、発話による車載装置の操作等を円滑に行うことが可能となる。
また、第一,第四実施形態の音声認識装置では、音声文字列から、修正文字列と文字数が同じ文字列、或いは文字数が若干異なる文字列が全て抽出されると共に、これらの文字列のうち、修正文字列と一致する文字数が最多のものが、誤認識文字列として検出される。このため、誤認識文字列を精度良く検出することができる。
また、これ以外にも、音声文字列を構成する各品詞のうち、修正文字列と一致する文字数が最多のものを誤認識文字列として検出することもできる。これにより、修正文字列と文字数が同じ文字列等を全て抽出する場合に比べ、一致する文字数をカウントする回数を減らすことができ、処理負荷を抑えつつ、誤認識文字列を精度良く検出することができる。
しかし、このような方法(編集距離に基づく方法)により誤認識文字列を検出すると、修正文字列の長さが短い場合や、誤認識文字列の検出対象となる文字列が長い場合には、誤認識文字列が誤検出される可能性が高くなる。
これに対し、第四実施形態の音声認識装置では、タッチパッド20を介して音声文字列から修正範囲を設定し、修正範囲の中から誤認識文字列を検出する。このため、誤認識文字列の検出対象を絞り込むことができ、誤認識文字列の検出精度を向上させることができる。
また、第四実施形態の音声認識装置では、タッチパッド20の操作面をさする操作により、修正範囲を定める基準位置を設定できると共に、該操作面の押圧により修正範囲を定めることができる。このため、音声文字列が表示された画面を見ながら、片手で容易に修正範囲を設定することができる。
そして、修正範囲を設定した後は、タッチパッド20の操作面に対してスライド操作を行うことで、音声文字列の修正がなされる。このため、該操作面に触れた状態で行う一連の操作により、修正範囲の設定と音声文字列の修正を行うことができ、極めて容易且つ正確に音声文字列の修正を行うことができる。
また、第一〜第五実施形態の音声認識装置では、音声認識結果に対し漢字変換やカタカナ変換がなされたものが表示されると共に、ドライバ等から入力された文字列に対し漢字変換,カタカナ変換,ひらがな変換を行ったものが修正文字列として用いられる。このため、ドライバ等は、音声文字列や修正文字列の内容を容易に把握することができ、使い勝手を高めることができる。
また、第一,第四実施形態の音声認識装置では、ステアリング30に取り付けられた二つのタッチパッド20のうち、一方のタッチパッド20を介して修正文字列の入力を受け付けると共に、他方のタッチパッド20を介して、音声文字列から削除する削除文字列の入力を受け付ける。そして、音声文字列における誤認識文字列を修正文字列に置換すると共に、音声文字列から削除文字列を削除することで、音声文字列の修正がなされる。このため、多様な方法で音声文字列を修正することができ、使い勝手を高めることができる。
また、第一,第四,第五実施形態の音声認識装置では、修正文字列と該修正文字列に置換された誤認識文字列とを対応付けて修正記録データとして記録される。そして、音声文字列に修正記録データに記録されている誤認識文字列が含まれている場合には、該誤認識文字列を、修正記録データにおいて該誤認識文字列に対応付けられている修正文字列に置換することで、音声文字列の修正が行われる。このため、ドライバ等の手を煩わせること無く音声文字列を修正することができる。
さらに、誤認識文字列が複数検出される可能性があるが、このような場合には、これらの誤認識文字列のうち、修正記録データに記録された誤認識文字列と一致するものが、誤検出されたものではない誤認識文字列として特定され、他の誤認識文字列は無効となる。このため、精度良く音声文字列を修正することができる。
また、第二,第三実施形態の音声認識装置によれば、ステアリング30に取り付けられた2つのタッチパッド20を介して、修正文字列に置換する文字列や、修正文字列の挿入位置を設定する操作を受け付け、該操作に応じて音声文字列が修正される。このため、ドライバは、容易に音声文字列を修正することができる。
特に、第二実施形態では、音声文字列の両端に、左側のタッチパッド20に対応する左カーソルと、右側のタッチパッド20に対応する右カーソルが表示され、各タッチパッド20への操作に応じて対応するカーソルを移動させることで、修正範囲が設定される。具体的には、各タッチパッド20に対する操作力に応じて対応するカーソルの位置を移動させるといった方法や、各タッチパッド20に対するスライド操作に応じて対応するカーソルの位置を移動させるといった方法により、修正範囲が設定される。
このため、ドライバは、ステアリング30を握った状態で容易に音声文字列を修正することができ、発話による車載装置の操作や文書の作成を円滑に行うことができる。
[他の実施形態]
(1)第一〜第五実施形態の音声認識装置では、音声認識結果を示すひらがなの文字列に対して漢字変換,カタカナ変換がなされたものが音声文字列として生成されると共に、ドライバ等により入力された文字列に漢字変換,カタカナ変換,ひらがな変換を行ったものが修正文字列として用いられる。しかしながら、この漢字変換等は必ずしも必要というわけではなく、ひらがな(或いはカタカナ)の音声文字列を生成すると共に、ドライバ等からひらがな(或いはカタカナ)の修正文字列の入力を受け付け、音声文字列の修正を行っても良い。
このような場合であっても、発話により車載装置等の比較的単純な操作を行うという場合であれば特に支障は無く、また、処理負荷を抑えつつ音声文字列の修正を行うことができる。
(2)また、第一〜第四実施形態の音声認識装置では、タッチパッド20を介して修正文字列や、削除文字列や、音声文字列の修正を行うための情報や、修正範囲の入力を受け付けるが、これに限らず、複数のボタンから構成される操作部から修正文字列等の入力を受け付けても良い。
また、第四実施形態の音声認識装置10では、タッチパッド20の操作面に対する操作力に応じて修正範囲を設定する。しかしながら、これ以外にも、例えば、タッチパッド20の操作面に対するピンチ操作に応じて修正範囲を設定する構成としても良いし、タッチパッド20の操作面をさする操作により修正範囲となる文字列の先頭と最後尾を直接指定するといった構成にしても良い。
また、該音声認識装置10では、修正範囲を設定した後、スライド操作に応じて修正範囲の文字列の修正を行うが、これ以外にも、例えば、タッチパッド20の操作面に一定以上の操作力が加えられたことに応じて、修正範囲の文字列の修正を行う構成としても良い。
このような場合であっても、同様の効果を得ることができる。
[特許請求の範囲との対応]
上記実施形態の説明で用いた用語と、特許請求の範囲の記載に用いた用語との対応を示す。
第一〜第四実施形態におけるタッチパッド20と、第五実施形態における入力装置62が操作部に相当する。
また、第一実施形態の音声認識処理のS205が認識手段,認識ステップに、S210が表示手段,表示ステップに、S220が修正手段に、S230,S235が受付手段,受付ステップに、S240が抽出手段,検出手段に、S250が検出手段に、S265が修正手段,修正ステップに、S270が記録手段に相当する。
また、第二実施形態の音声認識処理のS405が認識手段,認識ステップに、S410が表示手段,表示ステップに、S415が受付手段,受付ステップに、S420が表示手段,受付手段,修正手段,修正ステップに、S425が修正手段,修正ステップに相当する。
また、第三実施形態の音声認識処理のS505が認識手段,認識ステップに、S510が表示手段,表示ステップに、S525が受付手段,受付ステップに、S530が受付手段,修正手段,修正ステップに、S535が修正手段,修正ステップに相当する。
また、第二,第三実施形態における修正範囲が、削除文字,削除文字列に相当する。
また、第四実施形態の音声認識処理のS605が認識手段,認識ステップに、S610が表示手段,表示ステップに、S620が修正手段に、S630が受付手段,受付ステップに、S635〜S645が受付手段に、S650が検出手段,抽出手段に相当する。また、S660が検出手段に、S675が修正手段,修正ステップに、S680が記録手段に相当する。
10…音声認識装置、11…マイク、12…操作受付部、13…制御部、14…車内LAN通信部、15…表示部、16…記憶部、20…タッチパッド、21…操作部、22…通信部、23…制御部、30…ステアリング、40…車内LAN、60…PC、61…ディスプレイ、62…入力装置、63…CPU、64…HDD、65…RAM、66…ROM、100…音声認識プログラム、110…音声認識処理部、120…文字認識部、130…修正処理部、140…コマンド処理部。

Claims (19)

  1. ユーザにより発話された内容を認識し、認識結果を示す文字列である音声文字列を生成する認識手段(S205,S405,S505,S605)と、
    前記認識手段により生成された前記音声文字列を表示する表示手段(S210,S410,S510,S610)と、
    ユーザが体の一部に当接させた状態で操作を行う操作部(20,62)を介して、前記表示手段により表示された前記音声文字列の修正に用いる修正文字列の入力を受け付ける受付手段(S230,S415,S525,S630)と、
    前記受付手段により入力が受け付けられた前記修正文字列を用いて、前記音声文字列の前記修正を行う修正手段(S265,S420,S425,S530,S535,S675)と、
    を備えることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記音声文字列における予め定められた修正範囲の中から、ユーザが発話した内容と異なる文字列である誤認識文字列を検出する検出手段(S240,S650)をさらに備え、
    前記修正手段は、前記検出手段により検出された前記誤認識文字列を、前記受付手段により入力が受け付けられた前記修正文字列に置換することで、前記修正を行うこと(S265,S675)、
    を特徴とする音声認識装置。
  3. 請求項2に記載の音声認識装置において、
    前記操作部には、板状の操作面が設けられていること、
    を特徴とする音声認識装置。
  4. 請求項2または請求項3に記載の音声認識装置において、
    前記受付手段は、さらに、前記操作部を介して、前記修正範囲の入力を受け付け(S640)、
    前記検出手段は、前記音声文字列における前記修正範囲から、前記誤認識文字列を検出すること(S650)、
    を特徴とする音声認識装置。
  5. 請求項3を引用する請求項4に記載の音声認識装置において、
    前記受付手段は、前記操作部の前記操作面をさする操作を、前記修正範囲を定めるための基準位置を指定する操作として検出すると共に、前記操作面を押圧する力の大きさを、前記基準位置を基準として前記修正範囲の指定する操作として検出することで、前記修正範囲の入力を受け付けること(S640)、
    を特徴とする音声認識装置。
  6. 請求項5に記載の音声認識装置において、
    前記受付手段は、前記修正範囲の入力を受け付けた後、さらに、前記操作部の前記操作面を予め定められた方向にさする操作を検出することで、前記修正の指示を受け付け(S645)、
    前記修正手段は、前記受付手段が前記修正の指示を受け付けると、前記修正を行うこと(S675)、
    を特徴とする音声認識装置。
  7. 請求項2から請求項6のうちのいずれか1項に記載の音声認識装置において、
    前記検出手段は、前記修正範囲の中から、前記受付手段により入力が受け付けられた前記修正文字列と一致する文字が最も多い文字列を、前記誤認識文字列として検出し(S240,S650)、
    前記修正手段は、前記検出手段により検出された前記誤認識文字列を、該誤認識文字列の検出に係る前記修正文字列に置換することで、前記修正を行うこと(S265,S675)、
    を特徴とする音声認識装置。
  8. 請求項7に記載の音声認識装置において、
    前記修正文字列を構成する文字の数に基づき定められた文字数を修正文字数とし、前記修正範囲における前記修正文字数の文字列を全て抽出する抽出手段(S240,S650)をさらに備え、
    前記検出手段は、前記抽出手段により抽出された文字列のうち、前記修正文字列と一致する文字が最も多い文字列を、前記誤認識文字列として検出すること(S240,S650)、
    を特徴とする音声認識装置。
  9. 請求項2から請求項8のうちのいずれか1項に記載の音声認識装置において、
    前記認識手段は、漢字を含む文字列を前記音声文字列として生成し(S205,S605)、
    前記受付手段は、前記修正に用いる文字列の入力を受け付けた後、該文字列を構成する予め定められた仮名文字を漢字に変換し、該変換がなされた文字列を、前記修正文字列とすること(S230,S630)、
    を特徴とする音声認識装置。
  10. 請求項3、または、請求項3を引用する請求項4から請求項9のうちのいずれか1項に記載の音声認識装置において、
    前記音声認識装置は車両に搭載されており、
    前記操作部は、前記車両のステアリング(30)に取り付けられており、
    前記受付手段は、前記操作部の前記操作面をさする操作により描かれた文字を検出することで、前記修正文字列の入力を受け付けること(S230,S630)、
    を特徴とする音声認識装置。
  11. 請求項10に記載の音声認識装置において、
    前記ステアリングには、少なくとも二つの前記操作部が取り付けられており、
    前記受付手段は、いずれかの前記操作部を介して前記修正文字列の入力を受け付けると共に(S230,S630)、さらに、他の前記操作部の前記操作面をさする操作により描かれた文字を検出することで、前記音声文字列から削除すべき削除文字列の入力を受け付け(S235,S635)、
    前記修正手段は、さらに、前記受付手段により入力が受け付けられた前記削除文字列を前記音声文字列から削除することで、該音声文字列を修正すること(S265,S675)、
    を特徴とする音声認識装置。
  12. 請求項2から請求項11のうちのいずれか1項に記載の音声認識装置において、
    前記修正手段によりなされた前記修正に係る前記誤認識文字列と、該誤認識文字列を置換した前記修正文字列とを修正記録として記録する記録手段(S270,S680)をさらに備え、
    前記修正手段は、さらに、前記修正記録として記録された前記誤認識文字列が前記音声文字列に含まれている場合には、該誤認識文字列を、該修正記録において該誤認識文字列の置換に用いられたものとして記録された前記修正文字列に置換することで、前記修正を行うこと(S220,S620)、
    を特徴とする音声認識装置。
  13. 請求項7、または、請求項7を引用する請求項8から請求項11のうちのいずれか1項に記載の音声認識装置において、
    前記修正手段によりなされた前記修正に係る前記誤認識文字列と、該誤認識文字列を置換した前記修正文字列とを修正記録として記録する記録手段(S270,S680)をさらに備え、
    前記検出手段は、前記音声文字列の中から、一つの前記修正文字列につき複数の文字列を前記誤認識文字列として検出した場合には、前記修正記録に係る前記誤認識文字列に基づき、検出した複数の文字列の中から、誤検出では無い前記誤認識文字列を特定すること(S250,S660)、
    を特徴とする音声認識装置。
  14. 請求項1に記載の音声認識装置において、
    前記音声認識装置は、車両に搭載されており、
    前記操作部(20)には、板状の操作面が設けられていると共に、前記車両のステアリング(30)に取り付けられており、
    前記受付手段は、前記操作部の前記操作面をさする操作により描かれた文字を検出することで、前記修正文字列の入力を受け付けると共に(S415,S525)、該操作面を介して、前記音声文字列における前記修正文字列の挿入位置、或いは、前記音声文字列から削除する削除文字を指定する修正情報の入力を受け付け(S420,S530)、
    前記修正手段は、前記音声文字列における前記修正情報により指定された前記挿入位置に前記修正文字列を挿入すると共に、前記修正情報により前記削除文字が指定された場合には、前記音声文字列から該削除文字を削除することで、前記修正を行うこと(S425,S535)、
    を特徴とする音声認識装置。
  15. 請求項14に記載の音声認識装置において、
    前記ステアリングには、少なくとも二つの前記操作部が取り付けられており、
    前記受付手段は、いずれかの前記操作部を介して、前記削除文字から構成される削除文字列の一端を指定する前記修正情報の入力を受け付けると共に、他の前記操作部を介して、該削除文字列の他端を指定する前記修正情報の入力を受け付け(S420)、
    前記表示手段は、前記音声文字列上に、前記修正情報により指定された、前記削除文字列の前記一端を示すカーソル及び前記他端を示すカーソルを表示すること(S420)、
    を特徴とする音声認識装置。
  16. 請求項15に記載の音声認識装置において、
    前記受付手段は、いずれかの前記操作部の前記操作面を押圧する力の大きさを、前記削除文字列の前記一端を指定する操作として検出することで、前記修正情報の入力を受け付けると共に、他の前記操作部の前記操作面を押圧する力の大きさを、該削除文字列の前記他端を指定する操作として検出することで、前記修正情報の入力を受け付けること(S420)、
    を特徴とする音声認識装置。
  17. 請求項15に記載の音声認識装置において、
    前記受付手段は、いずれかの前記操作部の前記操作面をさする操作を、前記削除文字列の前記一端を指定する操作として検出することで、前記修正情報の入力を受け付けると共に、他の前記操作部の前記操作面をさする操作を、該削除文字列の前記他端を指定する操作として検出することで、前記修正情報の入力を受け付けること(S420)、
    を特徴とする音声認識装置。
  18. ユーザにより発話された内容を認識し、認識結果を示す文字列である音声文字列を生成する認識手段(S205,S405,S505,S605)と、
    前記認識手段により生成された前記音声文字列を表示する表示手段(S210,S410,S510,S610)と、
    ユーザが体の一部に当接させた状態で操作を行う操作部(20,62)を介して、前記表示手段により表示された前記音声文字列の修正に用いる修正文字列の入力を受け付ける受付手段(S230,S415,S525,S630)と、
    前記受付手段により入力が受け付けられた前記修正文字列を用いて、前記音声文字列の前記修正を行う修正手段(S265,S420,S425,S530,S535,S675)と、
    してコンピュータを動作させることを特徴とする音声認識プログラム。
  19. ユーザにより発話された内容を認識し、認識結果を示す文字列である音声文字列を生成する認識ステップ(S205,S405,S505,S605)と、
    前記認識ステップにて生成された前記音声文字列を表示する表示ステップ(S210,S410,S510,S610)と、
    ユーザが体の一部に当接させた状態で操作を行う操作部(20,62)を介して、前記表示ステップにて表示された前記音声文字列の修正に用いる修正文字列の入力を受け付ける受付ステップ(S230,S415,S525,S630)と、
    前記受付ステップにて入力を受け付けた前記修正文字列を用いて、前記音声文字列の前記修正を行う修正ステップ(S265,S420,S425,S530,S535,S675)と、
    を有することを特徴とする音声認識方法。
JP2013044442A 2012-03-21 2013-03-06 音声認識装置、音声認識プログラム、及び、音声認識方法 Expired - Fee Related JP6169864B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013044442A JP6169864B2 (ja) 2012-03-21 2013-03-06 音声認識装置、音声認識プログラム、及び、音声認識方法
US13/847,001 US9153234B2 (en) 2012-03-21 2013-03-19 Speech recognition apparatus, method of recognizing speech, and computer readable medium for the same
DE102013204841A DE102013204841A1 (de) 2012-03-21 2013-03-19 Spracherkennungsvorrichtung, Spracherkennungsverfahren und computerlesbares Speichermedium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012064054 2012-03-21
JP2012064054 2012-03-21
JP2013044442A JP6169864B2 (ja) 2012-03-21 2013-03-06 音声認識装置、音声認識プログラム、及び、音声認識方法

Publications (2)

Publication Number Publication Date
JP2013225115A true JP2013225115A (ja) 2013-10-31
JP6169864B2 JP6169864B2 (ja) 2017-07-26

Family

ID=49112433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013044442A Expired - Fee Related JP6169864B2 (ja) 2012-03-21 2013-03-06 音声認識装置、音声認識プログラム、及び、音声認識方法

Country Status (3)

Country Link
US (1) US9153234B2 (ja)
JP (1) JP6169864B2 (ja)
DE (1) DE102013204841A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071286A1 (ja) * 2018-10-03 2020-04-09 パナソニックIpマネジメント株式会社 入力装置、入力方法および入力システム
WO2020158218A1 (ja) * 2019-01-28 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2021006401A1 (ko) * 2019-07-11 2021-01-14 엘지전자 주식회사 자율주행시스템에서 차량의 제어 방법 및 그 장치
JP2021081731A (ja) * 2020-05-15 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 音声認識方法、装置、機器及び読み取り可能な記憶媒体
WO2023073945A1 (ja) * 2021-10-29 2023-05-04 パイオニア株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218811B2 (en) * 2013-06-28 2015-12-22 Google Technology Holdings LLC Electronic device and method for managing voice entered text using gesturing
DE102014019005A1 (de) * 2014-12-18 2016-06-23 Audi Ag Verfahren zum Betreiben einer Bedienvorrichtung eines Kraftfahrzeugs in unterschiedlichen Bedienmodi sowie Bedienvorrichtung und Kraftfahrzeug
US9971758B1 (en) * 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
EP3474276A4 (en) * 2016-06-15 2019-07-31 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN107657471B (zh) * 2016-09-22 2021-04-30 腾讯科技(北京)有限公司 一种虚拟资源的展示方法、客户端及插件

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002350146A (ja) * 2001-05-25 2002-12-04 Mitsubishi Electric Corp ナビゲーション装置
JP2007065347A (ja) * 2005-08-31 2007-03-15 Denso Corp 音声認識システム
JP2008293109A (ja) * 2007-05-22 2008-12-04 Toshiba Corp テキスト処理装置及びプログラム
JP2010039694A (ja) * 2008-08-04 2010-02-18 Yahoo Japan Corp 文字修飾サーバ、装置、方法及びシステム
JP2010113457A (ja) * 2008-11-05 2010-05-20 Ricoh Elemex Corp ガス漏れ警報システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3104661B2 (ja) * 1997-11-25 2000-10-30 日本電気株式会社 日本語文章作成装置
US5970460A (en) * 1997-12-05 1999-10-19 Lernout & Hauspie Speech Products N.V. Speech recognition and editing system
JP2000259178A (ja) 1999-03-08 2000-09-22 Fujitsu Ten Ltd 音声認識装置
US6986106B2 (en) * 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
JP4042589B2 (ja) 2003-02-27 2008-02-06 株式会社豊田中央研究所 車両用音声入力装置
JP2005096519A (ja) 2003-09-22 2005-04-14 Nissan Motor Co Ltd 情報操作装置
JP2005283797A (ja) 2004-03-29 2005-10-13 Nissan Motor Co Ltd 音声認識装置および音声認識方法
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
JP2009046082A (ja) 2007-08-22 2009-03-05 Denso Corp 車両用操作装置及び車両用操作プログラム
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
JP2009298285A (ja) 2008-06-12 2009-12-24 Tokai Rika Co Ltd 入力装置
JP2010018204A (ja) 2008-07-11 2010-01-28 Nippon Soken Inc 情報提示装置および情報提示システム
JP4966324B2 (ja) 2009-01-19 2012-07-04 株式会社東芝 音声翻訳装置、および方法
JP5430382B2 (ja) 2009-12-16 2014-02-26 キヤノン株式会社 入力装置及び方法
JP5874435B2 (ja) 2012-02-22 2016-03-02 株式会社日本自動車部品総合研究所 車両用入力装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002350146A (ja) * 2001-05-25 2002-12-04 Mitsubishi Electric Corp ナビゲーション装置
JP2007065347A (ja) * 2005-08-31 2007-03-15 Denso Corp 音声認識システム
JP2008293109A (ja) * 2007-05-22 2008-12-04 Toshiba Corp テキスト処理装置及びプログラム
JP2010039694A (ja) * 2008-08-04 2010-02-18 Yahoo Japan Corp 文字修飾サーバ、装置、方法及びシステム
JP2010113457A (ja) * 2008-11-05 2010-05-20 Ricoh Elemex Corp ガス漏れ警報システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020071286A1 (ja) * 2018-10-03 2020-04-09 パナソニックIpマネジメント株式会社 入力装置、入力方法および入力システム
JPWO2020071286A1 (ja) * 2018-10-03 2021-09-02 パナソニックIpマネジメント株式会社 入力装置、入力方法および入力システム
JP7178576B2 (ja) 2018-10-03 2022-11-28 パナソニックIpマネジメント株式会社 入力装置、入力方法および入力システム
WO2020158218A1 (ja) * 2019-01-28 2020-08-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2021006401A1 (ko) * 2019-07-11 2021-01-14 엘지전자 주식회사 자율주행시스템에서 차량의 제어 방법 및 그 장치
US11628851B2 (en) 2019-07-11 2023-04-18 Lg Electronics Inc. Method and apparatus for controlling a vehicle in autonomous driving system
JP2021081731A (ja) * 2020-05-15 2021-05-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 音声認識方法、装置、機器及び読み取り可能な記憶媒体
JP7271497B2 (ja) 2020-05-15 2023-05-11 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声認識方法、装置、機器及び読み取り可能な記憶媒体
US11798548B2 (en) 2020-05-15 2023-10-24 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Speech recognition method, apparatus, device and readable storage medium
WO2023073945A1 (ja) * 2021-10-29 2023-05-04 パイオニア株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
DE102013204841A1 (de) 2013-09-26
US20130275130A1 (en) 2013-10-17
JP6169864B2 (ja) 2017-07-26
US9153234B2 (en) 2015-10-06

Similar Documents

Publication Publication Date Title
JP6169864B2 (ja) 音声認識装置、音声認識プログラム、及び、音声認識方法
US7706615B2 (en) Information processing method and information processing device
EP1016078B1 (en) Speech recognition computer input method and device
US8879845B2 (en) Character recognition for overlapping textual user input
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
TWI266280B (en) Multimodal disambiguation of speech recognition
JP5622566B2 (ja) アジア文字を生成するための認識アーキテクチャ
EP2535844A2 (en) Character recognition for overlapping textual user input
US10643603B2 (en) Acoustic model training using corrected terms
JP2006515073A (ja) 音声認識を実行するための方法、システム、及びプログラミング
US9946704B2 (en) Tone mark based text suggestions for chinese or japanese characters or words
WO2004023455A2 (en) Methods, systems, and programming for performing speech recognition
US6963840B2 (en) Method for incorporating multiple cursors in a speech recognition system
EP2897055A1 (en) Information processing device, information processing method, and program
JP6355823B2 (ja) 入力表示制御装置、入力表示制御方法及び入力表示システム
KR101385012B1 (ko) 필기 및 음성 인식을 이용한 멀티모달 입력장치 및 그 입력장치의 제어방법
WO2012144525A1 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2002350146A (ja) ナビゲーション装置
KR20160000449A (ko) 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치
US20200037049A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP2006039954A (ja) データベース検索装置、プログラム及びナビゲーション装置
JP2010015439A (ja) 情報入力装置および情報処理方法
US20240212674A1 (en) System, method and device for multimodal text editing
US11886801B1 (en) System, method and device for multimodal text editing
JP3592803B2 (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170629

R150 Certificate of patent or registration of utility model

Ref document number: 6169864

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees