JP5874640B2 - 音声変換装置、携帯電話端末、音声変換方法およびプログラム - Google Patents

音声変換装置、携帯電話端末、音声変換方法およびプログラム Download PDF

Info

Publication number
JP5874640B2
JP5874640B2 JP2012536306A JP2012536306A JP5874640B2 JP 5874640 B2 JP5874640 B2 JP 5874640B2 JP 2012536306 A JP2012536306 A JP 2012536306A JP 2012536306 A JP2012536306 A JP 2012536306A JP 5874640 B2 JP5874640 B2 JP 5874640B2
Authority
JP
Japan
Prior art keywords
character string
word
correction
phrase
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012536306A
Other languages
English (en)
Other versions
JPWO2012043168A1 (ja
Inventor
俊彦 藤林
俊彦 藤林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012536306A priority Critical patent/JP5874640B2/ja
Publication of JPWO2012043168A1 publication Critical patent/JPWO2012043168A1/ja
Application granted granted Critical
Publication of JP5874640B2 publication Critical patent/JP5874640B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/70Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声変換装置、携帯電話端末、音声変換方法および記録媒体に関する。
携帯電話端末などの機器に搭載されている音声認識エンジンが音声認識処理を行った際、ユーザが発声した文言と、その文言についての音声認識の結果は、必ずしも一致しない。
これは、ユーザが発声した文言と音声認識結果との不一致が、音声認識エンジン自体の認識率にも依存するが、ユーザの発声時の癖、ユーザの訛、および、マイク特性などの、音声認識エンジン以外の要因にも依存するからである。
このため、ユーザは、誤った音声認識結果を正しい文言に修正する最適化処理(修正処理)を行う必要がある。
特許文献1には、音声認識結果の誤りがユーザの修正用発話によって修正された際に、その修正の内容、具体的には、修正前の音声認識結果と修正後の音声認識結果とを格納する音声認識装置が記載されている。
特許文献1に記載の音声認識装置は、音声認識結果がユーザの修正用発話によって一度修正されたにもかかわらず、再度、ユーザの修正用発話を受け付けた場合、前回の修正結果、つまり、誤った音声認識結果が、再度出力されることを抑制する。
特開2007−93789号公報
特許文献1に記載の音声認識装置では、過去に行われた修正の内容は、修正用発話によって修正が繰り返し行われている音声認識結果にしか反映されず、新規の発話についての音声認識結果には反映されない。
このため、特許文献1に記載の音声認識装置では、新規の発話についての各音声認識結果には、同じ認識誤りが生じる可能性が高い。よって、ユーザは、新規の発話についての音声認識結果に、過去に修正したことのある認識誤りが生じた場合、過去に行った修正処理(最適化処理)と同様の修正処理を行わなければならず、手間がかかるという課題があった。
本発明の目的は、上述した課題を解決可能な音声変換装置、携帯電話端末、音声変換方法および記録媒体を提供することである。
本発明の音声変換装置は、音声を受け付けるごとに、当該音声を文字列に変換する音声認識手段と、前記文字列を表示する表示手段と、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手段と、前記修正手段が実行した語句についての修正の内容を格納する格納手段と、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含み、前記修正の内容は、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、前記格納手段は、前記組を複数格納し、前記制御手段は、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、前記制御手段は、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する。
本発明の音声変換装置は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置であって、入力された音声を音声データに変換する出力手段と、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手段と、前記文字列を表示する表示手段と、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手段と、前記修正手段が実行した語句についての修正の内容を格納する格納手段と、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含み、前記修正の内容は、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、前記格納手段は、前記組を複数格納し、前記制御手段は、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、前記制御手段は、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する
本発明の音声変換方法は、音声変換装置が行う音声変換方法であって、音声を受け付けるごとに、当該音声を文字列に変換し、前記文字列を表示手段に表示し、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正し、前記修正が実行された語句についての修正の内容を格納手段に格納し、前記音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示し、前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、前記格納手段は、前記組を複数格納し、音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する
本発明の音声変換方法は、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置が行う音声変換方法であって、入力された音声を音声データに変換し、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信し、前記文字列を表示手段に表示し、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正し、前記修正が実行された語句についての修正の内容を格納手段に格納し、前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示し、前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、前記格納手段は、前記組を複数格納し、前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、前記文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する
本発明のプログラムは、コンピュータに、音声を受け付けるごとに、当該音声を文字列に変換する音声認識手順と、前記文字列を表示手段に表示する表示手順と、前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手順と、前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、前記音声認識手順にて音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させ、前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、前記格納手順では、前記組を複数格納し、前記制御手順では、前記音声認識手順で音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、前記制御手順では、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する
本発明のプログラムは、音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能なコンピュータに、入力された音声を音声データに変換する出力手順と、前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手順と、前記文字列を表示手段に表示する表示手順と、前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手順と、前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させ、前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、前記格納手順では、前記組を複数格納し、前記制御手順では、前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、前記制御手順では、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する
本発明によれば、ユーザが同じような修正処理(最適化処理)を繰り返し行う手間を少なくすることが可能になる。
本発明の一実施形態の携帯電話端末1を示したブロック図である。 差分辞書の一例を示した図である。 携帯電話端末1の動作を説明するためのフローチャートである。 携帯電話端末1の動作を説明するための図である。 携帯電話端末1の動作を説明するための図である。
以下、本発明の一実施形態を図面を参照して説明する。
図1は、本発明の一実施形態の携帯電話端末1を示したブロック図である。
図1において、携帯電話端末1は、電子メール等の文字データを扱う機能を有する。携帯電話端末1は、本発明の一実施形態の音声変換装置10を含む。
音声変換装置10は、変換部11と、表示部12と、修正部13と、記憶装置14と、制御部15と、通信部16と、アンテナ17と、を含む。変換部11は、マイク11aと、音声認識部11bと、を含む。修正部13は、操作部13aと、文字編集部13bと、を含む。
変換部11は、一般的に音声認識手段と呼ぶことができる。
変換部11は、音声を受け付けるごとに、音声について音声認識処理を行うことによって音声を文字列に変換する。
マイク11aは、一般的に出力手段と呼ぶことができる。マイク11aは、入力されたユーザの音声を受け付けるごとに、入力されたユーザの音声を音声データに変換し、その音声データを出力する。音声データは、例えば、制御部15を介して音声認識部11bに提供される。
音声認識部11bは、音声データを受け付けるごとに、音声データについて音声認識処理を行うことによって音声データを文字列に変換して出力する。本実施形態では、音声認識部11bは、文字列として、カナ文字(カタカナまたはひらがな)の列を出力する。
表示部12は、一般的に表示手段と呼ぶことができる。
表示部12は、音声認識部11bからの出力である文字列を表示する。また、表示部12は、文字編集部13bでの文字編集状況も表示する。
修正部13は、一般的に修正手段と呼ぶことができる。
修正部13は、音声認識部11bが出力した文字列の一部である語句(1個以上の文字からなる語句)を修正する旨の修正指示を受け付ける。本実施形態では、修正指示は、修正される語句を指定し、かつ、修正後の語句を示す。
修正部13は、修正指示を受け付けると、文字列内の語句のうち、修正指示にて修正を指定された語句を、修正指示にて修正後の語句として示された語句に修正する。以下、修正指示にて修正を指定された語句を「修正前語句」と称し、修正指示にて修正後の語句として示された語句を「修正後語句」と称する。
操作部13aは、操作ボタンである。なお、操作ボタンは、表示部12に表示されてもよい。操作部13aは、ユーザにて操作されることによって、ユーザからの種々の入力(例えば、修正指示)を受け付ける。操作部13aが修正指示を受け付けた場合、その修正指示は、制御部15を介して文字編集部13bに提供される。
文字編集部13bは、修正指示を受け付けると、その修正指示に従って、音声認識部11bの出力である文字列を編集する。本実施形態では、文字編集部13bは、修正指示を受け付けると、文字列内の修正前語句を修正後語句に置き換える。
記憶装置14は、一般的に格納手段と呼ぶことができる。
記憶装置14は、文字編集部13bでの文字編集および音声認識部11bでの音声認識処理に必要な辞書(辞書データ)を格納する。
また、記憶装置14は、文字編集部13bが実行した語句についての修正の内容(修正前語句と修正後語句との組)を格納する。本実施形態では、記憶装置14は、修正の内容を示す差分辞書(差分辞書データ)を格納する。差分辞書は、互いに関連づけられた修正前語句と修正後語句とを表す。
制御部15は、一般的に制御手段と呼ぶことができる。
制御部15は、携帯電話端末1内の各部を制御する。
制御部15は、例えば、変換部11が音声を文字列に変換した際に、その文字列内の語句についての修正の内容が記憶装置14に格納されている場合には、その修正の内容を反映した選択候補を生成し、その選択候補を、その音声の認識結果候補として、表示部12に表示する。
本実施形態では、制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の語句が記憶装置14に修正前語句として格納されている場合には、その文字列内の修正前語句をその修正前語句と関連づけられた修正後語句に置き換えた置換文字列を、選択候補として生成する。
なお、制御部15は、修正後語句を、置換文字列内の文字のうち修正後語句以外の文字と異なる表示形態で、表示部12に表示する。例えば、制御部15は、置換文字列において、修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。
通信部16は、一般的に通信手段と呼ぶことができる。
通信部16は、例えば、音声認識処理を、携帯電話端末1内の音声認識部11bで実行せずに、外部の音声認識装置2で実行する場合、マイク11aから出力された音声データをアンテナ17を介して音声認識装置2に送信し、その後、アンテナ17を介して音声認識装置2から音声データの変換結果である文字列を受信する。
なお、音声認識装置2は、音声データを受け付けるごとに、その音声データを文字列に変換し、変換結果(文字列)を、音声データの送信元に送信する。
図2は、記憶装置14が記憶する差分辞書(データベース)の一例を示した図である。
図2において、差分辞書14Aには、複数の認識結果差分格納領域14A1が設けられている。音声認識部11bからカナで出力された文字列内の語句に対して、ユーザが修正指示を用いて修正を行うごとに、制御部15は、認識結果差分格納領域14A1に、音声認識部11bでの音声認識結果とユーザの認識との差を表す認識結果差分情報(修正の内容)を登録していく。
認識結果差分格納領域14A1は、認識結果カナ格納領域14A2と、修正結果カナ格納領域14A3と、差分発生回数格納領域14A4と、を有する。
認識結果カナ格納領域14A2には、音声認識部11bからカナで出力された文字列のうち、修正指示にて修正を指定された語句(修正前語句)であるカナ(以下「認識結果カナ」と称する)が格納される。
修正結果カナ格納領域14A3には、修正指示にて修正後の語句として示された語句(修正後語句)であるカナ(以下「修正結果カナ」と称する)が格納される。
差分発生回数格納領域14A4には、認識結果カナ格納領域14A2に格納された「認識結果カナ」が、修正結果カナ格納領域14A3に格納された「修正結果カナ」に修正された回数(以下「差分発生回数」と称する)が格納される。
図2に示したように、本実施形態では、記憶装置14は、修正前語句と修正後語句との組を複数格納し、かつ、組ごとに、その組にて特定される修正が実行された回数(以下「実行回数」と称する)を格納する。
制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の互いに異なる語句のそれぞれが記憶装置14に修正前語句として格納されている場合には、修正前語句として示された文字列内の語句ごとに、修正前語句として示された文字列内の語句をその修正前語句と組になっている修正後語句に置き換えた置換文字列を、選択候補として生成する。
制御部15は、表示部12への選択候補の表示順を、選択候補を生成するために使用した組についての実行回数、および、その選択候補を生成するために使用した修正前語句の文字数と、に基づいて決定する。
制御部15は、例えば、選択候補のそれぞれに、実行回数が多くなるほど高くなり修正前語句の文字数が多くなるほど高くなる値を付与し、その値が高い順に、選択候補を表示部12に表示する。
なお、音声変換装置10は、コンピュータにて実現されてもよい。この場合、コンピュータは、コンピュータにて読み取り可能なCD−ROM(Compact Disk Read Only Memory)のような記録媒体に記録されたプログラムを読込み実行することによって、変換部11、表示部12、修正部13、記憶装置14および制御部15として機能する。記録媒体は、CD−ROMに限らず適宜変更可能である。
次に、本実施形態の動作の概要を説明する。
本実施形態では、音声認識部11bでの音声認識結果に対して、ユーザが、文字編集部13bを使用して修正を行った場合に、音声認識結果と文字編集にて修正された後の文字列との間のよみ仮名(カナ)の違いを表す差分情報(認識結果差分情報)が、携帯電話端末1内の記憶装置14に蓄積される。
携帯電話端末1は、その後、音声認識部11bにて実行された音声認識処理の結果について、差分情報を反映した選択候補を生成し、その選択候補を、音声の認識結果候補として表示する。
また、携帯電話端末1は、音声認識部11bから出力された文字列内の修正前語句(認識結果カナ)を修正後語句(修正結果カナ)に置き換えた置換文字列を、選択候補として生成し、置換文字列内の修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。
次に、本実施形態の動作を詳細に説明する。
図3は、ユーザの操作に応じた携帯電話端末1の動作を説明するためのフローチャートである。
ユーザは、携帯電話端末1に音声による文字入力を実行する場合、マイク11aに入力したい文言を発声することで、音声入力を行う(ステップ301)。
入力された音声は、マイク11aで音声データに変換され、その後、音声データについての音声認識処理が、音声認識部11b、または、外部の音声認識装置2で実行される。その後、制御部15は、音声認識結果であるカナ情報(文字列)を入手する(ステップ302)。
その後、制御部15は、音声認識結果であるカナ情報(文字列)に基づいて、カナ情報(文字列)についての認識結果候補を生成する。文字編集部13bは、認識結果候補について漢字変換処理を実行する。制御部15は、漢字変換された認識結果候補を、表示部12に表示する。
制御部15は、認識結果候補を生成する際、今回の音声認識結果であるカナ情報と、差分辞書14Aに格納された差分情報と、の照合を行い(ステップ303)、差分情報に示された認識結果カナのうち、今回の音声認識結果であるカナ情報の一部と一致する認識結果カナがあるか検索を行う(ステップ304)。
例えば、差分辞書14Aが図4に示す差分情報を格納している状況で、ユーザが「ヘンチョウ」と発声し、音声認識部11b内の音声認識エンジンまたは音声認識装置2内の音声認識エンジンによる音声認識結果であるカナ情報が「へンシュウ」であった場合、制御部15が、今回の音声認識結果であるカナ情報と差分辞書14A内の認識結果カナとの照合を行うと、部分一致する認識結果カナとして「シュウ」と「シュ」を得る。制御部15は、今回の音声認識結果であるカナ情報のうち、認識結果カナと一致したカナを、その認識結果カナに関連づけられた修正結果カナに置換した認識結果候補カナ(置換文字列)を作成する(ステップ305)。
部分一致したカナが複数見つかった場合には、制御部15は、認識結果候補カナの作成に使用した認識結果差分情報ごとに、認識結果カナの文字列長と差分発生回数とに基づいて、認識結果カナ文字列長aおよび差分発生回数bの値を設定し、重要度nの計算式:n=A×a+B×bに従った計算を実行して重要度nを求める。なお、重要度nの計算式において、Aは認識結果カナ係数であり、Bは差分発生回数係数であり、共に、予め制御部15に格納されている。
本実施形態では、認識結果カナの文字列長が長いほど発声と類似している可能性が高いとし、発生回数については認識差分の発生頻度を考慮した値として、これらを組み合わせることで重要度を算出する。
図4の例では、認識結果差分1が用いられた場合には、ヘンシュウの「シュウ」が「チョウ」に置き換えられた「ヘンチョウ」が、認識結果候補カナとなる。
このときの重要度nは、重要度nの計算式:n=A×a+B×bにおいて、認識結果カナ係数A=5、差分発生回数係数B=2とすると、認識結果カナ文字列長aは「3」となり、差分発生回数bは「1」となるため、n=A×a+B×b=5×3+2×1=17となる。
同様に認識結果差分2では、ヘンシュウの「シュ」が「ス」に置き換えられた「ヘンスウ」が、認識結果候補カナとなる。
このときの重要度は、識結果カナ文字列長aは「2」となり、差分発生回数bは「1」となるため、n=A×a+B×b=5×2+2×2=14となる。
よって、制御部15は、認識結果差分1を使用して作成した認識結果候補カナ「ヘンチョウ」と、認識結果差分2を使用して作成した認識結果候補カナ「ヘンスウ」とを、重要度の大きい順に「ヘンチョウ」「ヘンスウ」の順に表示部12に表示する。
なお、認識結果候補カナは、文字編集部13bによって、日本語辞書に登録されている文字列と照合され、辞書に登録されている日本語と一致する場合のみ認識結果候補として表示される。認識結果候補カナが辞書に登録されている日本語と一致しない場合は、文字編集部13bは、認識結果候補カナが日本語として正しい単語ではないと判断し、制御部15は、認識結果候補カナを認識結果候補として認定しない。
今回の音声認識結果であるカナ情報とともに、認識結果候補カナが、認識結果候補として、表示される(ステップ306)。表示順としては、今回の音声認識結果であるカナ情報が先頭に表示され、続いて、重要度の高い順に認識結果候補が表示される。
このとき、置換した箇所が、置換していない箇所と異なる文字色や文字サイズ、フォント変更などで明示されることで、ユーザに通知される。
また、制御部15は、認識結果候補カナを文字編集部13bにて漢字変換などが行われた結果についても、認識結果候補として、表示部12に表示する。
なお、部分一致したデータがない場合は、制御部15は、音声認識結果であるカナ情報を漢字変換した文字列を認識結果候補として表示する。
表示された認識結果候補の中から、ユーザは、発声した文字列と一致する文字列を選択する(ステップ307)。
このとき、ユーザが今回の音声認識結果を選択した場合は、ユーザの発声と音声認識結果が一致したとして、制御部15は、差分辞書の変更は行わない(ステップ308)。しかし、ユーザが今回の音声認識結果とは異なる認識結果候補を選択した場合や文字編集にて修正を行った場合(ステップ309)は、制御部15は、ユーザの発声と音声認識結果に差分があるとして、カナの差分を取得し、その差分を差分辞書に登録する(ステップ310)。
例えば、図5の例のように、ユーザが「ヘンソウ」と発声したにもかかわらず、音声認識結果で「ヘンシュウ」が得られた場合、ユーザは、文字編集で「シュ」を「ソ」に修正する。
このとき、差分辞書には、音声認識を行った日時、認識結果カナとして「ヘンシュウ」、修正結果カナとして「ヘンソウ」、差分発生回数については同一の修正を行った回数が、差分情報として保存される。
このとき、差分情報の登録は、単語や文節単位とは限らず、修正を行った箇所だけを抽出した認識結果カナ「シュ」と修正結果カナ「ソ」との組み合わせ(組)や、修正箇所の前後の文字列を追加した認識結果カナ「シュウ」と修正結果カナ「ソウ」との組み合わせ(組)が、差分辞書に登録されてもよい。
更新された差分辞書は次回の音声認識に反映される。
本実施形態によれば、制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の語句についての修正の内容が記憶装置14に格納されている場合には、その修正の内容を反映した選択候補を生成し、その選択候補を、その文字列の認識結果候補として、表示部12に表示する。
このため、ユーザが同じような修正処理(最適化処理)を繰り返し行う手間を少なくすることが可能になる。
また、本実施形態では、制御部15は、変換部11が音声を文字列に変換した際に、その文字列内の語句が記憶装置14に修正前語句として格納されている場合には、その文字列内の修正前語句をその修正前語句と関連づけられた修正後語句に置き換えた置換文字列を、選択候補として生成する。この場合、以前に行われた修正が再現される可能性が高くなる。
また、本実施形態では、制御部15は、修正後語句を、置換文字列内の文字のうち修正後語句以外の文字と異なる表示形態で、表示部12に表示する。例えば、制御部15は、置換文字列において、修正後文字を、修正後文字以外の文字と異なる色、異なる大きさ、または、異なる書体で表示する。この場合、どのような置換が行われたのかを強調してユーザに示すことができ、ユーザの癖やマイクの特性に起因する音声認識の誤りを、ユーザに気付かせやすくなる。
以上説明したように、本実施形態によれば、音声認識エンジンに依存することなく、差分情報をユーザの癖やマイクの特性を示す情報として音声認識結果に反映し、その反映結果を提示することで、文字編集による修正作業を行う手間を少なくでき、ユーザに適した音声認識結果の表示やユーザが発声動作の問題点を把握することが可能となる。
なお、上記実施形態は、以下のように変形されてもよい。
重要度を判断する方法として、文字列長や発生回数を用いたn=A×a+B×bの式以外に、データの更新日といった時間情報や認識結果カナと修正結果カナを比較して子音(「マ」と「ム」など)や母音(「カ」と「ハ」など)の類似を数値化した情報などをパラメータとして設けた別の算出式が用いられてもよい。
また、差分辞書へのデータ登録方法は音声認識を実施した機会以外にも、ユーザが辞書データを直接編集してもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2010年9月29日に出願された日本出願特願2010−219053を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 携帯電話端末
10 音声変換装置
11 変換部
11a マイク
11b 音声認識部
12 表示部
13 修正部
13a 操作部
13b 文字編集部
14 記憶装置
15 制御部
16 通信部
17 アンテナ
2 音声認識装置

Claims (8)

  1. 音声を受け付けるごとに、当該音声を文字列に変換する音声認識手段と、
    前記文字列を表示する表示手段と、
    前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手段と、
    前記修正手段が実行した語句についての修正の内容を格納する格納手段と、
    前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含み、
    前記修正の内容は、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、
    前記格納手段は、前記組を複数格納し、
    前記制御手段は、前記音声認識手段が音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、
    前記制御手段は、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する、音声変換装置。
  2. 前記制御手段は、前記修正後語句を、前記置換文字列内の文字のうち当該修正後語句以外の文字と異なる表示形態で、前記表示手段に表示する、請求項に記載の音声変換装置。
  3. 音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置であって、
    入力された音声を音声データに変換する出力手段と、
    前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手段と、
    前記文字列を表示する表示手段と、
    前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手段と、
    前記修正手段が実行した語句についての修正の内容を格納する格納手段と、
    前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手段と、を含み、
    前記修正の内容は、前記修正手段にて修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、
    前記格納手段は、前記組を複数格納し、
    前記制御手段は、前記通信手段が前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、
    前記制御手段は、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する、音声変換装置。
  4. 請求項1からのいずれか1項に記載の音声変換装置を備えた携帯電話端末。
  5. 音声変換装置が行う音声変換方法であって、
    音声を受け付けるごとに、当該音声を文字列に変換し、
    前記文字列を表示手段に表示し、
    前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正し、
    前記修正が実行された語句についての修正の内容を格納手段に格納し、
    前記音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示し、
    前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、
    前記格納手段は、前記組を複数格納し、
    音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、
    当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する、音声変換方法。
  6. 音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能な音声変換装置が行う音声変換方法であって、
    入力された音声を音声データに変換し、
    前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信し、
    前記文字列を表示手段に表示し、
    前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正し、
    前記修正が実行された語句についての修正の内容を格納手段に格納し、
    前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示し、
    前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、
    前記格納手段は、前記組を複数格納し、
    前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、前記文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、
    当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する、音声変換方法。
  7. コンピュータに、
    音声を受け付けるごとに、当該音声を文字列に変換する音声認識手順と、
    前記文字列を表示手段に表示する表示手順と、
    前記表示手段に表示された文字列の一部である語句を修正する旨の修正指示を受け付けると、当該修正指示に従って前記語句を修正する修正手順と、
    前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、
    前記音声認識手順にて音声が文字列に変換された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させ、
    前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、
    前記格納手順では、前記組を複数格納し、
    前記制御手順では、前記音声認識手順で音声を文字列に変換した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、
    前記制御手順では、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する、プログラム。
  8. 音声データを受信するごとに当該音声データを文字列に変換し当該文字列を前記音声データの送信元に送信する音声認識装置と通信可能なコンピュータに、
    入力された音声を音声データに変換する出力手順と、
    前記音声データを前記音声認識装置に送信し、その後、前記音声認識装置から前記音声データの変換結果である文字列を受信する通信手順と、
    前記文字列を表示手段に表示する表示手順と、
    前記表示手段に表示された文字列の一部である語句を修正する修正指示を受け付けると、当該修正指示に従って前記文字列内の語句を修正する修正手順と、
    前記修正が実行された語句についての修正の内容を格納手段に格納する格納手順と、
    前記音声認識装置から文字列が受信された際に、当該文字列内の語句についての修正の内容が前記格納手段に格納されている場合には、前記修正の内容を反映した選択候補を生成し、当該選択候補を、前記音声の認識結果候補として、前記表示手段に表示する制御手順と、を実行させ、
    前記修正の内容は、修正される前の語句である修正前語句と、前記修正前語句を修正した修正後語句と、の組であり、
    前記格納手順では、前記組を複数格納し、
    前記制御手順では、前記音声認識装置から文字列を受信した際に、当該文字列内の語句が前記格納手段に前記修正前語句として格納されている場合には、当該文字列内の語句のうち前記修正前語句として示された語句を当該修正前語句と組になっている前記修正後語句に置き換えた置換文字列を、前記選択候補として生成し、
    前記制御手順では、当該文字列について前記複数の組を別々に用いて複数の前記置換文字列を生成する場合には、前記置換文字列ごとに、当該置換文字列を生成する際に用いた前記修正前語句の文字列長が長いほど大きくなりかつ当該置換文字列を生成する際に用いた前記組にて特定される修正が過去に実行された回数が多いほど大きくなる重要度を求め、前記複数の置換文字列を前記重要度の大きい順に前記表示手段に表示する、プログラム。
JP2012536306A 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法およびプログラム Expired - Fee Related JP5874640B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012536306A JP5874640B2 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010219053 2010-09-29
JP2010219053 2010-09-29
PCT/JP2011/070248 WO2012043168A1 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法および記録媒体
JP2012536306A JP5874640B2 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2012043168A1 JPWO2012043168A1 (ja) 2014-02-06
JP5874640B2 true JP5874640B2 (ja) 2016-03-02

Family

ID=45892641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012536306A Expired - Fee Related JP5874640B2 (ja) 2010-09-29 2011-09-06 音声変換装置、携帯電話端末、音声変換方法およびプログラム

Country Status (4)

Country Link
US (1) US20130179166A1 (ja)
JP (1) JP5874640B2 (ja)
CN (1) CN103140889B (ja)
WO (1) WO2012043168A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8954519B2 (en) * 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
CN103647880B (zh) * 2013-12-13 2015-11-18 南京丰泰通信技术股份有限公司 一种带有电话转译电文功能的电话机
CN103944983B (zh) * 2014-04-14 2017-09-29 广东美的制冷设备有限公司 语音控制指令纠错方法和系统
KR102261552B1 (ko) * 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
CN105786438A (zh) * 2014-12-25 2016-07-20 联想(北京)有限公司 一种电子系统
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
CN107731229B (zh) 2017-09-29 2021-06-08 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
JP7159756B2 (ja) * 2018-09-27 2022-10-25 富士通株式会社 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
JP2020107130A (ja) * 2018-12-27 2020-07-09 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7463690B2 (ja) * 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体
CN116312509B (zh) * 2023-01-13 2024-03-01 山东三宏信息科技有限公司 一种基于语音识别的终端id文本的校正方法、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004240234A (ja) * 2003-02-07 2004-08-26 Nippon Hoso Kyokai <Nhk> 文字列修正訓練サーバ、文字列修正訓練装置、文字列修正訓練方法および文字列修正訓練プログラム
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791529B2 (en) * 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system
US8880405B2 (en) * 2007-03-07 2014-11-04 Vlingo Corporation Application text entry in a mobile environment using a speech processing facility
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287792A (ja) * 2001-03-27 2002-10-04 Denso Corp 音声認識装置
JP2004240234A (ja) * 2003-02-07 2004-08-26 Nippon Hoso Kyokai <Nhk> 文字列修正訓練サーバ、文字列修正訓練装置、文字列修正訓練方法および文字列修正訓練プログラム
JP2006521578A (ja) * 2003-03-26 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システム
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム

Also Published As

Publication number Publication date
CN103140889A (zh) 2013-06-05
WO2012043168A1 (ja) 2012-04-05
US20130179166A1 (en) 2013-07-11
CN103140889B (zh) 2015-01-07
JPWO2012043168A1 (ja) 2014-02-06

Similar Documents

Publication Publication Date Title
JP5874640B2 (ja) 音声変換装置、携帯電話端末、音声変換方法およびプログラム
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US7552045B2 (en) Method, apparatus and computer program product for providing flexible text based language identification
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JP2009098490A (ja) 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
MX2007013357A (es) Metodo y sistema para generar sugerencias ortograficas.
JPWO2007097390A1 (ja) 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
JP2008051895A (ja) 音声認識装置および音声認識処理プログラム
US11620981B2 (en) Speech recognition error correction apparatus
JP5323652B2 (ja) 類似語決定方法およびシステム
JP4189336B2 (ja) 音声情報処理システム、音声情報処理方法及びプログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2013050742A (ja) 音声認識装置および音声認識方法
JP2010164918A (ja) 音声翻訳装置、および方法
JP2009086063A (ja) 音声認識装置およびコンピュータプログラム
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP2006235916A (ja) テキスト解析装置およびテキスト解析方法ならびに音声合成装置
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP3589972B2 (ja) 音声合成装置
JP2009258369A (ja) 音声認識辞書生成装置及び音声認識処理装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2006309469A (ja) 検索装置、検索方法、プログラム、及びコンピュータ読み取り可能な記録媒体
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150403

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160104

R150 Certificate of patent or registration of utility model

Ref document number: 5874640

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees