JP2012063545A - 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム - Google Patents

音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム Download PDF

Info

Publication number
JP2012063545A
JP2012063545A JP2010207132A JP2010207132A JP2012063545A JP 2012063545 A JP2012063545 A JP 2012063545A JP 2010207132 A JP2010207132 A JP 2010207132A JP 2010207132 A JP2010207132 A JP 2010207132A JP 2012063545 A JP2012063545 A JP 2012063545A
Authority
JP
Japan
Prior art keywords
recognition result
character string
correction candidate
characters
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010207132A
Other languages
English (en)
Other versions
JP5148671B2 (ja
Inventor
Shin Oguri
伸 小栗
Shinya Iizuka
真也 飯塚
Kosuke Tsujino
孝輔 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2010207132A priority Critical patent/JP5148671B2/ja
Publication of JP2012063545A publication Critical patent/JP2012063545A/ja
Application granted granted Critical
Publication of JP5148671B2 publication Critical patent/JP5148671B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザの意図した文字列を効率よく抽出してユーザの入力操作を軽減すること。
【解決手段】この携帯電話端末1は、音声認識処理によって生成される認識結果文字列、及び認識結果文字列の読みの文字数を取得する音声認識部11と、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納部14と、音声認識部11によって取得された認識結果文字列及び文字数に基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定部12と、誤認識部分特定部12によって特定された読みの文字数に基づいて、辞書データ格納部14から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出部13と、訂正候補抽出部13によって抽出された訂正候補を出力する訂正結果出力部15とを備える。
【選択図】図1

Description

本発明は、音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラムに関するものである。
従来から、パーソナルコンピュータ、携帯電話機等の情報処理装置には、ユーザからの音声入力を文字列に変換する音声認識機能が搭載されている。この音声認識機能による音声認識処理は音声データを辞書データと比較して文字列に変換するため、その認識成功率が周囲環境や辞書データの設定内容に依存する。そのため、誤認識が発生した場合には音声認識処理結果に対して訂正を加える必要がある。
例えば、下記特許文献1には、入力音声パターンと標準音声パターンとを順次比較し、入力音声パターンと最も近似するものから所定数選択して表示させ、表示させた候補文字の中からユーザに文字を選択させることが可能な音声認識装置が開示されている。また、音声認識処理によって文字を入力する際に訂正操作を省くために、すでに確定した入力文字列に連携した文字列候補を確定文字列とする入力支援システムが知られている(下記特許文献2参照。)。
特開平7−281695号公報 特開2009−122393号公報
しかしながら、上述した従来の音声認識装置では、認識文字を順次ユーザで確認しながら選択する必要があるため、操作が煩雑になって効率的な文字入力が困難である。また、上記の入力支援システムでは、前後の文字列が必ずしも関連性を有するとは限らないため、ユーザが意図した入力文字列を抽出できない場合があった。
そこで、本発明は、かかる課題に鑑みて為されたものであり、ユーザの意図した文字列を効率よく抽出してユーザの入力操作を軽減することが可能な音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラムを提供することを目的とする。
上記課題を解決するため、本発明の音声認識結果出力装置は、音声入力に対する音声認識処理の結果である認識結果文字列、及び認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段と、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納手段と、認識結果取得手段によって取得された認識結果文字列及び文字数特定データに基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定手段と、誤認識部分特定手段によって特定された読みの文字数に基づいて、辞書データ格納手段から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出手段と、訂正候補抽出手段によって抽出された訂正候補を出力する訂正候補出力手段と、を備える。
或いは、本発明の音声認識結果出力方法は、認識結果取得手段が、音声入力に対する音声認識処理の結果である認識結果文字列、及び認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得ステップと、辞書データ格納手段が、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納ステップと、誤認識部分特定手段が、認識結果取得手段によって取得された認識結果文字列及び文字数特定データに基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定ステップと、訂正候補抽出手段が、誤認識部分特定手段によって特定された読みの文字数に基づいて、辞書データ格納手段から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出ステップと、訂正候補出力手段が、訂正候補抽出手段によって抽出された訂正候補を出力する訂正候補出力ステップと、を備える。
或いは、本発明の音声認識結果出力プログラムは、コンピュータを、音声入力に対する音声認識処理の結果である認識結果文字列、及び認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段、予め複数の登録文字列を、登録文字列の読みと対応して格納する辞書データ格納手段、認識結果取得手段によって取得された認識結果文字列及び文字数特定データに基づいて、認識結果文字列のうちの誤認識部分、及び誤認識部分の読みの文字数を特定する誤認識部分特定手段、誤認識部分特定手段によって特定された読みの文字数に基づいて、辞書データ格納手段から、読みの文字数が一致する登録文字列を誤認識部分に対する訂正候補として抽出する訂正候補抽出手段、及び訂正候補抽出手段によって抽出された訂正候補を出力する訂正候補出力手段、として機能させることを特徴とする。
このような音声認識結果出力装置、音声認識結果出力方法、又は音声認識結果出力プログラムによれば、認識結果取得手段によって、音声認識処理の結果である認識結果文字列、及びその読みの文字数を特定するための文字数特定データが取得され、誤認識部分特定手段によって、取得された認識結果文字列及び文字数特定データに基づいて、誤認識部分及びその読みの文字数が特定される。そして、訂正候補抽出手段によって、誤認識部分の読みの文字数に対して読みの文字数が一致する登録文字列が、訂正候補として抽出され、訂正候補出力手段によって、その訂正候補が出力される。このように、認識結果文字列のうちの誤認識部分の読みの文字数に対応する登録文字列が訂正候補として出力されるので、ユーザの意図した文字列を漏れなく効率よく出力することができる。その結果、ユーザの音声認識結果に対する訂正操作等の入力操作を軽減することができる。
訂正候補抽出手段は、辞書データ格納手段から、読みの文字及び位置が誤認識部分と一致する登録文字列をさらに抽出する、ことが好ましい。この場合、誤認識部分の読みに近い登録文字列が効率よく抽出され、ユーザの入力操作を確実に軽減することができる。
また、認識結果取得手段は、認識結果文字列の読みの文字毎に音声認識処理の信頼度を示す信頼度データをさらに取得し、訂正候補抽出手段は、誤認識部分に対応する読みの文字の中から、信頼度データが所定の閾値以上の読みの文字を特定し、辞書データ格納手段から、読みの文字及び位置が誤認識部分と一致する登録文字列をさらに抽出する、ことも好ましい。かかる構成を採れば、誤認識部分の中で音声認識処理に関する信頼度の高い部分の読みに近い登録文字列が訂正候補として抽出されるので、ユーザの入力操作をさらに軽減することができる。
さらに、認識結果取得手段は、認識結果文字列に対する音声認識処理の信頼度を示す信頼度データをさらに取得し、訂正候補抽出手段は、辞書データ格納手段から登録文字列を抽出する際に、信頼度が高くなるに従って抽出条件を限定する、ことも好ましい。そうすれば、音声認識処理の信頼度に応じて登録文字列が効率よく抽出され、ユーザの入力操作を一層軽減することができる。
またさらに、認識結果取得手段は、音声入力に対する複数の認識結果文字列を取得し、訂正候補抽出手段は、一の認識結果文字列の誤認識部分と他の認識結果文字列との間で一致する読みの文字及び位置を特定し、辞書データ格納手段から、該読みの文字及び位置が誤認識部分と一致する登録文字列をさらに抽出する、ことも好ましい。かかる構成を採れば、複数の認識結果文字列を利用して音声認識処理に関する信頼度の高い部分を効率よく特定できるので、訂正候補を的確に抽出することができる。これにより、ユーザの入力操作を確実に軽減することができる。
本発明によれば、ユーザの意図した文字列を効率よく抽出してユーザの入力操作を軽減することができる。
本発明の第1実施形態にかかる携帯電話端末の概略構成図である。 図1の携帯電話端末のハードウェア構成を示すブロック図である。 図1の音声認識部によって生成される認識結果データの構成を示す図である。 図1の辞書データ格納部14に格納された登録文字列データの構成を示す図である。 図1の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。 図1の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。 本発明の第1実施形態にかかる音声認識結果出力プログラムの概略構成図である。 本発明の第2実施形態にかかる携帯電話端末の概略構成図である。 図8のデータ通信部116によって取得される認識結果データの構成を示す図である。 図8の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。 図8の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。 図8の携帯電話端末における音声認識結果出力時の動作を示すフローチャートである。 本発明の第2実施形態にかかる音声認識結果出力プログラムの概略構成図である。
以下、図面とともに本発明による音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラムの好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
(第1実施形態)
図1は、本発明の第1実施形態にかかる携帯電話端末1の概略構成図である。同図に示す携帯電話端末1は、音声通信機能、データ通信機能、及び、電子メール送信時やWEBサイト接続時に用いられる文字データの入力機能とを有する携帯用端末装置である。なお、本発明はこのような通信機能を有する携帯電話端末に限定されるものではなく、通信機能を有さないパーソナルコンピュータ、PDA等のキーボード、入力ボタン等のデータ入力手段、及びマイク等の音声入力手段を具備した情報処理端末に広く適用されうる。
図2は、携帯電話端末1のハードウェア構成を示すブロック図である。携帯電話端末1は、物理的には、CPU31と、主記憶装置であるRAM32及びROM33と、ハードディスク装置等の補助記憶装置36と、入力デバイスである入力キー、マウス、マイクロフォン等の入力装置35と、ディスプレイ、スピーカ等の出力装置37と、他の端末装置やサーバ装置との間での通信ネットワークを介したデータの送受信を司る移動通信モジュール34とを含む情報処理装置として構成されている。携帯電話端末1によって実現される機能は、図2に示すCPU31、RAM32等のハードウェア上に所定のプログラムを読み込ませることにより、CPU31の制御のもとで移動通信モジュール34、入力装置35、出力装置37を動作させるとともに、RAM32や補助記憶装置36におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻って、この携帯電話端末1は、機能的な構成要素として、音声認識部(認識結果取得手段)11と、誤認識部分特定部(誤認識部分特定手段)12と、訂正候補抽出部(訂正候補抽出手段)13と、辞書データ格納部(辞書データ格納手段)14と、訂正結果出力部(訂正候補出力手段)15とを備えている。以下、携帯電話端末1の各構成要素について詳細に説明する。
音声認識部11は、ユーザから入力装置35を介して音声入力を受け、その結果生成された音声データを用いて音声認識処理を実行する。音声認識処理の方法としては公知の処理方法が用いられ、例えば、音声の特徴量と文字との対応関係およびその統計情報を含む音響モデルと、文字列間の接続関係およびその統計情報を含む言語モデルとを参照しながら、音声データを文字列に変換する変換方式が用いられる。また、音声認識部11は、変換した文字列の文節毎、および文字列の読みの文字毎に、音声認識処理の成功率を示す信頼度を算出する機能も有している。さらに、音声認識部11は、ユーザからの音声入力に対する音声認識処理の結果として認識結果データを取得し、誤認識部分特定部12に渡す。
図3には、音声認識部11によって取得された認識結果データの構成の一例を示している。このように、認識結果データには、認識結果文字列、およびその文字列の読みを示す文字を含む認識結果Aと、その認識結果文字列の文節毎の音声認識処理の信頼度を示す信頼度Bと、認識結果文字列の文節ごとの読みの文字数(文字数特定データ)Cと、読みの文字毎の音声認識処理の信頼度を示す信頼度Dとが含まれている。例えば、ユーザから“今日はいい天気です”といった音声が入力された場合には、認識結果Aとして、文節ごとに区切られた認識結果文字列“今日は/いい/定期/です”と、認識結果文字列の文節ごとの読みを示す文字列“きょうは/いい/ていき/です”が取得される。また、信頼度Bとして文節ごとの音声認識処理の信頼度を示す値“90/90/60/90”、信頼度Dとして認識結果文字列の全体に対応する読みの文字毎の信頼度を示す値“85,92,90,89,…”、および、文字数Cとして文節ごとの読みの文字数“4/2/3/2”が取得される。
図1に戻って、誤認識部分特定部12は、音声認識部11から渡された認識結果データに基づいて、音声認識部11によって認識された文字列のうちの誤認識部分、およびその誤認識部分の読みの文字数を特定する。すなわち、誤認識部分特定部12は、認識結果データに含まれる文節毎の信頼度Bを参照し、その信頼度Bが予め設定された値以下の文節を誤認識部分として特定する。例えば、上述した認識結果データの例においては、信頼度Bが所定値“70”以下の文節“定期”が誤認識部分と特定される。さらに、誤認識部分特定部12は、特定した誤認識部分の読みの文字列、及びその文字列の文字数を特定し、認識結果データと共に訂正候補抽出部13に渡す。例えば、誤認識部分特定部12は、誤認識部分の読みの文字列“ていき”と、その文字数C“3”と、文字列に対応する信頼度B,Dを、訂正候補抽出部13に渡す。ここで、誤認識部分特定部12は、認識結果データに含まれる認識結果文字列を出力装置37に出力させた後に、誤認識部分の指定を入力装置35を介してユーザから受け付けることによって誤認識部分を特定してもよい。
訂正候補抽出部13は、誤認識部分特定部12から渡された誤認識部分の読みの文字列、その文字列の文字数C、及びその文字列に対応する信頼度B,Dに基づいて、辞書データ格納部14に格納された登録文字列から、誤認識部分に対する訂正候補を抽出する。その際、訂正候補抽出部13は、誤認識部分の文節に対応する信頼度Bが高くなるに従って、登録文字列から訂正候補を抽出する条件を限定させるように動作する。
詳細には、訂正候補抽出部13は、誤認識部分の文節に対応する信頼度Bが、予め設定された閾値S未満である場合には、登録文字列から訂正候補を抽出する条件である検索文字数を、文字数C−K以上、文字数C+K以下の範囲に設定する(Kは、予め設定された正数)。これにより、辞書データ格納部14からの登録文字列の抽出の範囲が比較的広く設定される。例えば、誤認識部分の読みの文字数C“3”、および定数K=1の場合には、検索文字数を2以上4以下の範囲に設定する。さらに、訂正候補抽出部13は、設定した検索文字数の範囲に応じて、その範囲に一致する読みの文字数を有する登録文字列を、訂正候補として抽出する。図4には、辞書データ格納部14に格納された登録文字列データの一例が示されている。同図に示すように、辞書データ格納部14には、登録文字列である単語データ“定期”が、その読みを示す検索キー“ていき”に対応付けて格納されている。例えば、訂正候補抽出部13は、検索文字数が2以上4以下の場合には、その検索文字数の範囲に応じて検索文字“**”、“***”、“****”を設定し、それらの検索文字が検索キーに一致する単語データを辞書データ格納部14から抽出する。ここで、検索文字“*”は任意の文字列を示しており、検索文字“**”を用いた場合には、2文字の検索キーを有する単語データが全て抽出される。ここで、訂正候補抽出部13は、例えば検索文字が複数文字からなる“***”の場合、その検索文字を“*”と“**”、“**”と“*”や、“***”等のように複数に区切った後に、区切ったそれぞれの検索条件で、辞書データ格納部14から一連の登録文字列を抽出し、その一連の登録文字列を1つの誤認識部分に対する訂正候補として抽出してもよい。
これに対して、訂正候補抽出部13は、誤認識部分の文節に対応する信頼度Bが、予め設定された閾値S以上である場合には、誤認識部分の読みの文字列、その文字数C、その文字列の文字毎の信頼度Dを基にして、抽出条件である検索文字数および検索文字を決定する。これにより、信頼度Bに応じて辞書データ格納部14からの登録文字列の抽出の範囲が比較的狭く設定され、文字毎の信頼度Dが高くなると抽出範囲がさらに狭く設定される。すなわち、訂正候補抽出部13は、誤認識部分の文字数Cを検索文字数に設定した後に、誤認識部分に対応する読みの文字列の中から、信頼度Dが予め設定された閾値(S1)以上である文字列を特定し、その文字列を検索文字として設定する。例えば、誤認識部分“定期”に対応する読みの文字“て”、“い”、“き”のそれぞれの信頼度Dが、“75”、“30”、“60”であって、閾値S1が“65”に設定されている場合には、検索文字として読みの文字列の1番目の文字“て”のみを設定する。そして、訂正候補抽出部13は、設定した検索文字及びその文字列における位置に従って、前に決定された検索文字数を有する全体の検索文字列“て**”を設定し、全体の検索文字列が検索キーに一致する単語データを辞書データ格納部14から抽出する。これにより、設定された1文字ごとの検索文字に対して、読みの文字及び位置が一致する登録文字列が辞書データ格納部14から抽出される。なお、検索文字は信頼度Dに応じて複数文字設定されてもよく、その場合は全体の検索文字列には“て*き”のように複数文字が設定される。また、訂正候補抽出部13は、例えば、検索文字数が2以上4以下の場合、“て*”、“*て”、“て**”、“て***”、“*て**”等のように、検索文字の位置を様々に変更して検索文字列を設定し、全体の文字列が検索キーに一致する単語データを辞書データ格納部14から抽出してもよい。
また、訂正候補抽出部13は、上記のようにして抽出した誤認識部分に対応する訂正候補を、認識結果データと共に訂正結果出力部15に引き渡す。例えば、検索文字列として“て*き”が設定され、図4に示すような登録文字列が予め記憶されていた場合には、訂正候補として、“提起”、…、“天気”、“転機”、“転記”等が引き渡される。
訂正結果出力部15は、訂正候補抽出部13によって抽出された訂正候補を、全体の認識結果文字列とともにディスプレイ等の出力装置37に出力する部分である。このとき、訂正結果出力部15は、誤認識部分特定部12によって特定された誤認識部分の信頼度Bに応じた所定の計算基準を用いて、訂正候補ごとの優先度を示す得点を計算し、その得点順に出力装置37に出力するように制御する。
詳細には、訂正結果出力部15は、誤認識部分に対応する信頼度Bが予め設定された閾値S2以上である場合には、その誤認識部分の文字列に対する訂正候補の類似度を示す得点を計算する。この類似度計算の方法としては、公知の編集距離の計算方法や、子音、母音の一致度を読み(音素)毎に計算する方法等が挙げられる。一方で、訂正結果出力部15は、誤認識部分に対応する信頼度Bが予め設定された閾値S2未満である場合には、その訂正候補ごとに、辞書データからの利用頻度、現在の日時との関連性、携帯電話端末1の位置情報等の端末状態情報との関連性、全体の認識結果文字列における前後の文字列との関連性等を示す得点を計算する。
そして、訂正結果出力部15は、認識結果データに含まれる全体の認識結果文字列と、計算した得点順に並べ替えられた訂正候補とを、並列に出力装置37に表示させるように制御する。例えば、全体の認識結果文字列“今日はいい定期です”に対して並列に、訂正候補“天気”、“転機”、“転記”、…が、得点順に表示される。ここで、訂正結果出力部15は、訂正候補抽出部13によって抽出された複数の訂正候補を出力してもよいし、得点の一番高い訂正候補を出力してもよく、全体の認識結果文字列のうちの誤認識部分が訂正候補に置換された状態で、全体の認識結果文字列のみを出力するようにしてもよい。
次に、図5及び図6を参照して、携帯電話端末1の音声認識結果出力時の動作について説明するとともに、併せて携帯電話端末1における音声認識結果出力方法について詳述する。図5及び図6は、携帯電話端末1による音声認識結果出力時の動作を示すフローチャートである。
まず、ユーザからの入力装置35を介した音声入力を受けて音声認識処理が開始され、音声認識部11によって認識結果データが取得される(ステップS101)。そうすると、誤認識部分特定部12により音声認識部11によって認識された文字列のうちの誤認識部分が特定される(ステップS102)。
その後、訂正候補抽出部13は、誤認識部分の文節に対応する信頼度Bを閾値Sと比較する(ステップS103)。その結果、信頼度Bが閾値S未満である場合には(ステップS103;NO)、訂正候補抽出部13は、検索文字数の範囲を誤認識部分の読みの文字数Cと定数Kとを用いて計算する(ステップS105)。一方、信頼度Bが閾値S以上である場合には(ステップS103;YES)、訂正候補抽出部13は、検索文字数を誤認識部分に対応する文字数Cと等しくなるように設定する(ステップS104)。このようにして、訂正候補抽出部13は、辞書データ格納部14からの訂正候補の抽出条件である検索文字数又はその範囲を決定する(ステップS106)。ここで、訂正候補抽出部13は、検索文字数又はその範囲が2文字以上の場合には、分割した文字数の組合せを設定してもよい。例えば、訂正候補抽出部13は、検索文字が3文字からなる“***”の場合、その検索文字列を“*”と“**”、“**”と“*”や、“***”等のように複数に区切ったパターンで設定する。
さらに、訂正候補抽出部13は、信頼度Bが閾値S未満である場合には(ステップS107;NO)、抽出条件としての検索文字列中の検索文字を“無し”とする(ステップS108)。これに対して、信頼度Bが閾値S以上である場合には(ステップS107;YES)、訂正候補抽出部13は、次のようにして検索文字列中の検索文字を決定する。すなわち、パラメータTの初期値を“1”に設定し(ステップS109)、誤認識部分の読みの文字列の第T文字目を特定する(ステップS110)。そして、特定した第T文字目に対応する信頼度Dと閾値S1とを比較する(ステップS111)。比較の結果、信頼度Dが閾値S1未満と判断した場合には(ステップS111;NO)、パラメータTに“1”を加算してステップS113に処理を移し、次の文字列に関する比較処理に移行する。一方、信頼度Dが閾値S1以上と判断した場合には(ステップS111;YES)、第T文字目を検索文字に決定する(ステップS112)。ここで、訂正候補抽出部13は、検索文字数がC−K以上C+K以下(K≧1)に設定されている場合、検索文字をT−K文字目からT+K文字目までの範囲で1文字ずつずらした複数パターンの検索文字列を設定する。その後、第T文字目が誤認識部分の読みの文字列の最後であるかを判定し(ステップS113)、文字列の最後でない場合には(ステップS113;NO)、パラメータTに“1”を加算してステップS110に処理を戻し、次の文字に関する比較処理に移行する。これに対して、文字列の最後である場合には(ステップS113;YES)、それまでに決定した検索文字を誤認識部分に関する全ての検索文字として確定させる(ステップS114)。
次に、訂正候補抽出部13は、決定した検索文字数、検索文字、又は検索文字数の範囲に基づいて検索文字列を設定し、その検索文字列を用いて辞書データ格納部14に格納された単語データの中から誤認識部分に対する訂正候補を抽出する(ステップS115)。その後、訂正結果出力部15により、誤認識部分に対応する信頼度Bと閾値S2とが比較される(ステップS116)。その結果、信頼度Bが閾値S2以上と判断された場合には(ステップS116;YES)、訂正結果出力部15により、訂正候補毎に誤認識部分の認識結果Aに対する類似度を示す得点が計算される(ステップS117)。一方、信頼度Bが閾値S2未満と判断された場合には(ステップS116;NO)、訂正結果出力部15により、訂正候補毎に利用頻度等を基に優先度を示す得点が計算される(ステップS118)。最後に、訂正結果出力部15により、全体の認識結果文字列と、得点順に並べ替えられた訂正候補とが、並列に出力装置37に出力される(ステップS119)。
次に、図7を参照して、コンピュータを上述した携帯電話端末1として機能させるための音声認識結果出力プログラム50、及び当該音声認識結果出力プログラム50を記録したコンピュータ読み取り可能な記録媒体(以下、単に記録媒体という)について説明する。ここで、記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、CD−ROM、コンピュータに内蔵されるメモリなどが該当する。図7は、記録媒体に記録された音声認識結果出力プログラム50の構成図である。
同図に示すように、音声認識結果出力プログラム50は、処理を統括するメインモジュール501と、音声認識モジュール502と、誤認識部分特定モジュール503と、訂正候補抽出モジュール504と、辞書データ格納モジュール505と、訂正結果出力モジュール506とを備えて構成される。ここで、音声認識モジュール502、誤認識部分特定モジュール503、訂正候補抽出モジュール504、辞書データ格納モジュール505、及び訂正結果出力モジュール506のそれぞれを動作させることによって実現する機能は、上述した携帯電話端末1の音声認識部11、誤認識部分特定部12、訂正候補抽出部13、辞書データ格納部14、及び訂正結果出力部15それぞれの機能と同様である。
以上説明した携帯電話端末1によれば、音声認識部11によって、音声認識処理の結果である認識結果A、及びその読みの文字数を特定するための文字数Cが取得され、誤認識部分特定部12によって、取得された認識結果A及び文字数Cに基づいて、誤認識部分及びその読みの文字数Cが特定される。そして、訂正候補抽出部13によって、誤認識部分の読みの文字数Cに対して読みの文字数が一致する登録文字列が、訂正候補として抽出され、訂正結果出力部15によって、その訂正候補が出力される。このように、認識結果Aに含まれる認識結果文字列のうちの誤認識部分の読みの文字数Cに対応する登録文字列が訂正候補として出力されるので、ユーザの意図した文字列を漏れなく効率よく出力することができる。特に、訂正候補として読みの文字数に着目することで、登録文字列から訂正候補を確実に抽出することができる。その結果、訂正候補を再度検索したり、訂正文字をユーザが直接入力する頻度が低減され、ユーザの音声認識結果に対する訂正操作等の入力操作を軽減することができる。
また、訂正候補抽出部13は、誤認識部分に対応する読みの文字列の中から、信頼度Dが閾値S1以上の読みの文字を特定し、辞書データ格納部14から、特定した読みの文字及び位置が誤認識部分と一致する登録文字列を抽出する。従って、誤認識部分の中で音声認識処理に関する信頼度の高い部分の読みに近い登録文字列が訂正候補として抽出されるので、ユーザの入力操作をさらに軽減することができる。
さらに、訂正候補抽出部13は、辞書データ格納部14から登録文字列を抽出する際に、誤認識部分の信頼度Bが高くなるに従って抽出条件を限定するので、音声認識処理の信頼度に応じて登録文字列が効率よく抽出され、ユーザの入力操作を一層軽減することができる。
(第2実施形態)
以下、本発明の第2実施形態について詳細に説明する。
図8は、本発明の第2実施形態にかかる携帯電話端末101の概略構成図である。本実施形態の第1実施形態との相違点は、携帯電話端末101が音声認識機能を備えておらず、携帯電話端末101における音声入力に対して、通信ネットワークを介して接続された音声認識サーバ4によって音声認識処理が実行される点、及び、携帯電話端末101がユーザの音声入力に対して複数の認識結果データを取得する点である。
すなわち、携帯電話端末101の音声入力部111は、ユーザから入力装置35を介して音声入力を受け付けることによって音声データを生成する。また、データ通信部(認識結果取得手段)116は、音声入力部111によって生成された音声データを通信ネットワークを介して外部の音声認識サーバ4に送信する。さらに、データ通信部116は、音声認識サーバ4において音声データに対して音声認識処理が施されることにより生成された認識結果データを、通信ネットワークを介して受信する。
図9には、データ通信部116によって音声認識サーバ4から受信される認識結果データの構成の一例を示している。同図に示すように、ユーザによる1回の音声入力に対して複数の認識結果データNo.1〜No.N(Nは2以上の整数)が受信され、それぞれの認識結果データNo.1〜No.Nには、認識結果A1〜AN、認識結果文字列の文節毎の信頼度B1〜BN、文節毎の読みの文字数C1〜CN、及び読みの文字毎の信頼度D1〜DNが含まれている。このような複数の認識結果データNo.1〜No.Nは、1回の音声入力に対して複数の音声認識方式によって得られたデータであってもよいし、同一の音声認識方式による複数回の音声認識処理の結果得られたデータであってもよい。
また、誤認識部分特定部112は、複数の認識結果データNo.1〜No.Nに含まれる認識結果A1〜ANを基に、複数の認識結果A1〜ANの認識結果文字列を比較し、差分が存在する文節の部分を誤認識部分として特定する。例えば、複数の認識結果文字列が、“今日は/いい/ペンキ/です”、“今日は/いい/婚期/です”と得られた場合には、誤認識部分特定部112は、差分を有する文字列“ペンキ”、及び“婚期”を、誤認識部分として特定する。なお、複数の認識結果文字列との間で文節の区切りが異なっている場合には、誤認識部分特定部112は、一致する文字列が他の認識結果データに存在するか否かを文節毎に判断する。例えば、複数の認識結果文字列が、“今日は/いい/ペンキ/です”、“今日は/体験記/です”と得られた場合には、誤認識部分特定部112は、他方の認識結果文字列と一致しない文節“いい”、“ペンキ”、及び“体験記”を、誤認識部分として特定する。
また、訂正候補抽出部113は、辞書データ格納部14の登録文字列の中から訂正候補を抽出するときに用いる検索文字を、複数の認識結果データNo.1〜No.Nの間で一致する文字を検出することによって決定する。具体的には、複数の認識結果データNo.1〜No.Nに対応する誤認識部分の読みの文字列の間で、一致する読みの文字及びその位置を特定し、その読みの文字及び位置を基にして検索文字を設定する。例えば、2つの認識結果データに対応する誤認識部分として“ペンキ”と“婚期”が得られた場合には、検索文字として第2文字目の“ん”と第3文字目の“き”が特定され、これに伴って全体の検索文字列が“*んき”に設定される。なお、訂正候補抽出部113は、検索文字を決定する際に誤認識部分の読みの文字列の間で母音又は子音の一致を判断し、一致する母音又は子音を基にして検索文字列を設定してもよい。また、訂正候補抽出部113は、検索文字を決定する際に誤認識部分の読みの文字列の頭文字のみの一致を判断し、一致した頭文字を基にして検索文字列を設定してもよい。
次に、図10〜12を参照して、携帯電話端末101の音声認識結果出力時の動作について説明するとともに、併せて携帯電話端末101における音声認識結果出力方法について詳述する。図10〜12は、携帯電話端末101による音声認識結果出力時の動作を示すフローチャートである。
まず、ユーザからの入力装置35を介した音声入力を受けて音声認識処理が開始されると、音声入力部111によって音声データが取得され、データ通信部116によって、音声データが音声認識サーバ4に送信された後に、音声認識サーバ4から認識結果データが受信される(ステップS201)。次に、誤認識部分特定部112によって、認識結果データに複数のデータが含まれているか否かが判断され(ステップS202)、複数のデータが含まれていない場合には(ステップS202;NO)、図5及び図6に示したステップS102〜S119と同様にして、訂正候補が出力装置37に出力される(ステップS203)。
一方で、複数のデータが含まれている場合には(ステップS202;YES)、誤認識部分特定部112により、複数の認識結果文字列を比較することにより、認識文字列のうちの誤認識部分が特定される(ステップS204)。そして、訂正候補抽出部113が、認識結果データNo.1を読み取る(ステップS205)。その後、訂正候補抽出部113は、認識結果データNo.1に対応する誤認識部分の文節に対応する信頼度Bを閾値Sと比較する(ステップS206)。その結果、信頼度Bが閾値S未満である場合には(ステップS206;NO)、訂正候補抽出部113は、検索文字数の範囲を誤認識部分の読みの文字数Cと定数Kとを用いて計算する(ステップS208)。一方、信頼度Bが閾値S以上である場合には(ステップS206;YES)、訂正候補抽出部113は、検索文字数を誤認識部分に対応する文字数Cと等しくなるように設定する(ステップS207)。そして、訂正候補抽出部113は、認識結果データNo.1に関する検索文字数、又はその範囲を決定し記憶する(ステップS209)。さらに、訂正候補抽出部113は、全ての認識結果データに関してステップS206〜S209の処理を繰り返すことにより、全ての認識結果データNo.1〜No.Nに関する検索文字数、又はその範囲を決定し記憶する(ステップS210、S211)。次に、訂正候補抽出部113は、全ての認識結果データNo.1〜No.Nに関する検索文字数又は検索範囲の和集合又は積集合を求め、最終的に抽出条件として決定する(ステップS212)。
その後、訂正候補抽出部113は、再度認識結果データNo.1を読み取る(ステップS213)。そして、訂正候補抽出部113は、認識結果データNo.1の誤認識部分に対応する信頼度Bが閾値S未満である場合には(ステップS214;NO)、抽出条件としての検索文字列中の検索文字を“無し”とする(ステップS215)。これに対して、信頼度Bが閾値S以上である場合には(ステップS214;YES)、訂正候補抽出部113は、次のようにして検索文字列中の検索文字を決定する。すなわち、パラメータTの初期値を“1”に設定し(ステップS216)、誤認識部分の読みの文字列の第T文字目を特定する(ステップS217)。そして、特定した第T文字目に対応する信頼度Dと閾値S1とを比較する(ステップS218)。比較の結果、信頼度Dが閾値S1未満と判断した場合には(ステップS218;NO)、パラメータTに“1”を加算してステップS217に処理を移し、次の文字列に関する比較処理に移行する。一方、信頼度Dが閾値S1以上と判断した場合には(ステップS218;YES)、第T文字目を検索文字に決定する(ステップS219)。その後、第T文字目が誤認識部分の読みの文字列の最後であるかを判定し(ステップS220)、文字列の最後でない場合には(ステップS220;NO)、パラメータTに“1”を加算してステップS217に処理を戻し、次の文字列に関する比較処理に移行する。これに対して、文字列の最後である場合には(ステップS220;YES)、それまでに決定した検索文字を認識結果データNo.1の誤認識部分に関する全ての検索文字として記憶する(ステップS221)。訂正候補抽出部113は、このような検索文字の決定を、全ての認識結果データNo.1〜No.Nに関して繰り返す(ステップS222,S223)。そして、訂正候補抽出部113は、全ての認識結果データNo.1〜No.Nに関する検索文字及びその位置の和集合又は積集合を求め、最終的に抽出条件として決定する(ステップS224)。
次に、訂正候補抽出部113は、決定した検索文字数、検索文字、又は検索文字数の範囲に基づいて検索文字列を設定し、その検索文字列を用いて辞書データ格納部14に格納された単語データの中からそれぞれの誤認識部分に対する訂正候補を抽出する(ステップS225)。さらに、訂正結果出力部15により、複数の認識結果データNo.1〜No.Nの誤認識部分の認識結果Aのうちから信頼度Bの最も高い文字列が特定される(ステップS226)。その後、訂正結果出力部15により、特定された誤認識部分に対応する信頼度Bと閾値S2とが比較される(ステップS227)。その結果、信頼度Bが閾値S2以上と判断された場合には(ステップS227;YES)、訂正結果出力部15により、訂正候補毎に誤認識部分の認識結果Aに対する類似度を示す得点が計算される(ステップS228)。一方、信頼度Bが閾値S2未満と判断された場合には(ステップS227;NO)、訂正結果出力部15により、訂正候補毎に利用頻度等を基に優先度を示す得点が計算される(ステップS229)。最後に、訂正結果出力部15により、複数の認識結果データに含まれる全体の認識結果文字列と、それに対応して得点順に並べ替えられた訂正候補とが、並列に出力装置37に出力される(ステップS230)。
次に、図13を参照して、コンピュータを上述した携帯電話端末101として機能させるための音声認識結果出力プログラム60について説明する。図13は、記録媒体に記録された音声認識結果出力プログラム60の構成図である。
同図に示すように、音声認識結果出力プログラム60は、処理を統括するメインモジュール601と、音声入力モジュール602と、データ通信モジュール603と、誤認識部分特定モジュール604と、訂正候補抽出モジュール605と、辞書データ格納モジュール606と、訂正結果出力モジュール607とを備えて構成される。ここで、音声入力モジュール602、データ通信モジュール603、誤認識部分特定モジュール604、訂正候補抽出モジュール605、辞書データ格納モジュール606、及び訂正結果出力モジュール607のそれぞれを動作させることによって実現する機能は、上述した携帯電話端末101の音声入力部111、データ通信部116、誤認識部分特定部112、訂正候補抽出部113、辞書データ格納部14、及び訂正結果出力部15それぞれの機能と同様である。
以上説明した携帯電話端末101によっても、訂正候補を再度検索したり、訂正文字をユーザが直接入力する頻度が低減され、ユーザの音声認識結果に対する訂正操作等の入力操作を軽減することができる。特に、訂正候補抽出部113は、一の認識結果文字列の誤認識部分と他の認識結果文字列との間で一致する読みの文字及び位置を特定し、辞書データ格納部14から、読みの文字及び位置が誤認識部分と一致する登録文字列を抽出している。これにより、複数の認識結果文字列を利用して音声認識処理に関する信頼度の高い部分を効率よく特定できるので、訂正候補を的確に抽出することができる。
なお、本発明は、前述した実施形態に限定されるものではない。例えば、訂正候補抽出部13,113は、検索文字の数を誤認識部分の文字毎の信頼度Dを閾値S1と比較することにより決定していた。これに対して、誤認識部分の文節全体の信頼度Bが高くなるに従って検索文字の数を増加させるようにしてもよい。例えば、訂正候補抽出部13,113は、信頼度Bが比較的小さい場合には、検索文字列を“て**”“*い*”、“**き”のように検索文字の数が少なくなるように設定し、信頼度Bが比較的大きい場合には、検索文字列を“てい*”、“*いき”のように検索文字の数が多くなるように設定することができる。
1,101…携帯電話端末(音声認識結果出力装置)、11…音声認識部(認識結果取得手段)、12,112…誤認識部分特定部(誤認識部分特定手段)、13,113…訂正候補抽出部(訂正候補抽出手段)、14…辞書データ格納部(辞書データ格納手段)、15…訂正結果出力部(訂正候補出力手段)、16…データ通信部(認識結果取得手段)、50,60…音声認識結果出力プログラム。

Claims (7)

  1. 音声入力に対する音声認識処理の結果である認識結果文字列、及び前記認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段と、
    予め複数の登録文字列を、前記登録文字列の読みと対応して格納する辞書データ格納手段と、
    前記認識結果取得手段によって取得された前記認識結果文字列及び前記文字数特定データに基づいて、前記認識結果文字列のうちの誤認識部分、及び前記誤認識部分の読みの文字数を特定する誤認識部分特定手段と、
    前記誤認識部分特定手段によって特定された前記読みの文字数に基づいて、前記辞書データ格納手段から、読みの文字数が一致する登録文字列を前記誤認識部分に対する訂正候補として抽出する訂正候補抽出手段と、
    前記訂正候補抽出手段によって抽出された前記訂正候補を出力する訂正候補出力手段と、
    を備えることを特徴とする音声認識結果出力装置。
  2. 前記訂正候補抽出手段は、前記辞書データ格納手段から、読みの文字及び位置が前記誤認識部分と一致する登録文字列をさらに抽出する、
    ことを特徴とする請求項1記載の音声認識結果出力装置。
  3. 前記認識結果取得手段は、前記認識結果文字列の読みの文字毎に音声認識処理の信頼度を示す信頼度データをさらに取得し、
    前記訂正候補抽出手段は、前記誤認識部分に対応する読みの文字の中から、前記信頼度データが所定の閾値以上の読みの文字を特定し、前記辞書データ格納手段から、前記読みの文字及び位置が前記誤認識部分と一致する登録文字列をさらに抽出する、
    ことを特徴とする請求項2記載の音声認識結果出力装置。
  4. 前記認識結果取得手段は、前記認識結果文字列に対する音声認識処理の信頼度を示す信頼度データをさらに取得し、
    前記訂正候補抽出手段は、前記辞書データ格納手段から前記登録文字列を抽出する際に、前記信頼度が高くなるに従って抽出条件を限定する、
    ことを特徴とする請求項2記載の音声認識結果出力装置。
  5. 前記認識結果取得手段は、前記音声入力に対する複数の前記認識結果文字列を取得し、
    前記訂正候補抽出手段は、一の前記認識結果文字列の誤認識部分と他の前記認識結果文字列との間で一致する読みの文字及び位置を特定し、前記辞書データ格納手段から、該読みの文字及び位置が前記誤認識部分と一致する登録文字列をさらに抽出する、
    ことを特徴とする請求項1記載の音声認識結果出力装置。
  6. 認識結果取得手段が、音声入力に対する音声認識処理の結果である認識結果文字列、及び前記認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得ステップと、
    辞書データ格納手段が、予め複数の登録文字列を、前記登録文字列の読みと対応して格納する辞書データ格納ステップと、
    誤認識部分特定手段が、前記認識結果取得手段によって取得された前記認識結果文字列及び前記文字数特定データに基づいて、前記認識結果文字列のうちの誤認識部分、及び前記誤認識部分の読みの文字数を特定する誤認識部分特定ステップと、
    訂正候補抽出手段が、前記誤認識部分特定手段によって特定された前記読みの文字数に基づいて、前記辞書データ格納手段から、読みの文字数が一致する登録文字列を前記誤認識部分に対する訂正候補として抽出する訂正候補抽出ステップと、
    訂正候補出力手段が、前記訂正候補抽出手段によって抽出された前記訂正候補を出力する訂正候補出力ステップと、
    を備えることを特徴とする音声認識結果出力方法。
  7. コンピュータを、
    音声入力に対する音声認識処理の結果である認識結果文字列、及び前記認識結果文字列の読みの文字数を特定するための文字数特定データを取得する認識結果取得手段、
    予め複数の登録文字列を、前記登録文字列の読みと対応して格納する辞書データ格納手段、
    前記認識結果取得手段によって取得された前記認識結果文字列及び前記文字数特定データに基づいて、前記認識結果文字列のうちの誤認識部分、及び前記誤認識部分の読みの文字数を特定する誤認識部分特定手段、
    前記誤認識部分特定手段によって特定された前記読みの文字数に基づいて、前記辞書データ格納手段から、読みの文字数が一致する登録文字列を前記誤認識部分に対する訂正候補として抽出する訂正候補抽出手段、及び
    前記訂正候補抽出手段によって抽出された前記訂正候補を出力する訂正候補出力手段、
    として機能させることを特徴とする音声認識結果出力プログラム。
JP2010207132A 2010-09-15 2010-09-15 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム Active JP5148671B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010207132A JP5148671B2 (ja) 2010-09-15 2010-09-15 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010207132A JP5148671B2 (ja) 2010-09-15 2010-09-15 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Publications (2)

Publication Number Publication Date
JP2012063545A true JP2012063545A (ja) 2012-03-29
JP5148671B2 JP5148671B2 (ja) 2013-02-20

Family

ID=46059321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010207132A Active JP5148671B2 (ja) 2010-09-15 2010-09-15 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム

Country Status (1)

Country Link
JP (1) JP5148671B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム
JP2016091028A (ja) * 2014-10-31 2016-05-23 株式会社東芝 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
JP2018005120A (ja) * 2016-07-07 2018-01-11 学校法人立命館 音声認識装置、音声認識方法及びコンピュータプログラム
JP2019507362A (ja) * 2016-02-05 2019-03-14 グーグル エルエルシー 外部データソースを用いた音声の再認識
CN109697983A (zh) * 2017-10-24 2019-04-30 上海赛趣网络科技有限公司 汽车钢印号快速获取方法、移动终端及存储介质
JP2020148814A (ja) * 2019-03-11 2020-09-17 株式会社 日立産業制御ソリューションズ 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
JP2021179860A (ja) * 2020-05-14 2021-11-18 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61239378A (ja) * 1985-04-16 1986-10-24 Toshiba Corp 認識処理装置
JPH06282293A (ja) * 1993-03-29 1994-10-07 Sony Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61239378A (ja) * 1985-04-16 1986-10-24 Toshiba Corp 認識処理装置
JPH06282293A (ja) * 1993-03-29 1994-10-07 Sony Corp 音声認識装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056154A (ja) * 2013-09-13 2015-03-23 独立行政法人情報通信研究機構 テキスト編集装置及びプログラム
JP2016091028A (ja) * 2014-10-31 2016-05-23 株式会社東芝 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
US9672817B2 (en) 2014-10-31 2017-06-06 Kabushiki Kaisha Toshiba Method and apparatus for optimizing a speech recognition result
JP2019507362A (ja) * 2016-02-05 2019-03-14 グーグル エルエルシー 外部データソースを用いた音声の再認識
JP2018005120A (ja) * 2016-07-07 2018-01-11 学校法人立命館 音声認識装置、音声認識方法及びコンピュータプログラム
CN109697983A (zh) * 2017-10-24 2019-04-30 上海赛趣网络科技有限公司 汽车钢印号快速获取方法、移动终端及存储介质
JP2020148814A (ja) * 2019-03-11 2020-09-17 株式会社 日立産業制御ソリューションズ 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
JP7096634B2 (ja) 2019-03-11 2022-07-06 株式会社 日立産業制御ソリューションズ 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
JP2021179860A (ja) * 2020-05-14 2021-11-18 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム
JP7128229B2 (ja) 2020-05-14 2022-08-30 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP5148671B2 (ja) 2013-02-20

Similar Documents

Publication Publication Date Title
JP5148671B2 (ja) 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム
CN107357778B (zh) 一种变形词的识别验证方法及系统
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
Tinwala et al. Eyes-free text entry with error correction on touchscreen mobile devices
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
US8401852B2 (en) Utilizing features generated from phonic units in speech recognition
US6763331B2 (en) Sentence recognition apparatus, sentence recognition method, program, and medium
JP2016062069A (ja) 音声認識方法、及び音声認識装置
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
WO2020156342A1 (zh) 语音识别方法、装置、电子设备及存储介质
TW201919040A (zh) 聲控方法及系統
CN111768789A (zh) 电子设备及其语音发出者身份确定方法、装置和介质
CN111209367A (zh) 信息查找方法、信息查找装置、电子设备及存储介质
JP2012078650A (ja) 音声入力支援装置
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
JP2010048890A (ja) クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
KR20130050132A (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
US20230117535A1 (en) Method and system for device feature analysis to improve user experience
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
CN114171000A (zh) 一种基于声学模型和语言模型的音频识别方法
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120521

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20120531

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20120613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121128

R150 Certificate of patent or registration of utility model

Ref document number: 5148671

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250