JP5706384B2 - 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識システム、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP5706384B2
JP5706384B2 JP2012209151A JP2012209151A JP5706384B2 JP 5706384 B2 JP5706384 B2 JP 5706384B2 JP 2012209151 A JP2012209151 A JP 2012209151A JP 2012209151 A JP2012209151 A JP 2012209151A JP 5706384 B2 JP5706384 B2 JP 5706384B2
Authority
JP
Japan
Prior art keywords
recognition result
recognition
result
dictionary
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012209151A
Other languages
English (en)
Other versions
JP2014063088A (ja
Inventor
聡典 河村
聡典 河村
優 酒井
優 酒井
一成 大内
一成 大内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012209151A priority Critical patent/JP5706384B2/ja
Priority to US13/693,753 priority patent/US9293137B2/en
Publication of JP2014063088A publication Critical patent/JP2014063088A/ja
Application granted granted Critical
Publication of JP5706384B2 publication Critical patent/JP5706384B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、音声認識装置、音声認識システム、音声認識方法および音声認識プログラムに関する。
サーバとクライアントのそれぞれが認識機能を備えた音声認識システムが提案されている。この音声認識システムでは、まず、入力された音声信号に対して、ネットワーク通信が不要なクライアント側で音声認識を行う。そして、クライアントで認識できなかった場合、大規模な演算リソースを利用可能なサーバ側で音声認識を行う。更に、この音声認識システムでは、サーバでの認識結果に含まれる語彙をクライアント側の認識辞書に登録することにより、クライアントで認識できる語彙の割合を増やし、音声認識システム全体としての応答性の改善を図っている。
しかしながら、従来技術では、クライアントでの認識精度が低い場合、常にサーバでの認識処理が必要になり、音声認識システム全体としての応答性が悪くなるという問題があった。また、従来技術では、利用者の発声頻度に応じてクライアント側の認識辞書に登録する語彙を決定しており、過去に何度も発声された語彙があった場合、最近発声された語彙がクライアント側の認識辞書に登録され辛くなるという問題があった。
特開2004−12653号公報 米国特許第7933777号明細書
発明が解決しようとする課題は、応答性が高く高精度な音声認識装置を開発することである。
実施形態の音声認識装置は、認識手段と、送信手段と、受信手段と、認識結果生成手段と、認識結果記憶手段と、辞書更新手段とを備える。認識手段は、クライアント認識辞書を用いて、第1の認識結果を生成する。送信手段は、音声信号あるいは特徴量をサーバに送信する。受信手段は、サーバから第2の認識結果を受信する。認識結果生成手段は、第2の認識結果よりも先に第1の認識結果を取得した場合は、第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも第2の認識結果を利用して第3の認識結果を生成する。辞書更新手段は、第3の認識結果の履歴に第1の語彙と第1の語彙より過去に生成された第2の語彙とが含まれる場合、第1の語彙が第2の語彙よりも優先的に含まれるようにクライアント認識辞書を更新する。
第1の実施形態の音声認識装置を示すブロック図。 実施形態の音声認識装置のハードウェア構成を示す図。 実施形態の音声認識装置のフローチャート。 実施形態の音声認識装置のフローチャート。 実施形態の音声認識装置のフローチャート。 実施形態の音声認識装置のフローチャート。 実施形態の音声認識装置のフローチャート。 実施形態の認識結果管理表の一例を示す図。 実施形態の認識結果管理表の一例を示す図。 第2の実施形態の音声認識装置のフローチャート。 実施形態の認識結果の出力の一例を示す図。
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
第1の実施形態では、利用者の音声を、サーバを用いて認識する音声認識装置(クライアント)について説明する。この音声認識装置は、ネットワーク通信が不要な自装置内で認識処理を実行すると共に、音声信号をサーバに送信しサーバ側でも認識処理を実行させる。そして、音声認識装置での認識結果が先に生成された場合、サーバでの認識結果を待たずに認識結果を利用者に提示する。さらに、本実施形態の音声認識装置は、利用者が最近発声した語彙が自装置で認識され易くなるように、自装置側の認識辞書を更新する。これにより、応答性が高く高精度な音声認識装置を実現することができる。
図1は、第1の実施形態にかかる音声認識システムの構成を示すブロック図である。この音声認識システムは、音声認識装置100(クライアント)とサーバ300とで構成される。音声認識装置100とサーバ300はネットワークを介して通信する。図1では、音声認識装置100とサーバ300が一対一で通信しているが、サーバ300が複数台の音声認識装置と通信してもよい。
サーバ300は、音声認識装置100と比較して大規模な演算リソースを有しており、高精度な認識精度を実現できる。一方、サーバ300はネットワークを介したデータ通信が必須になるため、音声認識装置100がサーバ300の認識結果を受信するまでには遅延が生じる。
図1の音声認識装置100は、認識部101と、クライアント認識辞書102と、クライアント送信部103と、クライアント受信部104と、認識結果生成部105と、認識結果記憶部106と、辞書更新部107と、出力部108とで構成される。認識部101は更に、音声入力部109と、クライアント認識処理部110とで構成される。
図1のサーバ300は、サーバ受信部301と、サーバ認識処理部302と、サーバ認識辞書303と、サーバ送信部304とで構成される。
(ハードウェア構成)
本実施形態の音声認識装置100およびサーバ300は、図2に示すような通常のコンピュータ端末を利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の第1記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の第2記憶部203と、キーボード、マウス、タッチパネル等の操作部204と、外部装置との通信を制御する通信部205と、音声を取得するマイク206と、音声を再生するスピーカ207と、映像を表示するディスプレイ208と、これらを接続するバス209とを備えている。本実施形態の音声認識装置100は、携帯型あるいは据え置き型のコンピュータ端末のどちらであってもよい。
このようなハードウェア構成において、制御部201がROM等の第1記憶部202や第2記憶部203に記憶された各種プログラムを実行することにより、後述する各ブロックの機能が実現される。
(各ブロックの機能)
音声認識装置100における各ブロックの機能を説明する。
認識部101は、音声入力部109とクライアント認識処理部110とで構成されており、クライアント認識辞書102を用いて、音声入力部109で取得した利用者の音声を認識する。
音声入力部109は、マイク206で取得した利用者の音声をAD変換することにより音声信号を取得する。音声入力部109は、取得した音声信号に圧縮処理を適用してもよい。さらに、音声入力部109は、音声信号からMFCC(Mel Frequency Cepstral Coefficient)などの音声認識に用いる特徴量を抽出する。
クライアント送信部103は、音声信号あるいは特徴量を、通信部205を介してサーバ300に送信する。ここで、クライアント送信部103は、認識部101での認識処理が終了する前に、音声信号あるいは特徴量をサーバ300に送信する。
クライアント受信部104は、通信部205を介してサーバ300における音声信号の認識結果を受信する。サーバ300での認識処理は後述する。
クライアント認識処理部110は、音声入力部109で抽出した特徴量とクライアント認識辞書102とを照合することにより認識処理を行う。照合の結果、適当な認識結果が得られない場合は認識不可能である通知(リジェクト)を、認識結果が得られた場合は認識結果を信頼度スコア付きで出力する。ここで、信頼度スコアは、認識結果の尤もらしさを表す指標であり、その値が大きいほど認識結果の信頼度が高いことを表している。クライアント認識処理部110は、信頼度スコア付きで第M位候補(M≧1)までの認識結果を生成することができる。
クライアント認識辞書102は、音素の音響的特徴を捉えた音響モデルと、発声内容の言語的特徴すなわち、認識可能な語彙、その語彙の発音を構成する音素の並び方や単語の並び方を表した言語モデルとで構成される。音響モデルとしては、例えば、特徴量の混合正規分布を出力確率とする隠れマルコフモデルを用いる。言語モデルとしては、単語や、単語のつながりの出現し易さを統計的に表現した統計言語モデル、あるいは単語のつながりを単語接続ネットワークで明に表現したルールグラマーを用いる。クライアント認識辞書102は、第1記憶部202あるいは第2記憶部203に記憶する。
認識結果生成部105は、音声認識装置100での認識結果とサーバ300での認識結果のうち少なくとも1つを利用して、音声認識装置100が出力する認識結果を生成する。認識結果生成部105の処理は後述する。
認識結果記憶部106は、認識結果生成部105で生成された認識結果を記憶する。認識結果記憶部106は、第1記憶部202あるいは第2記憶部203で実現できる。
辞書更新部107は、認識結果記憶部106に記憶された認識結果の履歴を利用してクライアント認識辞書102を更新する。辞書更新部107は、利用者が最近発声した語彙がクライアント認識処理部110で認識され易くなるように、クライアント認識辞書102を更新する。認識結果の履歴は、認識結果生成部105が過去に生成した認識結果の系列を表しており、認識結果記憶部106に記憶されている。さらに、本実施形態では、過去に生成された認識結果の系列から抽出した出現頻度や発声時刻に関する情報なども認識結果の履歴と呼ぶ。
出力部108は、認識結果生成部105で生成された認識結果を出力する。ここで、出力部108は、認識結果をディスプレイ208に表示する。出力部108は、音声合成技術を用いて認識結果を合成音声に変換しスピーカ207から再生してもよいし、認識結果を別のアプリケーションに出力してもよい。
次に、サーバ300における各ブロックの機能を説明する。
サーバ受信部301は、音声認識装置100から送信された音声信号または特徴量を受信する。
サーバ認識処理部302は、サーバ受信部301で取得した音声信号または特徴量とサーバ認識辞書303とを照合することにより、サーバ300の認識結果を生成する。サーバ受信部301が音声信号を受信した場合は、サーバ認識処理部302は、音声信号から特徴量を抽出し、サーバ認識辞書303と照合する。サーバ認識処理部302もクライアント認識処理部110と同様に信頼度スコア付きで第M位候補(M≧1)までの認識結果を生成することができる。
サーバ認識処理部302は、大規模な演算リソースを利用できるため、サーバ認識辞書303と特徴量の照合をより詳細に実行できる。これにより、サーバ認識処理部302は、クライアント認識処理部110と比較して高精度な認識精度を実現できる。
サーバ認識辞書303は、クライアント認識辞書102と同様な構成である。サーバ認識辞書303の言語モデルには、サーバ300で認識可能な語彙が定義されている。一般に、認識可能な語彙の数が増えるほど特徴量と認識辞書との照合回数は増える。また、語彙の数が増えるほど、サーバ認識辞書303の容量が大きくなる。サーバ300は、携帯端末などで構成される音声認識装置100と比較して、大規模な演算リソースおよび記憶容量を利用することができる。サーバ認識辞書303には、クライアント認識辞書102と比較して多くの認識可能な語彙が定義されている。
サーバ送信部304は、サーバ認識処理部302で生成された認識結果を音声認識装置100に送信する。
(フローチャート)
図3のフローチャートを利用して、本実施形態にかかる音声認識システムの処理を説明する。ステップS1からS6は音声認識装置100での処理を、ステップS7からS9はサーバ300での処理をそれぞれ表している。
ステップS1では、音声入力部109は、音声信号を取得し、この音声信号からMFCCなどの音声認識に用いる特徴量を抽出する。
ステップS2では、クライアント送信部103は、音声信号または特徴量をサーバ300に送信する。ここで、クライアント送信部103は、後述するクライアント認識処理部110での認識処理が終了する前に、音声信号あるいは特徴量をサーバ300に送信する。
ステップS3では、クライアント認識処理部110は、ステップS1で抽出された特徴量を用いて認識処理を実行する。
ステップS7では、サーバ受信部301は、音声認識装置100が送信した音声信号または特徴量を受信する。
ステップS8では、サーバ認識処理部302は、ステップS7で受信した音声信号または特徴量を用いて認識処理を実行する。
ステップS9では、サーバ送信部304は、サーバ認識処理部302で得られた認識結果を音声認識装置100に送信する。
ステップS4では、認識結果生成部105は、ステップS3で生成されたクライアント認識処理部110での認識結果とステップS8で生成されたサーバでの認識結果のうち少なくとも1つを利用して、音声認識装置100が出力する認識結果を生成する。ステップS4の詳細は後述する。
ステップS5では、辞書更新部107は、ステップS4で生成された認識結果の履歴を利用して、クライアント認識辞書102を更新する。辞書更新部107は、利用者が最近発声した語彙がクライアント認識処理部110で認識され易くなるように、クライアント認識辞書102を更新する。ステップS5の詳細は後述する。
ステップS6では、出力部108は、認識結果をディスプレイ208に表示する。
(ステップS4のフローチャート)
図4のフローチャートを利用して、ステップS4における認識結果生成部105の処理を説明する。
ステップS41では、認識結果生成部105は、クライアント受信部104がサーバ300からの認識結果を受信しているか否かを判別する。受信している場合は、ステップS42に移行する。
ステップS42では、認識結果生成部105は、サーバ300からの認識結果を利用して音声認識装置100が出力する認識結果を生成する。認識結果生成部105は、サーバ300の認識結果をそのまま音声認識装置100が出力する認識結果としてもよい。また、サーバ300が第M位候補(M≧1)までの認識結果を生成している場合は、信頼度スコアが最も高い第1位候補を音声認識装置100が出力する認識結果としてもよい。
クライアント受信部104がサーバ300からの認識結果を受信していなかった場合(ステップS41のNo)は、ステップS43に移行する。
ステップS43では、認識結果生成部105は、クライアント認識処理部110での認識処理が終了しているか否かを判別する。終了していない場合は、ステップS41に移行し、サーバ300からの認識結果の受信状況を再度確認する。終了している場合は、ステップS44に移行する。
ステップS44では、認識結果生成部105は、クライアント認識処理部110で音声信号の認識が可能であったか否かを判別する。ここで、認識が可能であるとは、クライアント認識処理部110で、リジェクトではなく認識結果が出力されたことを表している。クライアント認識処理部110での認識が不可能であった場合は、サーバ300での認識結果を取得するためにステップS41に移行する。可能であった場合はステップS45へ移行する。
ステップS45では、認識結果生成部105は、クライアント認識処理部110での認識結果を利用して、音声認識装置100が出力する認識結果を生成する。ここで、認識結果生成部105は、クライアント認識処理部110での認識結果をそのまま音声認識装置100が出力する認識結果としてもよい。また、クライアント認識処理部110が第M位候補(M≧1)までの認識結果を生成している場合は、信頼度スコアが最も高い第1位候補を音声認識装置100が出力する認識結果としてもよい。
このように、本実施形態の音声認識装置100は、クライアント認識処理部110での認識処理がサーバ300での認識処理より早く終了し、かつクライアント認識処理部110で音声信号の認識が可能であった場合、サーバ300からの認識結果を待たずに音声認識装置100が出力する認識結果を生成する。これにより、クライアント認識処理部110で認識可能な発声に対する応答性を高めることができる。
図3のステップS4は、図5に示すフローチャートに沿って実行することもできる。図5は、ステップS46が挿入されている点が図4とは異なる。
ステップS46において、認識結果生成部105は、信頼度スコアが所定の閾値を超えた場合、クライアント認識処理部110の認識結果を利用する。信頼度スコアが所定の閾値以下になる場合は、音声認識装置100がサーバ300からの認識結果を受信するまで待機する。
クライアント認識処理部110では、認識可能な語彙が小規模であり、認識可能な語彙に対しては高精度な認識を実行し、そうでない語彙に対しては認識不可能(リジェクト)を出力することが期待される。しかし、実際には認識できない語彙を認識不可能と高精度に判別することは難しく、認識できない語彙であっても誤った認識結果を出力する場合がある。図5のように、信頼度スコアを用いた閾値処理を導入することにより、クライアント認識処理部110での認識結果のうち信頼度が高い認識結果のみが音声認識装置100が出力する認識結果として利用されるようなる。
(ステップS5のフローチャート)
図6のフローチャートを利用して、図3のステップS5の処理を説明する。
まず、ステップS51では、認識結果生成部105は、認識結果記憶部106に図3のステップS4で生成された認識結果を記憶できる容量があるか否かを判別する。容量がある場合は、ステップS53に移行し、認識結果を認識結果記憶部106に記憶する。容量がない場合は、ステップS52で認識結果記憶部106に記憶された認識結果のうち最も古い認識結果を削除した後、ステップS53で認識結果を認識結果記憶部106に記憶する。このような認識結果の履歴の管理は、リングバッファを用いることで容易に実現できる。
ステップS54では、辞書更新部107は、認識結果記憶部106に記憶された認識結果の履歴を用いて新たな認識辞書を作成する。具体的には、認識結果記憶部106に記憶された認識結果の履歴に含まれる語彙を、クライアント認識処理部110で認識可能な語彙として言語モデルを構築する。あるいは、その語彙の出現し易さが高くなるように言語モデルを構築する。辞書更新部107は、言語モデルの適応技術を用いることもできる。
ステップS55では、辞書更新部107は、既存のクライアント認識辞書102をステップS54で作成した認識辞書で置き換える。
認識結果生成部105は、認識結果記憶部106が記憶可能な認識結果を過去N回(N≧1)のように決めることができる。Nを適切な値に制御することにより、過去N回の認識結果の履歴を利用してクライアント認識辞書102を更新することができる。これにより、利用者が何度も発声した語彙が過去N回より前にあったとしても、その影響を無視することができ、最近発声した語彙がクライアント認識処理部110で認識され易くなる。利用者がよく発声する語彙に関しては、サーバ300での認識結果を待つことなくクライアント認識処理部110での認識結果が用いられ、それ以外の語彙に関しては、サーバ300での認識結果が用いられることになり、応答性が高く高精度な音声認識装置100を実現することができる。
なお、認識結果生成部105が、過去K回(K>N)の認識結果を認識結果記憶部106に記憶しておき、辞書更新部107が、K回の認識結果のうち直近の過去N回の認識結果を用いて認識辞書を作成するようにしてもよい。
図3のステップS5は、図7に示すフローチャートに沿って実行することもできる。
まず、ステップS71では、認識結果生成部105は、図3のステップS4で生成された認識結果を認識結果記憶部106に記憶する。
ステップS72では、辞書更新部107は、認識結果の系列から認識結果管理表を作成する。認識結果管理表は、認識結果の出現頻度および最後に発声された時刻に関する情報を有している。
図8に、認識結果の系列および認識結果管理表の一例を示す。この例では、過去10回の認識結果の系列801が認識結果記憶部106に記憶されており、新たに認識結果802が11回目の認識結果として認識結果記憶部106に記憶されることを表している。認識結果の系列801の「番号」は何番目の認識結果であるかを示すシーケンシャルな番号を、「発声時刻」は認識結果に対応する音声が発声された時刻を表している。「発声時刻」は、音声入力部109で音声信号を取得した時刻でもよいし、認識結果生成部105で認識結果が生成された時刻でもよい。この例では、2012年8月10日18時16分に「グループA」という発声があったことを表している。
ステップS72において、辞書更新部107は、認識結果の系列801から認識結果管理表803を作成する。認識結果管理表803の「出現頻度」は認識結果の系列801で出現する回数を、「最後の発声時刻」は最後に発声された際の時刻を表している。この例では、「グループB」という発声が認識結果の系列801に4回出現し、最後の発声時刻が2012年8月25日21時16分であったことを表している。
ステップS73では、辞書更新部107は、認識結果管理表から認識辞書の作成に利用する認識結果を選別する。具体的には、辞書更新部107は、最後の発声時刻が所定の時刻より過去であり、かつ、その出現頻度が所定の閾値より小さい認識結果を、認識辞書を作成する際に使用する認識結果から除外する。例えば、最後の発声時刻が2012年8月11日の12時00分より過去であり、かつ、出現頻度が2回より小さい認識結果を除外するとした場合、図8では、「女優A」が認識辞書の作成には用いられないことになる。
出現頻度に関する閾値を0にした場合は、最後の発声時刻のみで認識結果を選別することができる。また、時刻情報として、「最後の発声時刻」ではなく認識結果が生成された順番を表す「番号」を用いて認識結果を選別してもよい。この場合は、例えば、過去5回より前の認識結果を削除、のように選別することができる。また、出現頻度として、認識結果の系列から統計的に算出された出現確率を用いることもできる。
ステップS74では、辞書更新部107は、ステップS73で選別された認識結果を利用して新たな認識辞書を作成する。
ステップS75では、辞書更新部107は、既存のクライアント認識辞書102をステップS74で作成した認識辞書で置き換える。
以上のように、最後の発声時刻が所定の時刻より過去にある認識結果を削除することにより、最近発声した語彙がクライアント認識処理部110で認識され易くなるようにすることができる。
図7のフローチャートでは、認識結果の系列から認識結果管理表を作成したが、認識結果管理表を認識結果記憶部106に記憶しておき、新たな認識結果が生成されるたびに更新するようにしてもよい。例えば、図9において認識結果管理表901が既に認識結果記憶部106に記憶されており、認識結果生成部105にて新たな認識結果902が生成されたとする。認識結果記憶部106における記憶容量の制限により、認識結果権利表901で管理可能な認識結果数が6である場合、認識結果生成部105は、前述のように最後の発声時刻が2012年8月11日の12時00分より過去であり、かつ、出現頻度が2回より小さい認識結果である「女優A」を認識結果管理表901から削除し、「コメディアンB」を追加した新たな認識結果管理表903を作成する。そして、辞書更新部107は認識結果管理表903に含まれる認識結果を利用してクライアント認識辞書102を更新する。
なお、新たな認識結果が認識結果管理表に既に登録されている場合は、認識結果生成部105は、出現頻度および最後の発声時刻をそれぞれ更新する。
(変形例1)
クライアント認識辞書102が、辞書更新部107で更新可能な可変辞書と更新不可能な固定辞書とで構成されてもよい。ここで、固定辞書には、別のアプリケーションに対するコマンドの起動など、応答性を重視したい語彙を登録しておく。
辞書更新部107は、認識結果の履歴に含まれる語彙のうち固定辞書に含まれる語彙以外の語彙を用いて、可変辞書を更新することができる。これにより、応答性を重視したい語彙がクライアント認識辞書102に登録される状態を担保したうえで、最近発声された語彙をクライアント認識辞書102に新たに登録することができる。
本実施形態の音声認識装置では、ネットワーク通信が不要な自装置内で認識処理を実行すると共に、音声信号をサーバに送信しサーバ側でも認識処理を実行させる。そして、音声認識装置での認識結果が先に生成された場合、サーバでの認識結果を待たずに認識結果を利用者に提示する。さらに、本実施形態の音声認識装置は、利用者が最近発声した語彙が自装置で認識され易くなるように、自装置側の認識辞書を更新する。これにより、応答性が高く高精度な音声認識装置を実現することができる。
(第2の実施形態)
第2の実施形態にかかる音声認識装置について説明する。本実施形態の音声認識装置は、複数の認識結果を利用者に提示する機能を有しており、利用者は提示された認識結果から正しい認識結果を選択することにより、音声を利用したアプリケーションの起動やコンテンツの検索等を実行できる。
本実施形態の音声認識装置は、まず、クライアント認識処理部110での認識結果を1次の認識結果として利用者に提示する。その後、サーバ300での認識結果が得られた時点で、1次の認識結果における2位候補以下をサーバ300での認識結果と入れ替えた2次の認識結果を利用者に提示する。これにより、応答性が高く高精度な音声認識装置を実現することができる。
本実施形態の音声認識装置のブロック構成およびハードウェア構成は、第1の実施形態にかかる音声認識装置100と同様である。
(フローチャート)
図10のフローチャートを利用して、本実施形態にかかる音声認識装置100の処理を説明する。本実施形態のクライアント認識処理部110は、信頼度スコア付きで第L位候補(L≧2)までの認識結果を生成するものとする。
ステップS101からS103までの処理、およびステップS110の処理は第1の実施形態と同様であるため説明を省略する。
ステップS104では、認識結果生成部105は、クライアント受信部104がサーバ300からの認識結果を受信しているか否かを判別する。受信している場合は、ステップS105に移行する。
ステップS105では、認識結果生成部105は、サーバ300からの認識結果を音声認識装置100が出力する認識結果とする。そして、出力部108は認識結果生成部105が生成した認識結果をディスプレイ208に表示する。
クライアント受信部104がサーバ300からの認識結果を受信していなかった場合(ステップS104のNo)は、ステップS106に移行する。
ステップS106では、クライアント認識処理部110での認識処理が終了しているか否かを判別する。終了していない場合は、ステップS104に移行しサーバ300の認識結果の受信状況を再度確認する。一方、終了している場合は、ステップS107に移行する。
ステップS107では、認識結果生成部105は、クライアント認識処理部110からの認識結果を音声認識装置100が出力する1次の認識結果とする。そして、出力部108は、1次の認識結果をディスプレイ208に表示する。
ステップS108では、認識結果生成部105は、クライアント受信部104がサーバ300からの認識結果を受信しているか否かを判別する。受信していない場合は、サーバ300からの認識結果を受信するまで待機する。受信している場合は、ステップS109に移行する。
ステップS109では、認識結果生成部105は、ステップS107で生成された1次の認識結果の第2位候補以下を、サーバ300の認識結果と入れ替えて2次の認識結果を生成する。そして、出力部108は、1次の認識結果を表示後、2次の認識結果をディスプレイ208に表示する。
なお、サーバ300の認識結果に1次の認識結果の第1位候補(例えば、「俳優A」)が含まれる場合、認識結果生成部105は、1次の認識結果の第2位候補以下を、この認識結果(「俳優A」)を除くサーバ300の認識結果と入れ替えて2次の認識結果を生成する。同じ認識結果が重複して出力されることを防止するためである。
図11に、本実施形態にかかる音声認識装置100の処理の一例を示す。この例では、利用者が「邦画」と発声した場合を想定している。まず、クライアント認識処理部110において認識結果911(1位候補:洋画、2位候補:動画、3位候補:豪華)が生成され、これが1次の認識結果912としてディスプレイに208に表示される。この時点では、クライアント受信部104は、サーバ300から認識結果を受信していない。
その後、クライアント受信部104がサーバ300からの認識結果913(1位候補:邦画、2位候補:洋画、3位候補:動画)を受信した場合、認識結果生成部105は、2次の認識結果914を生成する。
ここで、認識結果生成部105は、1次の認識結果912の2位候補以下「動画、豪華」を、サーバ300の認識結果913から1次の認識結果912の1位候補である「洋画」を除いた「邦画、動画」で置き換えることで2次の認識結果914を生成する。そして、出力部108は、1次の認識結果912を表示後、2次の認識結果914をディスプレイ208に表示する。
一般に、サーバ300の方がクライアント認識処理部110よりも認識精度が高いため、認識精度の観点ではサーバ300の認識結果を利用した方がよい。しかし、応答性を確保するためには、クライアント認識処理部110での認識結果を利用した方がよい。
本実施形態の音声認識装置は、まず、クライアント認識処理部110での認識結果を1次の認識結果として利用者に提示する。その後、サーバ300での認識結果が得られた時点で、1次の認識結果における2位候補以下をサーバ300での認識結果と入れ替えた2次の認識結果を利用者に提示する。これにより、応答性が高く高精度な音声認識装置を実現することができる。
なお、本実施形態の認識結果生成部105は、1次の認識結果の1次候補は入れ替えず、2位候補以下を入れ替えるため、利用者とのインタラクションを妨げることはない。利用者は、1次の認識結果における1位候補が間違っていると判断した場合、認識精度が高いサーバ300の認識結果含まれた2次の認識結果の中から正解を選択することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。
100 音声認識装置、101 認識部、102 クライアント認識辞書、103 クライアント送信部、104 クライアント受信部、105 認識結果生成部、106 認識結果記憶部、107 辞書更新部、108 出力部、109 音声入力部、110 クライアント認識処理部、201 制御部、202 第1記憶部、203 第2記憶部、204 操作部、205 通信部、206 マイク、207 スピーカ、208 ディスプレイ、209 バス、300 サーバ、301 サーバ受信部、302 サーバ認識処理部、303 サーバ認識辞書、304 サーバ送信部、801 認識結果の系列、802 認識結果、803 認識結果管理表、901 認識結果管理表、902 認識結果、903 認識結果管理表、911 クライアント認識処理部での認識結果、912 1次の認識結果、913 サーバでの認識結果、914 2次の認識結果

Claims (14)

  1. 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する認識手段と、
    前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する送信手段と、
    前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する受信手段と、
    前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成手段と、
    前記第3の認識結果を記憶する認識結果記憶手段と、
    前記第3の認識結果の履歴を利用して前記クライアント認識辞書を更新する辞書更新手段とを備え、
    前記辞書更新手段が、前記第3の認識結果の履歴に第1の語彙と前記第1の語彙より過去に生成された第2の語彙とが含まれる場合、前記第1の語彙が前記第2の語彙よりも優先的に前記クライアント認識辞書に含まれるように、前記クライアント認識辞書を更新し、
    利用者に前記第3の認識結果を提示する出力手段を更に備え、
    前記認識結果生成手段が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
    前記認識結果生成手段が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
    前記出力手段が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識装置。
  2. 前記辞書更新手段が、前記認識記憶手段に記憶された直近の過去N回(N≧1)の前記第3の認識結果を利用して前記クライアント認識辞書を更新する請求項1に記載の音声認識装置。
  3. 前記認識結果記憶手段が、前記第3の認識結果と前記第3の認識結果が生成された時刻情報とを関連づけて記憶し、
    前記辞書更新手段は、前記時刻情報が所定の時刻以降である前記第3の認識結果を利用して前記クライアント認識辞書を更新する請求項1または請求項2に記載の音声認識装置。
  4. 前記辞書更新手段が、前記第3の認識結果に含まれる語彙の出現頻度を算出し、前記出現頻度が所定の閾値を超える語彙が前記クライアント認識辞書に含まれるように前記クライアント認識辞書を更新する請求項1乃至請求項3のいずれかに記載の音声認識装置。
  5. 前記認識手段が、認識結果の尤もらしさを表す信頼度スコア付きで前記第1の認識結果を生成し、
    前記認識結果生成手段が、前記第2の認識結果よりも先に前記第1の認識結果を取得し、
    かつ前記信頼度スコアが所定の閾値以上である場合、前記第1の認識結果を利用して前記第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する請求項1乃至請求項4のいずれかに記載に記載の音声認識装置。
  6. 前記クライアント認識辞書が、前記辞書更新手段で更新可能な可変辞書と更新不可能な固定辞書とで構成され、
    前記認識手段が、前記可変辞書と前記固定辞書の両方を用いて前記音声信号を認識し、
    前記辞書更新手段が、前記可変辞書を更新する請求項1乃至請求項5のいずれかに記載の音声認識装置。
  7. 前記辞書更新手段が、前記第3の認識結果の履歴に含まれる語彙のうち前記固定辞書に含まれる語彙以外の語彙を用いて、前記可変辞書を更新する請求項6に記載の音声認識装置。
  8. 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する認識手段と、
    前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する送信手段と、
    前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する受信手段と、
    前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成手段と、
    利用者に前記第3の認識結果を提示する出力手段とを備え、
    前記認識結果生成手段が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
    前記認識結果生成手段が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
    前記出力手段が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識装置。
  9. 前記認識結果生成手段が、前記第2の認識結果から前記第3の認識結果に含まれる第1位候補を除いて、前記第4の認識結果を生成する請求項または請求項に記載の音声認識装置。
  10. 請求項1乃至請求項のいずれかに記載の音声認識装置と、
    前記音声認識装置とネットワークを介して接続する前記サーバと、
    を備える音声認識システム。
  11. 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成するステップと、
    前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信するステップと、
    前記サーバで前記音声信号を認識した結果である第2の認識結果を受信するステップと、
    前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成ステップと、
    前記第3の認識結果の履歴に第1の語彙と前記第1の語彙より過去に生成された第2の語彙とが含まれる場合、前記第1の語彙が前記第2の語彙よりも優先的に前記クライアント認識辞書に含まれるように、前記クライアント認識辞書を更新するステップと、
    利用者に前記第3の認識結果を提示する出力ステップを備え、
    前記認識結果生成ステップが、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
    前記認識結果生成ステップが、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
    前記出力ステップが、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識方法。
  12. 音声認識装置に、
    認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する機能と、
    前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する機能と、
    前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する機能と、
    前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成機能と、
    前記第3の認識結果の履歴に第1の語彙と前記第1の語彙より過去に生成された第2の語彙とが含まれる場合、前記第1の語彙が前記第2の語彙よりも優先的に前記クライアント認識辞書に含まれるように、前記クライアント認識辞書を更新する機能と、
    利用者に前記第3の認識結果を提示する出力機能を実現させるための音声認識プログラムであって、
    前記認識結果生成機能が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
    前記認識結果生成機能が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
    前記出力機能が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識プログラム。
  13. 認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成するステップと、
    前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信するステップと、
    前記サーバで前記音声信号を認識した結果である第2の認識結果を受信するステップと、
    前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成ステップと、
    利用者に前記第3の認識結果を提示する出力ステップを備え、
    前記認識結果生成ステップが、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
    前記認識結果生成ステップが、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
    前記出力ステップが、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識方法。
  14. 音声認識装置に、
    認識可能な語彙を定義したクライアント認識辞書を用いて、音声信号を認識して第1の認識結果を生成する機能と、
    前記第1の認識結果が生成される前に、前記音声信号あるいは前記音声信号から抽出された特徴量をサーバに送信する機能と、
    前記サーバで前記音声信号を認識した結果である第2の認識結果を受信する機能と、
    前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第3の認識結果を生成し、それ以外の場合は、少なくとも前記第2の認識結果を利用して前記第3の認識結果を生成する認識結果生成機能と、
    利用者に前記第3の認識結果を提示する出力機能を実現させるための音声認識プログラムであって、
    前記認識結果生成機能が、前記第2の認識結果よりも先に前記第1の認識結果を取得した場合は、前記第1の認識結果を利用して第M位候補(M≧2)までの認識結果を含む第3の認識結果を生成し、
    前記認識結果生成機能が、前記第3の認識結果を生成後、前記第2の認識結果を取得した場合は、前記第3の認識結果に含まれる第2位候補以下を、前記第2の認識結果と入れ替えた第4の認識結果を生成し、
    前記出力機能が、前記第3の認識結果を提示した後に前記第4の認識結果を提示する音声認識プログラム。
JP2012209151A 2012-09-24 2012-09-24 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム Expired - Fee Related JP5706384B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012209151A JP5706384B2 (ja) 2012-09-24 2012-09-24 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US13/693,753 US9293137B2 (en) 2012-09-24 2012-12-04 Apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012209151A JP5706384B2 (ja) 2012-09-24 2012-09-24 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015035108A Division JP2015143866A (ja) 2015-02-25 2015-02-25 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2014063088A JP2014063088A (ja) 2014-04-10
JP5706384B2 true JP5706384B2 (ja) 2015-04-22

Family

ID=50339727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012209151A Expired - Fee Related JP5706384B2 (ja) 2012-09-24 2012-09-24 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Country Status (2)

Country Link
US (1) US9293137B2 (ja)
JP (1) JP5706384B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015143866A (ja) * 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6054283B2 (ja) * 2013-11-27 2016-12-27 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
JP5816771B1 (ja) 2015-06-08 2015-11-18 株式会社Preferred Networks 学習装置ユニット
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
WO2017014721A1 (en) * 2015-07-17 2017-01-26 Nuance Communications, Inc. Reduced latency speech recognition system using multiple recognizers
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
CN108335696A (zh) 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
US20210264904A1 (en) * 2018-06-21 2021-08-26 Sony Corporation Information processing apparatus and information processing method
CN109213469A (zh) * 2018-08-27 2019-01-15 四川长虹电器股份有限公司 语音输入法词库优先级自动调整方法及系统
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112164392A (zh) * 2020-11-13 2021-01-01 北京百度网讯科技有限公司 确定显示的识别文本的方法、装置、设备以及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142488A (ja) 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
JP2004012653A (ja) 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP4601306B2 (ja) * 2003-03-13 2010-12-22 パナソニック株式会社 情報検索装置、情報検索方法、およびプログラム
US7437296B2 (en) 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
JP2007033901A (ja) 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US20070162282A1 (en) * 2006-01-09 2007-07-12 Gilad Odinak System and method for performing distributed speech recognition
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US7933777B2 (en) 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8140328B2 (en) * 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
CA2785081C (en) * 2009-12-31 2021-03-30 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015143866A (ja) * 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
US20140088967A1 (en) 2014-03-27
JP2014063088A (ja) 2014-04-10
US9293137B2 (en) 2016-03-22

Similar Documents

Publication Publication Date Title
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
CN107039038B (zh) 学习个性化实体发音
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
KR101770358B1 (ko) 내장형 및 네트워크 음성 인식기들의 통합
US11514916B2 (en) Server that supports speech recognition of device, and operation method of the server
US10152298B1 (en) Confidence estimation based on frequency
US8126715B2 (en) Facilitating multimodal interaction with grammar-based speech applications
JP2020067658A (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
WO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP2017167270A (ja) 音声処理装置および音声処理方法
US20220161131A1 (en) Systems and devices for controlling network applications
US11626107B1 (en) Natural language processing
EP1899955B1 (en) Speech dialog method and system
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
WO2019163242A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2024512071A (ja) 自動音声認識のための多言語再スコアリングモデル
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
KR20240119458A (ko) 다중 인공지능 음성 인식 모델 및 챗봇을 이용하여 인식 정확도가 개선된 음성 인식 처리 장치 및 그 동작 방법
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
KR20240073991A (ko) 음성 합성 서비스 제공 방법 및 그 시스템
JP2010175869A (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140711

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150226

LAPS Cancellation because of no payment of annual fees