JP6284462B2 - 音声認識方法、及び音声認識装置 - Google Patents

音声認識方法、及び音声認識装置 Download PDF

Info

Publication number
JP6284462B2
JP6284462B2 JP2014192548A JP2014192548A JP6284462B2 JP 6284462 B2 JP6284462 B2 JP 6284462B2 JP 2014192548 A JP2014192548 A JP 2014192548A JP 2014192548 A JP2014192548 A JP 2014192548A JP 6284462 B2 JP6284462 B2 JP 6284462B2
Authority
JP
Japan
Prior art keywords
sentence
voice
recognition result
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014192548A
Other languages
English (en)
Other versions
JP2016062069A (ja
Inventor
龍 武田
龍 武田
本間 健
健 本間
剛 武本
剛 武本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2014192548A priority Critical patent/JP6284462B2/ja
Publication of JP2016062069A publication Critical patent/JP2016062069A/ja
Application granted granted Critical
Publication of JP6284462B2 publication Critical patent/JP6284462B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識方法、及び音声認識装置に関し、例えば、音声データの認識技術の改良に関するものである。
最近では音声認識技術に基づいた音声操作や音声入力が携帯端末にも導入されており、それによってユーザの利便性が向上している。例えば、スマートフォンにおけるウェブ文書検索などでは、音声で検索キーワード入力することで、画面上のキーボードを押す必要がなくなる。また、各種の業務において、手を使わずに、文字や数値を入力したい場面が存在する。これらの場面でも、音声認識機能がある携帯端末を活用した音声認識システムを使うことで、ユーザが文字や数値を読み上げることにより、ハンズフリーでの入力が可能となる。
しかしながら、ユーザの発話によっては、話した内容と異なる認識結果が入力されることがある。これは、音声認識の内部で用いている音のモデル(音響モデル)が、ユーザの発話音声に適合していないことで生じる。この要因としては、例えば、ユーザの発話の仕方(リズムや話速、イントネーション、アクセント)の揺らぎや、周囲の雑音などが音声に重畳すること、などがある。そのような要因で誤った結果が携帯端末に入力された場合、ユーザは再度発話を行い、結果を訂正する必要がある。このような訂正を行う発話を何回も行うことはユーザにとって大きな負担となる。そのため、訂正発話の回数はできるだけ削減できることが望ましい。
発話訂正に関する技術は、例えば、特許文献1に開示されている。特許文献1では、一度認識結果が出力された後の所定期間内に再度音声入力がなされ、その入力音声が前回の認識結果と同じ所定のカテゴリに属する場合には、前回の認識結果及びそれを実質的同一と見なされるものに対応する比較対象パターンを除外して認識結果を決定するようにしている。
特開平10−039892号公報
しかしながら、特許文献1では、前回の認識結果を比較対象パターンから除外して、訂正発話の認識を行い、その結果を出力することになるため、2回目の認識結果が誤りであり、前回の認識結果における除外パターンの次の候補が正解だという状況には即座に対応できない。つまり、もう一回訂正発話を行い、認識処理をする必要がある。従って、効率よく発話訂正処理を実行することができず、また、訂正発話における誤認識率が高いという課題がある。
本発明はこのような状況に鑑みてなされたものであり、訂正発話における音声認識の精度を高め、ユーザの訂正発話回数を削減するための技術を提供するものである。
上記課題を解決するために、本発明による音声認識処理は、入力音声から特徴量を抽出する処理と、特徴量と、予め記憶装置に記憶されている音響モデルとを用いて入力音声を文字列へ変換し、変換した結果であり、複数の文章を含む文章群を生成する処理と、文章群の各文章を評価し、最も点数の高い文章を認識結果として出力する処理と、を含んでいる。そして、第1音声の入力の後に第2音声の入力が受け付けられた場合、第1音声と第2音声とが同一の音声入力であると判定する処理と、第1音声に対して生成された第1文章群における各文章の点数の分散と、第2音声に対して生成された第2文章群における各文章の点数の分散と、を算出し、分散が大きい文章群のうち最も点数の高い文章を最終認識結果として出力する処理と、が実行される。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、訂正発話における音声認識の精度を高めることができるので、ユーザの訂正発話回数を削減することが可能となる。
本発明の第1の実施形態による音声データ認識装置の機能構成を示すブロック図である。 本発明の第1の実施形態による音声データ認識装置のハードウェア構成を示す図である。 本発明の実施形態による音声認識結果情報の構成例を示す図である。 本発明の実施形態による認識結果情報の構成例を示す図である。 本発明の実施形態による発話判定部の処理を説明するためのフローチャートである。 本発明の第1の実施形態による発話・認識結果選択部の処理を説明するためのフローチャートである。 本発明の第1の実施形態による画面表示例を示す図である。 本発明の第2の実施形態による音声データ認識装置の機能構成を示すブロック図である。 本発明の第2の実施形態による特徴量の構成例を示す図である。 本発明の第2の実施形態による適応認識部の処理を説明するためのフローチャートである。 本発明の第2の実施形態による適応認識部の処理の進捗状況を示す画面表示例を示す図である。
本発明は、「前回の認識結果を比較対照のパターンから外して、訂正発話の認識を行い、その結果を出力する」という従来技術を単純に適用する場合に、2回目の認識結果が誤りであり、前回の認識結果における除外パターンの次の候補が正解だという状況には対応できず、訂正発話における誤認識率が高いという課題を解決するためになされたものである。この課題を解決するために、本発明の実施形態による音声認識装置では、訂正発話が入力されたと判断されたとき、これまでに出力された音声認識の情報(複数のパターンとスコア)と訂正履歴を用いて、必要があれば、訂正発話とそれ以前の同一内容の音声発話に対してモデル適応処理と再認識処理が実行され、各発話の認識結果の中から1つ発話に対する結果が選択される。また、各発話の認識結果は発話の条件が異なっており、それらのスコアは直接的に比較できないため、各発話の認識結果に基づき、正しく認識されていそうな発話が選択され、その認識結果が出力される。このような処理を実行することにより、訂正発話における音声認識の精度を高め、ユーザの訂正発話回数を削減することができるようになる。
以下、添付図面を参照して本発明の各実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
(1)第1の実施形態
<音声データ認識装置の構成>
(i)機能ブロック構成
図1は、本発明の第1の実施形態による音声データ認識装置1の機能ブロック図である。音声データ認識装置1は、ラベル付き音声データ(記憶部)101と、音響モデル学習部102と、音響モデル(記憶部)103と、文法・文書データ(記憶部)104と、言語モデル構築部105と、言語モデル(記憶部)106と、音声入力受付部107と、特徴量抽出部108と、音声認識部109と、認識結果情報記憶部110と、発話判定部111と、発話・認識結果選択部112と、結果受付部113と、画面表示部114と、判定フラグ記憶部115と、を備える。以下、各モジュールの概要を説明する。
ラベル付き音声データ101は、音声波形とその発話内容を書き起こしたテキストなどを格納する。音声データは書き起こしたテキストが付属していれば、あらかじめ用意した原稿を人に読み上げてもらった音声データや、通常の会話を録音した後に書き起こしを行った音声データなどでも良い。もちろん、発話者を識別するID、雑音の有無や信号対雑音比(SNR)などのラベルを付属していても良い。
音響モデル学習部102は、学習用ラベル付き音声データ101の音声信号から特徴量を抽出し、特徴量とテキストの対応関係を記した音響モデル103のパラメータを出力する。
音響モデル103は、音響モデル学習部102から出力されたパラメータを格納したデータベースである。
文法・文書データ104は、音声認識すべき単語や単語の連鎖の規則を記述した文法および文章テキストデータなどを格納する。ここで、文書データは、例えば、ウェブのテキスト、音声認識システムのターゲットとする業務においてユーザ等が発話した音声の書き起こしテキスト、ターゲットとする業務に関する文書等を含んでも良い。また、文法データは、言語における、単語が連結して文をなす場合のきまり(仕組み)や、語形変化・語構成等のきまり(仕組み)、あるいは機能語(助動詞・助詞・前置詞・接辞・代名詞等)の用い方のきまり(仕組み)等の他、任意に定義される特殊な用語の組み合わせを含むものである。
言語モデル構築部105は、文法・文書データ104や音響モデル103に基づき、単語の連鎖と音響モデルを結合する仮説ネットワークを最適化する。また、単語Ngram確率といった、言語特徴を表現した統計的モデルのパラメータを付与してもよい。
言語モデル106は、文法を形式変換して得られるデータを格納するデータベースであって、言語モデル構築部105から出力されたパラメータを格納する。ここまでが、音声データ認識装置1における事前処理の部分である。
音声入力受付部107は、携帯端末等に設置されたマイクから、ユーザが入力した音声信号を取得する。
特徴量抽出部108は、音声信号を音響モデル103および音声認識部109で用いる音声特徴量(例えば、周波数分布データ)と呼ばれる数値に変換する。
音声認識部109は、音響モデル103と言語モデル106に基づいて、少なくとも1つ以上の音声認識結果の候補を出力する。この音声認識結果は、少なくとも認識文章とその点数を含み、発話時刻、音素テキスト、認識信頼度、感情認識結果などの情報も含んでいてもよい。音声認識結果は、認識結果情報記憶部110や発話判定部111に出力される。
認識結果情報記憶部110は、認識結果を格納するデータベースである。
発話判定部111は、入力された音声が前回の音声入力と同じ内容かどうか、つまり、前回認識結果の訂正かどうかを、音声認識部109の出力と認識結果情報記憶部110に格納された情報を用いて判定する。この判定には、今回と前回の音声認識結果の文章や発話時刻といった情報が用いられる。前回と異なる内容と判断した場合、発話判定部111は、認識結果情報記憶部110に格納されている当該認識結果に対応するIDを結果受付部113へ出力する。また、このとき、発話判定部111は、今回の音声認識結果が訂正の可能性があることを示すフラグ、或いは、前回の音声認識結果が誤りではないことが確定した場合にはその旨を示すフラグである、判定フラグを同時に出力する。前回と同じ内容と判断した場合、発話判定部111は、発話・認識結果選択部112に当該認識結果のIDを出力する。
発話・認識結果選択部112は、発話判定部111から出力された音声認識結果のIDに基づき、今回の発話の音声認識結果と、過去の同一内容を意図した発話の音声認識結果の情報を認識結果情報記憶部110から取得する。次に、発話・認識結果選択部112は、これらの音声認識結果の情報に基づき、正しい認識結果を含むと思われる発話に該当する音声認識結果を決定し、その中の認識文章の少なくとも1つに対応する認識結果情報記憶部110におけるIDを結果受付部113に出力する。
結果受付部113は、発話判定部111または発話・認識結果選択部112から出力されたIDおよび認識結果確定フラグに基づき、認識結果情報記憶部110から該当する文章を画面表示部114に出力する。
画面表示部114は、結果受付部113から出力された文章を、例えば、携帯端末上のディスプレイに表示する。
判定フラグ記憶部115は、結果受付部113が発話判定部111から受け取った判定フラグを格納するデータベースである。
(ii)ハードウェア構成
図2は、本発明の第1の実施形態による音声データ認識装置1のハードウェア構成を示す図である。
音声データ認識装置1は、コンピュータで構成され、各種プログラムを実行するCPU(プロセッサ)201と、各種プログラムを格納するメモリ202と、各種データを格納する記憶装置203と、音声を入力するためのマイク204と、処理結果等を画面上に表示するためのディスプレイ205と、テキストや指示を直接入力するためのキーボード206及びマウス207と、ネットワーク3を介してデータサーバ2等の他のコンピュータと通信するための通信デバイス208と、を有している。
メモリ202は、プログラムとして、音声入力受付部107と、特徴量抽出部108と、音声認識部109と、発話判定部111と、発話・認識結果選択部112と、結果受付部113と、画面表示部114と、を有している。各処理部による処理概要は上述の通りである。
記憶装置203は、音響モデル103と、言語モデル106と、認識結果情報110と、判定フラグ115と、を格納している。
CPU201は、メモリ202から必要に応じて各プログラムを読み込み、実行する。キーボード206及びマウス207は、例えば、マイク204からの音声によるデータ入力が成功しなかった場合に、当該データを直接入力するときに用いられるものである。
通信デバイス208は、ネットワーク3を介してデータサーバ2において生成された音響モデル103及び言語モデル106を受信し、それらの複製を記憶装置203に格納する。
データサーバ2は、コンピュータで構成され、CPU(プロセッサ)209と、メモリ210と、記憶装置211と、通信デバイス212と、入出力デバイス213と、を有している。
メモリ210は、プログラムとして、音響モデル学習部102と、言語モデル構築部105と、を有している。
記憶装置211は、ラベル付き音声データ101と、音響モデル103と、文法・文書データ104と、言語モデル106と、を格納している。
なお、図2では、音声データ認識装置1がデータサーバ2とネットワーク3を介して接続され、データサーバ2で生成された音響モデル103と言語モデル106とを受信する構成を示しているが、図1に示されるように音声データ認識装置1を単体の装置として構成しても良い。また、音声データ認識装置1を、端末と計算機(サーバ)を備えたシステムによって構成してもよい。この場合、例えば、端末は、音声入力受付部107、画面表示部114と必要ならば特徴量抽出部108を備える。計算機(サーバ)は、その他の各処理部の処理を実行する。各データは、ネットワークを通じて伝送される。
<各処理部によって実行される処理の詳細>
以下、各処理部によって実行される処理について説明する。
(前処理:音声認識処理前の準備)
実施形態による音声データ認識装置1では、まず、音声データを認識可能にするための処理が行われる。そのために、音響モデル103、言語モデル106を構築する必要がある。
(i)音響モデル学習処理
音響モデル学習部102は、ラベル付き音声データ101を用いて、音響モデル103のパラメータを推定する処理を行う。ラベル付き音声データ101は、不特定話者の多数の音声データとその書き起こしテキストを最低限含んでいる。一般的に、音声データを認識する問題は、事後確率最大化探索問題として扱われる。この事後確率最大化探索の枠組みでは、大量の学習データから学習された音響モデル及び言語モデルを用いて、入力音声データにもっとも適合する単語列やテキストパターンが求められる。例えば、音響モデルにはHMM(Hidden Markov Model)を採用することができる。パラメータを推定する方法については、広く知られた技術であるので説明は省略する。例えば、「鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、「音声認識システム」、オーム社、2001年」に記載されている。なお、ラベル付き音声データに、感情や意図といったその他のラベルが付与されている場合、必要があれば、同様の枠組みで入力音声データから感情や意図のラベルを出力することも可能である。
(ii)言語モデル構築処理
言語モデル構築部105は、文法・文書データ104と音響モデル103を用いて、言語モデル106のパラメータの推定と音声認識に用いる探索ネットワークの構築処理を行う。
(iii)文法・文書データ
文法・文書データ104における文法データは、一般的な文法規則の他、音声認識システムの設計者が認識すべき各単語の表記および読み、各単語のつながりのパターンを記述している。ここでは、ユーザに、「項目名」と「数値」を連続して発話してもらう音声認識システムを想定する。項目名には、「ABC(えーびーしー)」、「DEF(でぃーいーえふ)」、「GHI(じーえいちあい)」、「JKL(じぇーけーえる)」などの単語があることを想定する。ユーザが、「ABC 30(えーびーしーさんじゅう)」というような形式で発話すると、結果が端末上に入力される。このような音声認識を実現するためには、文法データに、項目名(「ABC」など)と数値(「30」など)の繋がりを受理するようなパターンを記述しておけばよい。
文法・文書データ104における文書データは、ウェブのテキスト、ターゲットの業務に関連する文書、及び/又はターゲットの業務においてユーザが実際に発話した文の書き起こしといったテキストデータを含んでいる。このテキストデータから、形態素解析や読み付与を行い、出現回数をカウントすることにより、単語の連鎖とN−gram確率を推定することができる。なお、パラメータを推定する方法については、広く知られた技術であるので説明を省略する。例えば、「鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、「音声認識システム」、オーム社、2001年」に記載されている。
文法データおよび文書データは、いずれか一方のみを備える形式でも実施が可能である。文法データのみを備える場合、音声認識システムが受理できる単語の順序は、あらかじめ設計者が文法データに記述した単語順序に限定される。文書データをもとに言語モデルを作成する場合、あらかじめ用意した文書データから、高確率で現れる単語や単語連鎖に関して精度良く認識できる上に、文書データに現れない単語列であっても、認識することが可能となる。
探索ネットワークは、単語連鎖における単語の読み方を音響モデル103におけるHMMの各状態への対応付けることによって構築することができる。この探索ネットワークは、例えば、WFST(Weighted Finite State Transducer)を用いることで、状態数に関して最適化できる。
以上により、前処理が終了し、音声認識のための準備が整ったことになる。
(音声認識及び発話訂正処理)
(i)音声入力受付処理
音声入力受付部107は、発話の開始と終了を判定し、発話の開始から終了までの音声信号を特徴量抽出部108に出力する。発話の開始と終了は、例えば、携帯端末であれば、ユーザが指でボタンを押すことにより検知することができる。また、音声と無音・雑音を判別する判別器を構築し、その出力によって自動的に検知することも可能である。この検出器は様々な方法で構築することができる。その一例を挙げるなら、無音・雑音信号と音声信号から特徴量を抽出し、無音・雑音信号と音声信号の特徴量分布をGMM(Gaussian Mixture Model)で表現する。GMMのパラメータは予めデータから推定し、音声の検知は各GMMの尤度比が閾値を上回るかどうかで判定を行えばよい。そのほかにも、音声パワーで区切る方法、ゼロ交差数を用いる方法などがあり、公知の技術を用いることができる。
(ii)音声特徴量抽出処理
音声特徴量抽出部108は、音声信号から音声特徴量を抽出する。音声特徴量としては、例えば、入力音声の周波数分布が該当し、音声認識でよく用いられるMFCC(Mel Frequency Cepstrum Coefficient)を使うことができる。その他、LPC(Linear Prediction Coefficient)を使うこともできる。
音声特徴量抽出部108は、まず、音声信号を一定の時間毎にある時間区間に対して、短時間の周波数解析を行う。次に、対数パワースペクトルに対してメルファイルバンクを施し、DCT(Discrete Cosine Transformation)を行った後、そのDCT係数の低次元の係数を用いる。この抽出した特徴量に対して、例えば、平均正規化や分散正規化といった、正規化処理を行うこともできる。
(iii)音声認識処理
音声認識部108は、抽出した音声特徴量、音響モデル103、及び言語モデル106を用いて、音声認識処理を実行し、認識結果を出力する。音声認識部108は、点数(例えば、対数確率値)と探索履歴を保持する仮説(認識候補)を展開していき、音声入力の終了時に高い点数順にそれらを出力する。ここで、仮説展開は、言語モデル106における探索ネットワークに従って、現在の仮説から次のHMM状態へ遷移し、音響モデル103に格納されている状態遷移確率と入力特徴量から出力確率計算し、点数に加算することにより行われる。そして、仮説の展開ごとに、点数の低い仮説を除外したり、同一状態における仮説数を制限することで、処理の効率化を行うこともできる。
音声認識を行う方法は、公知の技術を組み合わせることで可能であるため、詳細は省略する。音声認識を行った結果、その認識結果情報として、点数、文章、単語発話時刻、単語信頼度、音素テキスト、音素発話時刻、音素信頼度などを含めることができる。ただし、今回用いるものは、点数、文章、及び単語発話時刻であり、単語信頼度や音素信頼度のデータは用いない。
音声認識結果は、N−ベスト形式やネットワーク形式で出力してもよい。この音声認識結果は、認識結果情報記憶部110に追加され、さらに、発話判定部111に出力される。
図3は、本発明の実施形態における音声認識情報に含まれる情報の1例をN−ベスト形式で示す図である。発話時刻301は、発話の開始と終了の時刻を示している。順位302は、発話に関する認識候補を示している。点数303は、各候補の点数を示している。文章304は、各候補の文章を示している。
(iv)認識結果情報記憶部の構成例
図4は、本実施形態における認識結果情報記憶部110が保持する情報の構成例を示している。
認識結果情報記憶部110は、認識結果ID401と、関連ID402と、発話時刻403と、候補404と、を構成情報として含んでいる。
認識結果ID401は、認識結果を一意に識別するための情報である。関連ID402は、発話判定部111で同一と判定された認識結果のIDを特定するための情報である。発話時刻403は、対象の認識結果に対応する音声発話の開始時刻及び終了時刻を示す情報である。候補404は、点数が高い順に並べられた、音声発話に対する音声認識結果を示す情報である。
(v)発話判定処理
発話判定部111は、音声認識部109の結果と認識結果情報記憶部110の情報を用いて、前回以前の発話と同一内容かどうかを判定する。図5は、本発明の実施形態による発話判定部111の処理例を説明するためのフローチャートである。
まず、処理が開始する(ステップ501)と、発話判定部111は、直前の発話と発話開始時刻の差を比較する(ステップ502)。当該時刻差がK秒(例えば、10秒)以内であると判断された場合(ステップ502でYes)、処理はステップ503に移行し、K秒を超えていると判断された場合(ステップ502でNo)、処理はステップ506に移行する。
ステップ503では、発話判定部111は、認識結果情報記憶部110から前回発話の認識結果情報を引き出し、取得する(ステップ503)。
次に、発話判定部111は、今回の認識文章と直前の発話の文章の近さを比較する(ステップ504)。文章の近さは、例えば、文字の編集距離や音素の編集距離などを用いて測ることができる。文章の近さが予め定められた値N以下と判断された場合(ステップ504でYesの場合)、処理はステップ505に移行し、Nより大きいと判断された場合(ステップ504でNoの場合)、処理はステップ506に移行する。
ステップ505では、発話判定部111は、今回の発話と前回の発話が同一内容であると判定し、今回のID401を発話・認識結果選択部112に出力すると同時に、認識結果情報記憶部110における関連ID402に前回のID401を追記する(ステップ505)。例えば、2回目の発話(訂正発話)に関しては、まず一回前の発話と同一なのか判定される。この一回前の発話は二回前の発話と同一であるか判定されているため、二回目の発話の関連ID402から同一内容の発話に対応するID401が特定され、出力されることになる。
ステップ506では、発話判定部111は、新規の認識結果として 結果受付部113へ文章304と新規入力であるフラグを出力する(ステップ506)。なお、今回用いた閾値K、Nは、システムの状態に応じて切り替わったり、機械学習によって予め最適な値に定められたりしいても良い。なお、一定回数以上の訂正だと判断されば場合(例えば、処理スタート直後(ステップ502の前)に一定回数以上の訂正か否か判断すればよい)は、例えば、ソフトウェアキーボードによる入力といった、音声以外の入力方法へと切り替えを行う。
なお、発話開始時刻の差を見る処理(ステップ502)は、別の方法で実行しても良い。例えば、現時点の発話から見て、過去の所定回数(M回)の発話のすべてを、同一発話の候補とみなし、後続の処理(ステップ503)へ渡す方法である。また、過去の所定回数Mの発話だけに限定したのち、その発話の中から、発話開始時刻の差が所定閾値K以下であるものを、後続の処理(ステップ503)へ渡す方法でもよい。ここで使用する回数の閾値Mや時刻差の閾値Kは、ユーザやシステム管理者が、携帯端末の画面操作などにより自由に設定できるようにしてもよい。
(vi)発話・認識結果選択処理
次に、認識結果情報記憶部110の情報に基づき、今回の発話に対する認識結果を出力する発話・認識結果選択部112の処理について説明する。図6は、本発明の第1の実施形態による発話・認識結果選択部112の処理例を説明するためのフローチャートである。
まず、処理が開始する(ステップ601)と、発話・認識結果選択部112は、認識結果情報記憶部110を参照し、発話判定部111から出力されたID401に基づいて、同一発話の認識結果情報404を複製する(ステップ602)。これは、関連ID402をIDが存在する限り辿っていくことで実現することができる。
次に、発話・認識結果選択部112は、関連する過去の発話の候補404の中で最もスコア(点数)の高いものを順次除外し、各発話に対する点数303の分散を計算する(ステップ603)。この順次除外は、ユーザによって訂正された文章に該当するものを除外できれば、どのような方法でも良い。発話に対する分散に相当する指標の計算は、例えば、式1及び式2を用いて実行することができる。ここでは、1発話に対して得られた文章の候補数をLとする。
Figure 0006284462
式1によれば、候補i番目の正規化スコア(n)は、各文章の点数sを正規化したものとして算出される。また、指標(v)は、正規化スコア(式1)とスケール係数qを用いて、式2によって計算される。この値は、点数間のあいまい性が高い発話では値が大きくなり、点数間にあいまい性が小さい発話では値が小さくなる。つまり、文章304が他の候補とうまく識別できているときに値が小さくなる。この指標は上記分散値の逆数に相当するため、代償は反転するが、上記分散の等価値として利用できる。この発話選択における評価値に、認識結果のスコアを用いることも考えられるが、この方法では正解文章を上位に含んだ発話を選択することは困難である。実際、点数303は同一内容を発話しても、発話長や特徴量の変化により値が大きく変化する。そのため、異なる発話間で点数を比較すること自体に意味がない。
続いて、発話・認識結果選択部112は、各発話のおける分散が最も大きい発話の候補404の中から1つの文章304を選択し、結果受付部113へ出力する(ステップ604)。
例えば、図4においてID=24810の認識結果が最初に入力された音声(第1音声)の認識結果(候補:第1文章群)であり、ID=24811の認識結果が次に入力された音声(第2音声:つまり訂正発話)の認識結果(候補:第2文章群)であったとすると、まず、ID=24810の認識結果の中で、最高点を示す候補ABC 300が認識結果として正しくなかったから第2音声(訂正発話)が入力されたと判断され、それが除外される。そして、ABC 300以外の候補(第1文章群)の中で分散が算出される。また、第2文章群の中で候補ABC 300が除外され、それ以外の候補の中で分散が算出される。そして、分散が大きい文章群が選択され、選択された文章群の中で最高点を示す候補が最終認識結果として出力される。
(vii)結果受付処理
結果受付部113は、発話判定部111または発話・認識結果選択部112からの出力を保存・加工し、画面に出力すべき内容を画面表示部114へ出力する。例えば、発話判定部111からの文章304を受け付けた後、この結果は訂正される可能性があるというフラグを内部に保存しておき、認識文章を項目名と数値に分割し、画面表示部114へ出力する。同時に、以前に訂正される可能性があるフラグ(判定フラグ)がある結果に対して、そのフラグを外し、結果を確定させる。この結果の確定は、例えば、一定時間発話入力がなかったり、作業を完了したことを示す入力があった場合にも行うことができる。発話・認識結果選択部112からの出力を用いる場合には、ほとんど同様の処理であるが、訂正される可能性があるフラグに対しては何も処理は行われない。
(viii)画面表示処理
画面表示部114は、結果受付部113から携帯端末に表示すべき内容を受け取り、デバイスに表示する処理を行う。
図7は、本発明の第1の実施形態による画面表示の一例を示す図である。ここでは、項目名701に対応した値702を音声で入力することを想定する。認識文章304が「ABC 325」であった場合、予め用意されている項目名「ABC」に値「325」を埋めるように表示する。このとき、「325」の値は確定していないことを示すために、灰色や赤色といった色を使い、訂正発話や一定時間経ったために確定した場合には、確定したことを示すため黒色で表示するといったことを行うようにしても良い。
<第1の実施形態のまとめ>
以上説明したように、第1の実施形態によると、訂正発話が入力されたと判断された場合、これまでに出力された音声認識の情報(複数のパターンとスコア)と訂正履歴を用いて、各発話の認識結果の中から1つ発話に対する結果を選択する。このようにすることにより、訂正発話における音声認識の精度を高め、ユーザの訂正発話回数を削減できるようになる。
具体的には、第1の実施形態による音声データ認識装置1では、先に入力された音声(第1音声)の後に入力された音声(第2音声)を受け付けた場合、発話判定部111は、第1音声と第2音声とが同一の音声入力であるか否か判定する。同一であると判定された場合、発話・認識結果選択部112は、第1音声に対して生成された第1文章群における各文章の点数の分散と、第2音声に対して生成された第2文章群における各文章の点数の分散と、を算出し、分散が大きい文章群のうち最も点数の高い文章を最終認識結果として出力する。ここで、分散の大きさを判断基準としているのは、誤認識されている文章の場合、政界との差が僅かである場合が多いため、分散が大きい文章を選択することにより、正確に認識されている文章を取得することができる可能性が高いからである。このようにすることにより、ユーザによる訂正発話の回数を減らし、より正確な認識結果を迅速に提示することができるようになる。
(2)第2の実施形態
第2の実施形態では、訂正発話が受け付けられたときに発話履歴を用いて音響モデルを適応処理することにより、より精度が高い音声認識が可能となる音声データ認識装置800について説明する。
<音声データ認識装置の構成>
(i)機能ブロック構成
図8は、本発明の第2の実施形態による音声データ認識装置800の機能構成を示すブロック図である。なお、図8において、第1の実施形態(図1)による音声データ認識装置1と同一の符号を付与された構成及び機能については、説明を省略する。
第2の実施形態による音声データ認識装置800は、第1の実施形態による音声データ認識装置1の構成に加えて、特徴量抽出部108が抽出した特徴量を格納する特徴量記憶部801と、音響モデルを適応的に更新する適応認識部802と、を有している。また、発話・認識結果選択部803及び画面表示部804の内容は、第1の実施形態におけるそれらとは異なっている。
(ii)ハードウェア構成
第2の実施形態による音声データ認識装置800のハードウェア構成は、第1の実施形態による構成(図2)とほぼ同様である。ただし、図2において、メモリ202は、新たなプログラムとして、適応認識部802と、発話・認識結果選択部803と、を有している。また、記憶装置203は、新たに、特徴量(特徴量記憶部において)を記憶している。その他の構成は第1の実施形態の場合と同様である。また、言語モデル106や音響モデル103をサーバ等から複製して記憶装置203に格納する構成を採ることができる点、及び単独の音声データ認識装置として構成しても良い点についても第1の実施形態と同様である。
<各処理部によって実行される処理の詳細>
(i)特徴量
図9は、第2の実施形態による特徴量記憶部801の構成例を示す図である。
特徴量記憶部801は、特徴量抽出部108から出力される特徴量を一意に識別するための情報であるID901と、対応する入力音声の特徴量値を格納する特徴量902と、を構成情報として有している。1つのID901で示される特徴量902は、1回の発話で入力される音声データに対応するものである。
(ii)適応認識処理
適応認識部802は、認識結果情報記憶部110の情報に基づき、同一内容と判定された発話に対して、音響モデルの適応と認識を行い、結果を発話・認識結果選択部113へ出力する。
図10は、第2の実施形態による適応認識部802の動作を説明するためのフローチャートである。
処理が開始する(ステップ1001)と、適応認識部802は、認識結果情報記憶部110を参照し、発話判定部111から出力されたID301に基づいて同一発話の認識結果情報304を取得して複製するとともに、特徴量記憶部801から音声特徴量を取得して複製する(ステップ1002)。同一発話の取得は、関連ID302をIDが存在する限り辿っていくことで実現できる。
次に、適応認識部802は、関連する過去の発話の候補404の中で最もスコアの高いものを順次除外する(ステップ1003)。この順次除外は、ユーザによって訂正された文章に該当するものを除外できれば、どのような方法でも良い。例えば、3回目の訂正発話が入力された場合、前回2回の発話訂正処理において最もスコアの高い認識結果が除外されることとなる。
続いて、適応認識部802は、発話毎に音響モデルの適応処理を開始し、適応における評価値(音響モデルに基づいて算出される:図3や図4における「点数」と同様なもの)がT(予め設定された値)以下またはI回(予め設定された回数)以上反復したかを判定する(ステップ1004)。当該条件に合致する場合(ステップ1004でYesの場合)、処理はステップ1007に移行する。当該条件に合致しない場合(ステップ1004でNoの場合)、処理はステップ1005に移行する。
ステップ1004において条件に適合しないと判断された場合、適応認識部802は、事後確率を計算し(ステップ1005)、適応パラメータ(音響モデルのパラメータに相当)の更新(ステップ1006)をEMアルゴリズムで行う。この枠組みに関しては、例えば、訂正された文章を除外したN−best結果を用いて、非特許文献Lattice-based unsupervised acoustic model training (ICASSP’11)を適用することができる。この方法では、適応パラメータの更新と同時に、音声認識結果(順位302、点数303、文章304)が更新される。このとき、適応パラメータのモデルとしては、例えば、fMLLRのような、特徴量の平均と分散を補正するようなものを採用できる。これは発話毎に異なるパラメータを設定するため、発話毎に異なる変動を反映することが可能となる。なお、EMアルゴリズムの他、例えば、勾配法等のアルゴリズムを用いて適応処理する子も可能である。
一方、ステップ1004において条件に適合すると判断された場合、適応認識部802は、認識結果情報を発話・認識結果選択部803へ出力する。この処理において、ユーザによって訂正された文章に該当するものを除外することは重要である。なぜなら、誤りである情報を除去するため、モデル適応の精度が向上し、より正確な認識ができるからである。また、今回の発話だけでなく、過去の同一内容の発話に関してもモデル適応を行い、認識結果を更新している。そのため、訂正発話が入力されるたびに、過去の同一内容の発話の認識結果が変化する点に留意が必要である。また、ステップ1005における事後確率計算は、発話毎、文章毎に計算を行うため、独立した演算処理が可能である。そのため、この部分については並列計算を行うことで処理時間を短縮することができる。さらに、各反復において、発話の分散値(式2参照)を計算することで、逐次的に結果出力への関与が小さい発話を切ることによって、演算量を削減することなども考えられる。
(iii)発話・認識結果選択処理
発話・認識結果選択部803は、発話・認識結果選択部113における分散の計算と発話と文章204の選択のみを行う。なお、図6のステップ602の処理とステップ603の前半の処理(過去の発話候補の中で最もスコアの高い認識結果を順次除外する処理)に関しては、適応認識部802で行っているため不要となる。
(iv)画面表示処理
画面表示部804は、発話判定部111において前回と同一内容の発話だと判断された場合、適応認識中であることを画面に通知する処理を実行する。
図11は、第2の実施形態による画面表示例を示す図である。図11において、進捗率1101は、適応評価値または反復回数に基づく進捗率を示している。また、進捗率ではなく、単純に認識中であることを示すアイコンを表示するだけでも良い。
<第2の実施形態のまとめ>
第2の実施形態では、訂正発話が受け付けられたときに発話履歴を用いて音響モデルを適応的に変更・更新する。これにより、より精度が高い音声認識が可能となる。より具体的には、分散が大きい文章群のうち最も点数の高い文章を最終認識結果として出力する処理において、適応認識部802は、先に入力された第1音声に対する認識結果(第1認識結果)及び次に入力された第2音声に対する認識結果(第2認識結果)と、第1音声を音声認識して得られる認識文章候補(第1文章群)及び第2音声を音声認識して得られる認識文章候補(第2文章群)の点数を用いて、第1音声及び第2音声のそれぞれの認識に用いた各音響モデルを適応的に変更する。そして、適応認識部802は、当該変更された音響モデルのそれぞれ(第1音声についての音響モデルと第2音声についての音響モデル)に基づいて第1音声及び第2音声に対する第1及び第2文章群を取得する。そして、発話・認識結果選択部803は、第1及び第2文章群の点数の分散を求め、当該分散が大きい文章群のうち最も点数の高い文章を最終認識結果として出力する。
また、適応処理における事後確率計算を、発話毎、或いは文章毎に並列して実行する。このようにすることにより、処理時間を短縮することが可能となる。
(3)その他
本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
1・・・音声データ認識装置
2・・・データサーバ
3・・・ネットワーク
101・・・ラベル付き音声データ
102・・・音響モデル学習部
103・・・音響モデル記憶部
104・・・文法・文書データ
105・・・言語モデル構築部
106・・・言語モデル記憶部
107・・・音声入力受付部
108・・・特徴量抽出部
109・・・音声認識部
110・・・認識結果情報記憶部
111・・・発話判定部
112・・・発話・認識結果選択部
113・・・結果受付部
114・・・画面表示部
115・・・判定フラグ記憶部
201・・・CPU
202・・・メモリ
203・・・記憶装置
204・・・マイク
205・・・ディスプレイ
206・・・キーボード
207・・・マウス
208・・・通信デバイス
209・・・CPU
210・・・メモリ
211・・・記憶装置
212・・・通信デバイス
213・・・入出力デバイス
800・・・音声データ認識装置
801・・・特徴量記憶部
802・・・適応認識部
803・・・発話・認識結果選択部
804・・・画面表示部

Claims (14)

  1. プロセッサが音声認識処理に関連する各種プログラムを実行して認識結果を出力する音声認識方法であって、
    前記プロセッサが、第1音声の入力を受け付けるステップと、
    前記プロセッサが、第1音声から第1特徴量を抽出するステップと、
    前記プロセッサが、前記第1特徴量と、予め記憶装置に記憶されている音響モデルとを用いて前記第1音声を文字列へ変換し、変換した結果であり、複数の文章を含む第1文章群を生成するステップと、
    前記プロセッサが、前記第1文章群の各文章を評価し、最も点数の高い文章を第1認識結果とするステップと、
    前記プロセッサが、第2音声の入力を受け付けるステップと、
    前記プロセッサが、前記第2音声から第2特徴量を抽出するステップと、
    前記プロセッサが、前記第2特徴量と前記音響モデルを用いて、前記第2音声を文字列へ変換し、変換した結果であり、複数の文章を含む第2文章群を生成するステップと、
    前記プロセッサが、前記第2文章群の各文章を評価し、最も点数の高い文章を第2認識結果とするステップと、
    前記プロセッサが、前記第1音声と第2音声とが同一の音声入力であると判断した場合には、前記第1文章群において最も点数の高い文章である前記第1認識結果を除外して、音声認識処理により得られる各文章の点数の分散を算出し、前記第2文章群において前記最も点数の高い文章である前記第1認識結果を除外して各文章の前記点数の分散を算出し、分散が大きい文章群のうち最も点数の高い文章を最終認識結果とするステップと、
    を有する音声認識方法。
  2. 請求項1において、
    前記プロセッサは、前記第1認識結果と前記第2認識結果の編集距離が所定値以内である場合に、前記第1音声と前記第2音声が同一の音声入力であると判断する、音声認識方法。
  3. 請求項2において、
    前記プロセッサは、前記第1音声と前記第2音声の入力時間差が所定時間以内である場合に、前記第1認識結果と前記第2認識結果の編集距離を判断する、音声認識方法。
  4. 請求項1において、
    前記プロセッサは、前記第1文章の各文章の中で最も点数が高い文章を除外して前記分散を計算する、音声認識方法。
  5. 請求項1において、
    前記分散が大きい文章群のうち最も点数の高い文章を最終認識結果として出力するステップにおいて、前記プロセッサは、前記第1及び第2認識結果と前記第1及び第2文章群の点数を用いて前記第1音声及び第2音声のそれぞれの認識に用いた各音響モデルを適応的に変更し、当該変更された音響モデルのそれぞれに基づいて前記第1音声及び第2音声に対する第1及び第2文章群と、当該第1及び第2文章群の点数の分散を求め、当該分散が大きい文章群のうち最も点数の高い文章を前記最終認識結果として出力する、音声認識方法。
  6. 請求項5において、
    さらに、前記プロセッサが、前記音響モデルに対して適応処理実行中であることを表示画面に表示するステップを有する、音声認識方法。
  7. 請求項5において、
    前記プロセッサは、前記音響モデルを適応的に変更する処理における事後確率計算を発話或いは文章単位で並列的に行う、音声認識方法。
  8. 音声認識処理に関連する各種プログラムを格納するメモリと、
    前記メモリから前記各種プログラムを読みだして実行するプロセッサと、を有し、
    前記プロセッサは、
    入力音声から特徴量を抽出する処理と、
    前記特徴量と、予め記憶装置に記憶されている音響モデルとを用いて前記入力音声を文字列へ変換し、変換した結果であり、複数の文章を含む文章群を生成する処理と、
    前記文章群の各文章を評価し、最も点数の高い文章を認識結果として取得する処理と、を実行し、
    さらに、前記プロセッサは、第1音声の入力の後に第2音声の入力を受け付けた場合、前記第1音声と第2音声とが同一の音声入力であると判定する処理と、前記第1音声に対して生成された第1文章群において最も点数の高い文章である前記第1認識結果を除外して各文章の点数の分散を算出し、前記第2音声に対して生成された第2文章群において前記最も点数の高い文章である前記第1認識結果を除外して各文章の点数の分散を算出し、分散が大きい文章群のうち最も点数の高い文章を最終認識結果とする処理と、を実行する、音声認識装置。
  9. 請求項8において、
    前記プロセッサは、前記第1音声についての第1認識結果と前記第2音声についての第2認識結果の編集距離が所定値以内である場合に、前記第1音声と前記第2音声が同一の音声入力であると判断する、音声認識装置。
  10. 請求項9において、
    前記プロセッサは、前記第1音声と前記第2音声の入力時間差が所定時間以内である場合に、前記第1認識結果と前記第2認識結果の編集距離を判断する、音声認識装置。
  11. 請求項8において、
    前記プロセッサは、前記第1文章の各文章の中で最も点数が高い文章を除外して前記分散を計算する、音声認識装置。
  12. 請求項8において、
    前記プロセッサは、前記第1及び第2認識結果と前記第1及び第2文章群の点数を用いて前記第1音声及び第2音声のそれぞれの認識に用いた各音響モデルを適応的に変更し、当該変更された音響モデルのそれぞれに基づいて前記第1音声及び第2音声に対する第1及び第2文章群と、当該第1及び第2文章群の点数の分散を求め、当該分散が大きい文章群のうち最も点数の高い文章を前記最終認識結果として出力する、音声認識装置。
  13. 請求項12において、
    前記プロセッサは、さらに、前記音響モデルに対して適応処理実行中であることを表示画面に表示する処理を実行する、音声認識装置。
  14. 請求項12において、
    前記プロセッサは、前記音響モデルを適応的に変更する処理における事後確率計算を発話或いは文章単位で並列的に行う、音声認識装置。
JP2014192548A 2014-09-22 2014-09-22 音声認識方法、及び音声認識装置 Active JP6284462B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014192548A JP6284462B2 (ja) 2014-09-22 2014-09-22 音声認識方法、及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014192548A JP6284462B2 (ja) 2014-09-22 2014-09-22 音声認識方法、及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2016062069A JP2016062069A (ja) 2016-04-25
JP6284462B2 true JP6284462B2 (ja) 2018-02-28

Family

ID=55797773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014192548A Active JP6284462B2 (ja) 2014-09-22 2014-09-22 音声認識方法、及び音声認識装置

Country Status (1)

Country Link
JP (1) JP6284462B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950240B2 (en) 2016-08-26 2021-03-16 Sony Corporation Information processing device and information processing method
JP6790619B2 (ja) * 2016-09-07 2020-11-25 カシオ計算機株式会社 発話判定装置、発話判定システム、プログラム及び発話判定方法
JPWO2018079294A1 (ja) * 2016-10-27 2019-09-12 ソニー株式会社 情報処理装置及び情報処理方法
CA3004281A1 (en) 2016-10-31 2018-05-03 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
WO2018174884A1 (en) 2017-03-23 2018-09-27 Rovi Guides, Inc. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
KR102428911B1 (ko) 2017-05-24 2022-08-03 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
JP2019095606A (ja) * 2017-11-22 2019-06-20 クラリオン株式会社 学習データ生成方法、学習データ生成プログラム、サーバ
EP3742301A1 (en) 2018-01-17 2020-11-25 Sony Corporation Information processing device and information processing method
JP6910987B2 (ja) * 2018-06-07 2021-07-28 株式会社東芝 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11149294A (ja) * 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
JP2005091568A (ja) * 2003-09-16 2005-04-07 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP4156563B2 (ja) * 2004-06-07 2008-09-24 株式会社デンソー 単語列認識装置
JP2010044239A (ja) * 2008-08-13 2010-02-25 Kddi Corp 音声認識装置およびプログラム
JP2012108429A (ja) * 2010-11-19 2012-06-07 Nec Corp 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

Also Published As

Publication number Publication date
JP2016062069A (ja) 2016-04-25

Similar Documents

Publication Publication Date Title
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US10699699B2 (en) Constructing speech decoding network for numeric speech recognition
Ghai et al. Literature review on automatic speech recognition
US8019602B2 (en) Automatic speech recognition learning using user corrections
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
WO2017114172A1 (zh) 一种发音词典的构建方法及装置
US20150058006A1 (en) Phonetic alignment for user-agent dialogue recognition
EP1701338B1 (en) Speech recognition method
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
Kurian et al. Speech recognition of Malayalam numbers
Këpuska Wake-up-word speech recognition
Singhal et al. Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
Liu et al. Deriving disyllabic word variants from a Chinese conversational speech corpus
Rebai et al. LinTO Platform: A Smart Open Voice Assistant for Business Environments
US9928832B2 (en) Method and apparatus for classifying lexical stress
Caranica et al. On the design of an automatic speaker independent digits recognition system for Romanian language
TW201828281A (zh) 發音詞典的構建方法及裝置
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
Radha et al. Continuous speech recognition system for Tamil language using monophone-based hidden markov model
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
Lingam Speaker based language independent isolated speech recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180130

R151 Written notification of patent or utility model registration

Ref document number: 6284462

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151