JP7143665B2

JP7143665B2 - 音声認識装置、音声認識プログラムおよび音声認識方法

Info

Publication number: JP7143665B2
Application number: JP2018141325A
Authority: JP
Inventors: 祐介 ▲濱▼田; 啓介朝倉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2022-09-29
Anticipated expiration: 2038-07-27
Also published as: US11270692B2; JP2020016839A; US20200035226A1

Description

本発明の実施形態は、音声認識装置、音声認識プログラムおよび音声認識方法に関する。

従来、人が話した言葉を文字として書き起こす技術として、入力された音声をテキストに変換する音声認識処理がある。この音声認識処理では、テキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換によりテキストの修正を行う従来技術が知られている。

特開２０１２－７８６５０号公報特表２００７－５２４９４９号公報特開平８－１６６９６６号公報

しかしながら、上記の従来技術では、文脈や文書全体で見たときに予測変換によるテキストの修正が適切なものではない場合があり、結果として認識率が悪くなるという問題がある。

１つの側面では、音声認識の精度を向上することを可能とする音声認識装置、音声認識プログラムおよび音声認識方法を提供することを目的とする。

１つの案では、音声認識装置は、音声処理部と、検証部と、評価部とを有する。音声処理部は、入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する。検証部は、取得した複数の認識候補と、入力音声に対応するメタ情報との類似度を検証する。評価部は、検証した類似度に基づき、取得した複数の認識候補の中から信頼度が低い区間の認識結果を決定する。

本発明の実施態様によれば、音声認識の精度を向上することができる。

図１は、実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図２は、実施形態にかかる音声認識装置の動作例を示すフローチャートである。図３は、実施形態にかかる音声認識装置の動作の概要を示す説明図である。図４は、音声認識エンジンによる音声認識を説明するフローチャートである。図５－１は、信頼度の追記処理を例示するフローチャートである。図５－２は、信頼度の追記を説明する説明図である。図６－１は、ジャンル判別処理を例示するフローチャートである。図６－２は、ジャンル判別を説明する説明図である。図７－１は、区間音声データの生成処理を例示するフローチャートである。図７－２は、区間音声データの生成を説明する説明図である。図８は、再認識処理を例示するフローチャートである。図９は、文書候補一覧表の生成処理を例示するフローチャートである。図１０－１は、整合性の確認処理を例示するフローチャートである。図１０－２は、整合性の確認を説明する説明図である。図１１－１は、類似度の検証処理を例示するフローチャートである。図１１－２は、説明文のベクトル化を説明する説明図である。図１２は、評価処理を例示するフローチャートである。図１３は、学習フェーズの一例を説明する説明図である。図１４は、学習フェーズの動作例を示すフローチャートである。図１５は、推論フェーズの一例を説明する説明図である。図１６は、推論フェーズの動作例を示すフローチャートである。図１７は、実施形態にかかる音声認識装置のハードウエア構成の一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる音声認識装置、音声認識プログラムおよび音声認識方法を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する音声認識装置、音声認識プログラムおよび音声認識方法は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図１に示すように、音声認識装置１は、音声ファイル１１ａおよび音声ファイル１１ａに対応する説明文１１ｂを含む入力データ１１の入力を受け付け、音声をテキストに変換した音声認識結果をテキストデータ１２として出力する情報処理装置である。例えば、音声認識装置１は、ＰＣ（パーソナルコンピュータ）などを適用できる。

具体的には、音声認識装置１は、入出力部１０、音声認識処理部２０および記憶部３０を有する。

入出力部１０は、ファイルの入出力やディスプレイへのデータの表示出力などを行う処理部である。例えば、入出力部１０は、音声認識にかかる入力データ１１の入力を受け付ける。入力データ１１は、音声ファイル１１ａおよび説明文１１ｂを含む。音声ファイル１１ａは、音声認識対象となる音声データを含むファイルである。

説明文１１ｂは、音声ファイル１１ａにおける音声の内容を示すテキストデータであり、例えば音声で紹介する内容の紹介文である。すなわち、説明文１１ｂは、入力音声に対応するメタ情報の一例である。なお、本実施形態ではメタ情報の一例として説明文１１ｂを例示するが、メタ情報は説明文１１ｂだけでなく、例えば音声ファイル１１ａに対応する動画像におけるテロップ文などであってもよい。

音声認識処理部２０は、入出力部１０が入力を受け付けた音声ファイル１１ａについて音声認識を行い、認識結果をテキストデータ１２として出力する。具体的には、音声認識処理部２０は、音声処理部２１、文脈検証部２２、評価部２３を有する。

音声処理部２１は、制御部２１ａ、音声認識エンジン２１ｂ、音素管理表２１ｃ、ジャンル別置換候補生成法表２１ｄおよび置換候補一覧表２１ｅを有する。

制御部２１ａは、音声処理部２１における音声認識の処理を制御する。具体的には、制御部２１ａは、入力音声について音声認識エンジン２１ｂを用いて音声認識を行う。次いで、制御部２１ａは、認識結果における信頼度が所定値より低い区間について、ジャンル別置換候補生成法表２１ｄをもとに音声認識エンジン２１ｂを用いて互いに異なる複数の音声認識処理により再認識し、複数の認識候補（単語など）を取得する。次いで、制御部２１ａは、取得した複数の認識候補を置換候補一覧表２１ｅに保存する。

次いで、制御部２１ａは、信頼度が低い区間について、置換候補一覧表２１ｅに記載された複数の認識候補（単語など）を埋め込んだ文書候補一覧を生成し、文書候補一覧表３２ａとして共通部３２に格納する。また、制御部２１ａは、音声ファイル１１ａに対応する説明文１１ｂを説明文３２ｂとして共通部３２に格納する。

音声認識エンジン２１ｂは、音声ファイル１１ａの音声波形から人などが発声した音素、すなわち認識対象となる人が発した言葉（読み）を認識する。次いで、音声認識エンジン２１ｂは、内蔵された単語辞書における単語群の中で認識した読み方と近い読みをもつ単語を、音声の時間とともに認識結果として音素管理表２１ｃに記入する。

音素管理表２１ｃは、音声認識エンジン２１ｂが認識した音素を時間とともに管理するデータテーブルなどである。ジャンル別置換候補生成法表２１ｄは、信頼度が低い区間を複数の音声認識処理で再認識する際の手法を処理ごとに記載したデータテーブルなどである。置換候補一覧表２１ｅは、信頼度が低い区間について、再認識により取得した複数の認識候補（置換候補）の一覧を記載するデータテーブルなどである。

文脈検証部２２は、文書候補一覧表３２ａを参照し、音声処理部２１が取得した複数の認識候補と、音声ファイル１１ａに対応するメタ情報である説明文３２ｂとの類似度を、ディープラーニング手法により学習した文脈モデルを用いて検証する。具体的には、文脈検証部２２は、複数の認識候補を含む文書および説明文１１ｂを、ディープラーニング手法を用いたｄｏｃ２ｖｅｃなどの技術を用いてベクトル化する。次いで、文脈検証部２２は、複数の認識候補を含む文書および説明文１１ｂについて、文書の特徴をベクトル化した文脈ベクトル同士を比較することで、類似度を求める。すなわち、文脈検証部２２は、検証部の一例である。

また、文脈検証部２２は、複数の認識候補を埋め込んだ文書候補一覧表３２ａを参照し、埋め込んだ部分を含む前後の文脈をｄｏｃ２ｖｅｃなどの技術を用いてベクトル化する。次いで、文脈検証部２２は、生成したベクトル同士を比較することで、前後の文脈の整合度を検証する。

評価部２３は、文脈検証部２２の検証結果に基づき、音声認識の信頼度が低い区間について、音声処理部２１が取得した複数の認識候補の中から認識結果を決定する。

具体的には、評価部２３は、説明文１１ｂとの類似度に基づき、文書候補一覧表３２ａの中から例えば類似度の最も高いものを認識結果として決定する。また、評価部２３は、文書候補一覧表３２ａにおける前後の文脈の整合度に基づき、文書候補一覧表３２ａの中から例えば整合度の最も高いものを認識結果として決定する。評価部２３が決定した認識結果は、音声ファイル１１ａの音声認識結果を示すテキストデータ１２として入出力部１０より出力される。

記憶部３０は、例えばＨＤＤ（Hard Disk Drive）などの記憶装置であり、モデル格納部３１および共通部３２を有する。モデル格納部３１は、文脈モデル情報３１ａおよび説明文３２ｂを格納する。共通部３２は、文書候補一覧表３２ａおよび説明文３２ｂを格納する。

文脈モデル情報３１ａは、学習済みの文脈モデルについてのニューラルネットワークを構築するための各種パラメタなどである。フィルタ情報３１ｂは、音声認識エンジン２１ｂの音声認識処理で用いる音声フィルタに関連する各種パラメータなどである。

図２は、実施形態にかかる音声認識装置１の動作例を示すフローチャートである。図３は、実施形態にかかる音声認識装置１の動作の概要を示す説明図であり、より具体的には、図２における各処理（Ｓ１～Ｓ９）の概要を示す図である。

図２に示すように、処理が開始されると、入出力部１０は、音声認識の対象となる入力データ１１（音声ファイル１１ａ、説明文１１ｂ）の入力を受け付ける（Ｓ０）。例えば、図３に示すように、制御部２１ａは、「本日は所により雨、降水確率は…」とする音声ファイル１１ａの入力を受け付ける。

次いで、音声処理部２１の制御部２１ａは、入力された音声ファイル１１ａを音声認識エンジン２１ｂに入力し、音声認識結果（音素）を音素管理表２１ｃに記入する（Ｓ１）。

例えば、図３に示すように、制御部２１ａは、「本日は所により雨、降水確率は…」とする音声ファイル１１ａを音声認識エンジン２１ｂに入力することで「本日は所により雨、コース確立は…」とする仮の音声認識結果を得る。この音声認識結果は、音素管理表２１ｃに記入される。

図４は、音声認識エンジン２１ｂによる音声認識を説明するフローチャートである。図４に示すように、制御部２１ａは、音声認識エンジン２１ｂに音声ファイル１１ａの音声データを入力する（Ｓ１１）。次いで、制御部２１ａは、音声認識エンジン２１ｂより出力された音声認識結果と、認識した音声の時間を音素ごとに音素管理表２１ｃに保存する（Ｓ１２）。

図２に戻り、Ｓ１に次いで、制御部２１ａは、音声認識結果とともに音声認識エンジン２１ｂより得られた音声認識の確度を示す信頼度を音素管理表２１ｃに追記する（Ｓ２）。例えば、図３に示すように、制御部２１ａは、「本日は所により雨、コース確立は…」とする音声認識結果とともにパーセント形式で表記する信頼度を取得し、音素管理表２１ｃに追記する。

図５－１は、信頼度の追記処理を例示するフローチャートである。図５－２は、信頼度の追記を説明する説明図である。

図５－１に示すように、信頼度の追記処理が開始されると、制御部２１ａは、音声認識エンジン２１ｂが音声認識した各単語の信頼度を出力するか否かを確認する（Ｓ２１）。音声認識エンジン２１ｂが信頼度を出力する場合（Ｓ２１：ＹＥＳ）、制御部２１ａは、音声認識エンジン２１ｂが出力した信頼度を音素管理表２１ｃに追記する（Ｓ２３）。

音声認識エンジン２１ｂが信頼度を出力しない場合（Ｓ２１：ＮＯ）、制御部２１ａは、ディープラーニング手法により信頼度を出力するように事前に学習した文脈モデルを用いて音声認識エンジン２１ｂが認識した各単語の信頼度を算出する（Ｓ２２）。具体的には、制御部２１ａは、音声認識エンジン２１ｂの認識結果を入力すると認識結果の信頼度を出力するように学習した文脈モデルを用いて信頼度の算出を行う。次いで、制御部２１ａは、算出した信頼度を音素管理表２１ｃに追記する（Ｓ２３）。

例えば、図５－２に示すように、制御部２１ａは、「本日は所により雨、コース確立は…」とする音声認識結果とともに各単語の信頼度を音声認識エンジン２１ｂが出力する場合、認識結果とともに出力した信頼度を音素管理表２１ｃに追記する。また、制御部２１ａは、音声認識エンジン２１ｂが信頼度を出力しない場合、「本日は所により雨、コース確立は…」とする制御部２１ａの音声認識結果を文脈モデルに入力して各単語の信頼度を得る。次いで、制御部２１ａは、文脈モデルを用いて得た信頼度を音素管理表２１ｃに追記する。

図２に戻り、Ｓ２に次いで、制御部２１ａは、音素管理表２１ｃの音素の内、信頼度の高い区間の音素をもとに、音声ファイル１１ａにおける音声のジャンルを判別する（Ｓ３）。制御部２１ａが判別する音声のジャンルについては、例えば、天気予報、バラエティ番組、ドキュメンタリーなどがある。

具体的には、制御部２１ａは、ディープラーニング手法によりジャンルを出力するように事前に学習した文脈モデルに信頼度の高い区間の音素のデータを入力することで、ジャンルの判別を行う。例えば、図３に示すように、制御部２１ａは、信頼度の高い「本日は所により雨」とする音声認識結果を文脈モデルに入力することで、「天気予報」とするジャンルを判別する。

図６－１は、ジャンル判別処理を例示するフローチャートである。図６－２は、ジャンル判別を説明する説明図である。

図６－１に示すように、ジャンル判別処理が開始されると、制御部２１ａは、音素管理表２１ｃから音素ごとの信頼度をもとに、信頼性の高い区間を複数抽出する（Ｓ３１）。例えば、図６－２に示すように、制御部２１ａは、信頼度が所定値（例えば６０％）以上の区間を抽出する。

次いで、制御部２１ａは、抽出した区間の音素を学習済みの文脈モデルに入力することで、ジャンルを判定する（Ｓ３２）。例えば、図６－２に示すように、制御部２１ａは、信頼度の高い「本日は所により雨」の区間の音素を文脈モデルに入力することで、「天気予報」とするジャンルを判別する。

図２に戻り、Ｓ３に次いで、制御部２１ａは、音素管理表２１ｃの音素の内、信頼度の低い区間の音素に対応する音声データを切り取り区間音声データを生成する（Ｓ４）。例えば、図３に示すように、制御部２１ａは、信頼度の低い「コース確立」の区間について、音声データを切り出す。

図７－１は、区間音声データの生成処理を例示するフローチャートである。図７－２は、区間音声データの生成を説明する説明図である。

図７－１に示すように、区間音声データの生成処理が開始されると、制御部２１ａは、音素管理表２１ｃから音素ごとの信頼度をもとに、信頼度の低い単語と時間を抽出する（Ｓ４１）。例えば、図７－２に示すように、制御部２１ａは、信頼度が所定値（例えば６０％）以下の区間を音素管理表２１ｃより抽出する。

次いで、制御部２１ａは、Ｓ４１で抽出した時間をもとに、音声ファイル１１ａの音声データにおいて、信頼度の低い単語が存在する区間を切り取り、区間音声データを生成する（Ｓ４２）。例えば、図７－２に示すように、制御部２１ａは、信頼度の低い「コース確立」の区間に対応する区間音声データを生成する。

図２に戻り、Ｓ４に次いで、制御部２１ａは、区間音声データを使用して互いに異なる複数の音声認識処理により再認識し、認識結果を置換候補一覧表２１ｅに記載する（Ｓ５）。

例えば、図３に示すように、制御部２１ａは、「コース確立」の区間について、ＳＥフィルタ＋音声認識エンジン２１ｂによる再認識で「国立」とする認識結果を得る。また、制御部２１ａは、ＢＧＭフィルタ＋音声認識エンジン２１ｂにより再認識で「降水確率」とする認識結果を得る。また、制御部２１ａは、別の音声認識エンジンを用いた再認識で「香水確立」とする認識結果を得る。また、制御部２１ａは、同音または類似音の単語をコーパスなどで検索する類似音検索により「越す確率」とする認識結果を得る。次いで、制御部２１ａは、「国立」、「降水確率」、「香水確立」、「越す確率」などの認識結果を置換候補一覧表２１ｅに記載する。

図８は、再認識処理を例示するフローチャートである。図８に示すように、再認識処理が開始されると、制御部２１ａは、ジャンル別置換候補生成法表２１ｄを参照し、Ｓ３で判別したジャンルを基に、適用する処理（フィルタ・エンジン）を設定する（Ｓ５１）。

例えば、判別したジャンルが「天気予報」である場合、制御部２１ａは、ジャンル別置換候補生成法表２１ｄを参照することで、ＳＥフィルタ＋音声認識エンジン２１ｂと、ＢＧＭフィルタ＋音声認識エンジン２１ｂと、別エンジンと、類似音検索とを適用する処理として設定する。

次いで、制御部２１ａは、Ｓ５１の設定内容をもとに、互いに異なる複数の音声認識処理（図示例では第１～第５の処理）のどの処理を適用するかを判別する（Ｓ５２、Ｓ５３、Ｓ５４、Ｓ５５、Ｓ５６）。次いで、制御部２１ａは、適用すると判別（Ｓ５２、Ｓ５３、Ｓ５４、Ｓ５５、Ｓ５６：ＹＥＳ）した処理（Ｓ５２ａ、Ｓ５３ａ、Ｓ５４ａ、Ｓ５５ａ、Ｓ５６ａ）を実施する。

例えば、制御部２１ａは、ＢＧＭフィルタ＋音声認識エンジン２１ｂによる第１の処理を適用する場合（Ｓ５２：ＹＥＳ）、フィルタ情報３１ｂを参照してＢＧＭフィルタのパラメータを設定し、ＢＧＭフィルタでの推論を行う。次いで、制御部２１ａは、フィルタ適用後の音声データを音声認識エンジン２１ｂで再認識する（Ｓ５２ａ）。

また、制御部２１ａは、ＳＥフィルタ＋音声認識エンジン２１ｂによる第２の処理を適用する場合（Ｓ５３：ＹＥＳ）、フィルタ情報３１ｂを参照してＳＥフィルタのパラメータを設定し、ＳＥフィルタでの推論を行う。次いで、制御部２１ａは、フィルタ適用後の音声データを音声認識エンジン２１ｂで再認識する（Ｓ５３ａ）。

また、制御部２１ａは、ノイズフィルタ＋音声認識エンジン２１ｂによる第３の処理を適用する場合（Ｓ５４：ＹＥＳ）、フィルタ情報３１ｂを参照してノイズフィルタのパラメータを設定し、ノイズフィルタでの推論を行う。次いで、制御部２１ａは、フィルタ適用後の音声データを音声認識エンジン２１ｂで再認識する（Ｓ５４ａ）。

また、制御部２１ａは、別エンジンによる第４の処理を適用する場合（Ｓ５５：ＹＥＳ）、別エンジンでの音声認識を行う（Ｓ５５ａ）。

また、制御部２１ａは、類似音検索による第５の処理を適用する場合（Ｓ５６：ＹＥＳ）、コーパスなどを使用して類似音単語を検索する（Ｓ５６ａ）。

次いで、制御部２１ａは、互いに異なる複数の音声認識処理による認識結果を置換候補一覧表２１ｅに保存し（Ｓ５７）、処理を終了する。

図２に戻り、Ｓ５に次いで、制御部２１ａは、制御部２１ａに記載される単語を、音素管理表２１ｃが示すもとの文章に埋め込み文書候補一覧表３２ａを生成する（Ｓ６）。

図９は、文書候補一覧表３２ａの生成処理を例示するフローチャートである。図９に示すように、生成処理が開始されると、制御部２１ａは、置換候補一覧表２１ｅに記述された置換候補（複数の認識結果）の数だけ繰り返すループ処理（Ｓ６１～Ｓ６３）を行い、処理を終了する。具体的には、制御部２１ａは、音素管理表２１ｃが示す元のテキストに置換候補一覧表２１ｅの認識結果それぞれを埋め込み、文書候補一覧表３２ａを生成して出力する（Ｓ６２）。

図２に戻り、Ｓ６に次いで、文脈検証部２２は、文書候補一覧表３２ａに記載される文章の整合性を確認し、確認結果を文書候補一覧表３２ａに追記する（Ｓ７）。例えば、図３に示すように、Ｓ７では、文書候補一覧表３２ａにおいて認識結果ごとに記載される文書をそれぞれ文脈モデルに入力し、文書の文脈整合性を求める。

図１０－１は、整合性の確認処理を例示するフローチャートである。図１０－２は、整合性の確認を説明する説明図である。

図１０－１に示すように、整合性の確認処理が開始されると、文脈検証部２２は、文書候補の数（認識結果の数）だけ繰り替えしを行うループ処理（Ｓ７１～Ｓ７４）を行い、処理を終了する。

具体的には、文脈検証部２２は、文書候補一覧表３２ａの文書候補を文脈モデルに入力する推論（推論フェーズ）により整合度を示す値を取得し、整合性を確認する（Ｓ７２）。次いで、文脈検証部２２は、整合性の確認結果（得られた値）を文書候補一覧表３２ａに追記する（Ｓ７３）。

例えば、図１０－２に示すように、文脈検証部２２は、文書候補一覧表３２ａにおける１～５の文書候補を文脈モデルに入力することで、それぞれの整合性を示す値を得て追記する。例えば、文脈検証部２２は、文書候補一覧表３２ａの５番目に記載された「本日は所により雨、越す確率は…」とする文書を文脈モデルに入力することで、その文書の文脈についての整合度（５０％）を得る。そして、文脈検証部２２は、得られた値（５０％）を文書候補一覧表３２ａに追記する。

図２に戻り、文脈検証部２２は、説明文３２ｂと、文書候補一覧表３２ａの文章とをベクトル化し、文脈ベクトルを得る。次いで、文脈検証部２２は、文脈ベクトルの類似度を比較し、比較結果を文書候補一覧表３２ａに追記する（Ｓ８）。

例えば、図３に示すように、文脈検証部２２は、文書候補一覧表３２ａにおける１～５の文書から得られた文脈ベクトル（Ｖ１～Ｖ５）と、説明文３２ｂの文脈ベクトル（Ｖ０）との類似度を求める。次いで、文脈検証部２２は、求めた類似度を文書候補一覧表３２ａにおける１～５に追記する。

図１１－１は、類似度の検証処理を例示するフローチャートである。図１１－１に示すように、類似度の検証処理が開始されると、文脈検証部２２は、文書候補の数（認識結果の数）だけ繰り返すループ処理（Ｓ８１～Ｓ８５）を行い、処理を終了する。

具体的には、文脈検証部２２は、説明文３２ｂと、文書候補一覧表３２ａの文書候補をｄｏｃ２ｖｅｃなどの技術を用いてそれぞれベクトル化する（Ｓ８２）。

図１１－２は、説明文３２ｂのベクトル化を説明する説明図である。図１１－２に示すように、文脈検証部２２は、例えば説明文３２ｂの文書をｄｏｃ２ｖｅｃを適用したニューラルネットワークに入力することで、説明文３２ｂの文脈をベクトル化した文脈ベクトル（Ｖ０）を得る。

次いで、文脈検証部２２は、文書候補（図示例では１～５）のベクトル（Ｖ１～Ｖ５）と、音声の説明文３２ｂのベクトル（Ｖ０）とを比較し、類似度を算出する（Ｓ８３）。次いで、文脈検証部２２は、得られた類似度を文書候補一覧表３２ａにおける文書候補それぞれに追記する（Ｓ８４）。

図２に戻り、Ｓ８に次いで、評価部２３は、文書候補一覧表３２ａにおける文書候補それぞれの類似度と整合性の値から最も適切な補正（文書候補）を決定する。次いで、評価部２３は、決定した内容を音声認識結果として適用し（Ｓ９）、音声認識結果を示すテキストデータ１２を入出力部１０を介して出力する（Ｓ１０）。

例えば、図３に示すように、評価部２３は、文書候補一覧表３２ａにおける１～５の文書候補それぞれの類似度と整合性の値から３、５、１の順に文書候補の順位を求める。次いで、評価部２３は、順位の一番高い３番目の文書候補「本日は所により雨、降水確率は…」をテキストデータ１２として出力する。

図１２は、評価処理を例示するフローチャートである。図１２に示すように、評価処理が開始されると、評価部２３は、文書候補一覧表３２ａにおける文書候補それぞれの類似度と整合性の値を統計的手法で評価する（Ｓ９１）。例えば、統計的手法の評価の一例として、評価部２３は、類似度と整合性の値の平均値を算出する。

次いで、評価部２３は、文書候補一覧表３２ａの文書候補の内、統計的手法で評価した値の最も高い候補文をテキストデータ１２として出力する（Ｓ９２）。

なお、信頼度の算出、ジャンルの判別、文脈整合性の評価、ｄｏｃ２ｖｅｃにおける類似度測定等を行うための文脈モデルや、音声認識の音声フィルタなどは、ディープラーニング等の機械学習により学習した学習モデルを用いて行う。

図１３は、学習フェーズの一例を説明する説明図である。図１３に示すように、ディープラーニング学習（Ｓ２０１）では、ニューラルネットワーク定義２０２およびハイパーパラメタ２０３を用いて初期のニューラルネットワークを構築する。次いで、ディープラーニング学習では、教師データ２０１を構築したニューラルネットワークに適用し、信頼度の算出、ジャンルの判別、文脈整合性の評価、ｄｏｃ２ｖｅｃにおける類似度測定、音声フィルタ等を行うようにニューラルネットワークの学習を行う。教師データ２０１は、信頼度の算出、ジャンルの判別、文脈整合性の評価、ｄｏｃ２ｖｅｃにおける類似度測定、音声フィルタ等としてニューラルネットワークを学習するための教師とするサンプルデータである。

具体的には、ディープラーニング学習（Ｓ２０１）では、教師データ２０１をニューラルネットワークに順伝播して得られた推論結果と、教師データ２０１に含まれる正解データとの差分（損失）を求める。次いで、得られた差分をニューラルネットワークに逆伝播させ、ニューラルネットワークの各ノードのパラメータを変更して最適解に近づけていく。このようなディープラーニング学習（Ｓ２０１）により、ニューラルネットワークにおける各ノードのパラメータが学習済モデル２０４として得られる。

図１４は、学習フェーズの動作例を示すフローチャートである。図１４に示すように、処理が開始されると、音声認識処理部２０は、ハイパーパラメタ２０３をもとにディープラーニングに関する定義を与える（Ｓ２１１）。次いで、音声認識処理部２０は、ニューラルネットワーク定義２０２に従いニューラルネットワークを構築する（Ｓ２１２）。

次いで、音声認識処理部２０は、構築したニューラルネットワークに、ニューラルネットワーク定義２０２で指定されたアルゴリズムに従い初期値を設定する（Ｓ２１３）。次いで、音声認識処理部２０は、予め指定されたバッチサイズの教師データ集合を教師データ２０１より取得する（Ｓ２１４）。

次いで、音声認識処理部２０は、取得した教師データ集合を入力データと正解データに分離し（Ｓ２１５）、構築したニューラルネットワークに入力データを入力して順伝播させる順伝播処理を行う（Ｓ２１６）。

次いで、音声認識処理部２０は、ニューラルネットワークより順伝播して得られた出力値と、正解データとを比較して損失（差分）を計算する（Ｓ２１７）。次いで、音声認識処理部２０は、得られた損失をニューラルネットワークに逆伝播させてニューラルネットワークの各ノードのパラメータを最適解に近づけていく逆伝播処理を行う（Ｓ２１８）。

次いで、音声認識処理部２０は、予め設定された終了条件に到達したか否かを判定し（Ｓ２１９）、到達していない場合（Ｓ２１９：ＮＯ）はＳ２１４へ処理を戻す。到達している場合（Ｓ２１９：ＹＥＳ）、音声認識処理部２０は、Ｓ２１４～Ｓ２１９を繰り返して得られたニューラルネットワークの各ノードのパラメータ、すなわち学習済モデル２０４を出力する（Ｓ２２０）。

図１５は、推論フェーズの一例を説明する説明図である。図１５に示すように、推論フェーズ（Ｓ３０１）では、学習フェーズで得られた学習済モデル２０４をもとにニューラルネットワークを構築する。次いで、推論フェーズ（Ｓ３０１）では、信頼度の算出、ジャンルの判別、文脈整合性の評価、ｄｏｃ２ｖｅｃにおける類似度測定、音声フィルタ等の対象となるテストデータ３０１をニューラルネットワークに適用する。これにより、信頼度の算出、ジャンルの判別、文脈整合性の評価、ｄｏｃ２ｖｅｃにおける類似度測定、音声フィルタ等の処理結果（推論結果）を得ることができる。

図１６は、推論フェーズの動作例を示すフローチャートである。図１６に示すように、処理が開始されると、音声認識処理部２０は、学習時と同様にハイパーパラメタ２０３をもとにディープラーニングに関する定義を与える（Ｓ３１１）。

次いで、音声認識処理部２０は、学習済モデル２０４を読み込み、学習済モデル２０４に対応したニューラルネットワークを構築する（Ｓ３１２）。次いで、音声認識処理部２０は、予め指定されたバッチサイズのテストデータ３０１を取得し（Ｓ３１３）、構築したニューラルネットワークに入力して順伝播させる順伝播処理を行う（Ｓ３１４）。

次いで、音声認識処理部２０は、順伝播処理によるニューラルネットワークからの出力値、すなわち推論データを処理結果として出力する（Ｓ３１５）。

以上のように、音声認識装置１は、音声処理部２１と、文脈検証部２２と、評価部２３とを有する。音声処理部２１は、音声ファイル１１ａの入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する。文脈検証部２２は、取得した複数の認識候補と、入力音声に対応するメタ情報（説明文１１ｂ）との類似度を検証する。評価部２３は、検証した類似度に基づき、取得した複数の認識候補の中から信頼度の低い区間の認識結果を決定する。

これにより、音声認識装置１は、音声認識の信頼度が低い区間について、複数の認識候補の中から入力音声に対応するメタ情報との類似度合に基づいて例えば説明文１１ｂと類似するものに決定する。したがって、音声認識装置１は、入力音声に内容に沿った適切な認識結果を得ることができ、音声認識の精度を向上することができる。

また、音声処理部２１は、認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する、ジャンル別置換候補生成法表２１ｄにおける複数の音声認識処理により信頼度が低い区間の複数の認識候補を取得する。このように、音声認識装置１は、音声認識の信頼度が高い区間をもとに判定したジャンルを用いて信頼度が低い区間の音声認識処理を行うので、信頼度が低い区間の再認識を精度よく行うことができる。

また、文脈検証部２２は、複数の認識候補について、音声認識の信頼度が低い区間に認識候補を埋め込んだ場合の文脈の整合度を検証する。そして、評価部２３は、類似度および整合度に基づき、音声認識の信頼度が低い区間の認識結果を決定する。このように、音声認識装置１は、文脈の整合度を加味して音声認識の信頼度が低い区間の認識結果を決定ので、より適切な認識結果を得ることができる。

音声認識装置１で行われる各種処理機能は、ＣＰＵ（Central Processing Unit）（またはＭＰＵ（Micro Processing Unit）、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、音声認識装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ（ハードウエア）の一例を説明する。図１７は、実施形態にかかる音声認識装置１のハードウエア構成の一例を示すブロック図である。

図１７に示すように、音声認識装置１は、各種演算処理を実行するＣＰＵ１０１と、データ入力を受け付ける入力装置１０２と、モニタ１０３と、スピーカ１０４とを有する。また、音声認識装置１は、記憶媒体からプログラム等を読み取る媒体読取装置１０５と、各種装置と接続するためのインタフェース装置１０６と、有線または無線により外部機器と通信接続するための通信装置１０７とを有する。また、音声認識装置１は、各種情報を一時記憶するＲＡＭ１０８と、記憶部３０としての機能を提供するハードディスク装置１０９とを有する。また、音声認識装置１内の各部（１０１～１０９）は、バス１１０に接続される。

ハードディスク装置１０９には、上記の実施形態で説明した入出力部１０および音声認識処理部２０にかかる各種の処理を実行するためのプログラム１１１が記憶される。また、ハードディスク装置１０９には、プログラム１１１が参照する各種データ１１２が記憶される。入力装置１０２は、例えば、音声認識装置１の操作者から操作情報の入力を受け付ける。モニタ１０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置１０６は、例えば印刷装置等が接続される。通信装置１０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ１０１は、ハードディスク装置１０９に記憶されたプログラム１１１を読み出して、ＲＡＭ１０８に展開して実行することで、入出力部１０および音声認識処理部２０にかかる各種の処理を行う。なお、プログラム１１１は、ハードディスク装置１０９に記憶されていなくてもよい。例えば、音声認識装置１が読み取り可能な記憶媒体に記憶されたプログラム１１１を、音声認識装置１が読み出して実行するようにしてもよい。音声認識装置１が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム１１１を記憶させておき、音声認識装置１がこれらからプログラム１１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する音声処理部と、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証する検証部と、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する評価部と、
を有することを特徴とする音声認識装置。

（付記２）前記音声処理部は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする付記１に記載の音声認識装置。

（付記３）前記検証部は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度を検証し、
前記評価部は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記１または２に記載の音声認識装置。

（付記４）入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。

（付記５）前記取得する処理は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする付記４に記載の音声認識プログラム。

（付記６）前記検証する処理は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度を検証し、
前記決定する処理は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記４または５に記載の音声認識プログラム。

（付記７）入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータが実行することを特徴とする音声認識方法。

（付記８）前記取得する処理は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする付記７に記載の音声認識方法。

（付記９）前記検証する処理は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度を検証し、
前記決定する処理は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記７または８に記載の音声認識方法。

１…音声認識装置
１０…入出力部
１１…入力データ
１１ａ…音声ファイル
１１ｂ…説明文
１２…テキストデータ
２０…音声認識処理部
２１…音声処理部
２１ａ…制御部
２１ｂ…音声認識エンジン
２１ｃ…音素管理表
２１ｄ…ジャンル別置換候補生成法表
２１ｅ…置換候補一覧表
２２…文脈検証部
２３…評価部
３０…記憶部
３１…モデル格納部
３１ａ…文脈モデル情報
３１ｂ…フィルタ情報
３２…共通部
３２ａ…文書候補一覧表
３２ｂ…説明文
１０１…ＣＰＵ
１０２…入力装置
１０３…モニタ
１０４…スピーカ
１０５…媒体読取装置
１０６…インタフェース装置
１０７…通信装置
１０８…ＲＡＭ
１０９…ハードディスク装置
１１０…バス
１１１…プログラム
１１２…各種データ
２０１…教師データ
２０２…ニューラルネットワーク定義
２０３…ハイパーパラメタ
２０４…学習済モデル
３０１…テストデータ

Claims

入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する音声処理部と、
取得した複数の前記認識候補と、前記入力音声に対応する、音声の内容を示すメタ情報との類似度を検証する検証部と、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する評価部と、
を有することを特徴とする音声認識装置。
前記音声処理部は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする請求項１に記載の音声認識装置。
前記検証部は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度合いを検証し、
前記評価部は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする請求項１または２に記載の音声認識装置。
入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応する、音声の内容を示すメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。
入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応する、音声の内容を示すメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータが実行することを特徴とする音声認識方法。