JP7102986B2

JP7102986B2 - 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置

Info

Publication number: JP7102986B2
Application number: JP2018127546A
Authority: JP
Inventors: 忍武時田; 祐介 ▲濱▼田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2022-07-20
Anticipated expiration: 2038-07-04
Also published as: JP2020008637A

Description

本発明の実施形態は、音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置に関する。

従来、人が話した言葉を文字として書き起こす技術として、単語等の言語表現の要素の列の条件付出現確率を表す言語モデルを用いて、入力音声に含まれる最尤の言語表現列（単語列等）を認識結果とする音声認識技術が知られている。この音声認識技術では、音声認識の精度を向上するために、話題の分野にそれぞれ対応する言語モデルを使用して入力音声を音声認識処理するよう言語モデルを切り替える従来技術が知られている。

特開２０１３－５０６０５号公報特表２０１４－５２１１５８号公報

しかしながら、上記の従来技術では、事前に想定していない分野の音声に対しては言語モデルが用意されていないため、音声認識の精度が低減することがあるという問題がある。また、様々な分野や新たな単語、表現に対応するためには言語モデルを常に更新していくための手間がかかり、音声認識の精度を向上することは容易なことではなかった。

１つの側面では、容易に音声認識の精度を向上することができる音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置を提供することを目的とする。

第１の案では、音声認識装置は、入力部と、辞書生成部と、音声認識部とを有する。入力部は、音声データと、当該音声データに対応するテキストデータとの入力を受け付ける。辞書生成部は、テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した単語に関連する単語を含む単語辞書を生成する。音声認識部は、音声データから認識した音素と、生成した単語辞書とをもとに、音声データに含まれる音声をテキストに変換する。

本発明の１実施態様によれば、従来よりも容易に音声認識の精度を向上することができる。

図１は、第１実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図２は、第１実施形態にかかる音声認識装置の動作例を示すフローチャートである。図３は、第１実施形態にかかる音声認識装置の動作例を示すフローチャートである。図４は、学習フェーズおよび推論フェーズの動作例を説明する説明図である。図５は、第２実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図６は、第２実施形態にかかる音声認識装置の動作例を示すフローチャートである。図７は、第３実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図８は、第３実施形態にかかる音声認識装置の動作例を示すフローチャートである。図９は、実施形態にかかる音声認識装置のハードウエア構成の一例を示すブロック図である。

以下、図面を参照して、実施形態にかかる音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

（第１実施形態）
図１は、第１実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図１に示すように、音声認識装置１は、音声データを含む入力データの入力を受け付け、音声をテキストに変換した音声認識結果を出力する情報処理装置である。例えば、音声認識装置１は、ＰＣ（パーソナルコンピュータ）などであり、ＬＡＮ（Local Area Network）やインターネット等の通信ネットワーク（図示しない）を介して入力端末２および学習装置３と接続する。

入力端末２は、音声認識に対応する入力データ（入力音声・説明文）、学習モデル４０の学習にかかる大量のテキストデータの音声認識装置１への入力を行う。また、入力端末２は、音声認識装置１から出力された音声認識結果をディスプレイなどに出力する。例えば、入力端末２は、ＰＣなどを適用できる。

音声認識に対応する入力データは、入力音声および説明文を含む。入力音声は、音声認識対象となる音声データである。説明文は、音声データにおける音声の内容を示すテキストデータであり、例えば音声で紹介する内容の紹介文である。

学習装置３は、大量のテキストデータを教師とし、入力された単語について関連する単語を出力するようにニューラルネットワークを用いて学習することで、学習モデル４０を生成する。

学習モデル４０は、ある単語が与えられたとき、その単語に関連する単語を推論するニューラルネットワークについての、各ノードの重みを示すパラメータなどである。推論時（推論フェーズ）は、学習モデル４０を適用したニューラルネットワークを用いることで、所定の単語に関連する単語を得ることができる。

例えば、学習装置３は、ｗｏｒｄ２ｖｅｃによりテキストデータに含まれる単語を単語ベクトルとし、公知のディープラーニング技術によりニューラルネットワークの学習を行う。また、教師とする大量のテキストデータとしては、オンライン辞書などにおける各種分野についての説明文などを適用できる。

具体的には、学習装置３は、ＰＣなどを適用でき、テキスト入力部３０１、形態素解析部３０２および学習処理部３０３を有する。

テキスト入力部３０１は、教師とする大量のテキストデータなどの入力を受け付ける。形態素解析部３０２は、テキスト入力部３０１を介して入力されたテキストの形態素解析を行い、テキストの含まれる単語群を抽出する。学習処理部３０３は、形態素解析により得られた単語群を教師としてディープラーニング技術によりニューラルネットワークを用いて学習し、学習モデル４０を生成する。

なお、本実施形態では音声認識装置１、入力端末２および学習装置３を別々の装置とする場合を例示するが、例えばテキスト入力部３０１、形態素解析部３０２および学習処理部３０３の機能構成は音声認識装置１に実装されてもよく、音声認識装置１単体とする構成であってもよい。また、ユーザは、音声認識装置１を直接操作することで、音声認識に対応する入力データ（入力音声・説明文）の入力や、音声認識結果の出力などを得てもよい。

音声認識装置１は、入出力部１０、制御部２０、動的辞書生成部３０、学習モデル４０および音声認識部５０を有する。

入出力部１０は、入力端末２や学習装置３との間でデータの入出力を行う処理部である。例えば、入出力部１０は、Ｗｅｂサーバなどであり、入力端末２や学習装置３から通信ネットワーク経由で音声認識装置１にアクセスするためのインタフェースを提供する。一例として、入出力部１０は、入力端末２からＷｅｂブラウザによるアクセスを受け付けると、ユーザが操作可能なＷｅｂベージを提供する。このｗｅｂページでは、入力音声、説明文などの入力データの受け付けや、入力データに対する結果（音声認識結果）を出力する手段を提供する。

入出力部１０は、入力端末２におけるユーザの操作により音声認識に対応する入力データ（入力音声・説明文）を受け取り、受け取った入力データを制御部２０へ出力する。また、入出力部１０は、入力端末２におけるユーザの操作により学習モデル４０を作成するためのテキストデータを受け取り、受け取ったテキストデータを学習装置３へ出力する。

制御部２０は、入出力部１０、動的辞書生成部３０および音声認識部５０における処理を制御する。具体的には、制御部２０は、入出力部１０より入力データ（入力音声・説明文）を受け取ると、入力データに含まれる説明文を動的辞書生成部３０に出力して動的辞書生成部３０が生成した単語辞書を受け取る。次いで、制御部２０は、入力データに含まれる入力音声と、動的辞書生成部３０が生成した単語辞書とを音声認識部５０に出力し、音声認識部５０から入力音声の音声認識結果を受け取る。次いで、制御部２０は、入出力部１０を介して受け取った音声認識結果を入力端末２へ出力する。

動的辞書生成部３０は、制御部２０より出力されたテキストデータ（説明文）をもとに、説明文に含まれる単語と関連する単語のそれぞれについて、読みと表記との対応を示す単語辞書を生成して制御部２０へ返す。具体的には、動的辞書生成部３０は、入出力部３１、形態素解析部３２および単号辞書生成部３３を有する。

入出力部３１は、制御部２０との間でデータの入出力を行う処理部である。入出力部３１は、制御部２０より説明文の入力を受け付け、入力された説明文を形態素解析部３２へ出力する。また、入出力部３１は、動的辞書生成部３０が生成した単語辞書を制御部２０へ出力する。

形態素解析部３２は、入出力部３１を介して入力された説明文の形態素解析を行い、説明文の含まれる単語群を抽出する。形態素解析部３２は、説明文より抽出した単語群を単号辞書生成部３３へ出力する。

単号辞書生成部３３は、説明文より抽出した単語群に含まれる単語のそれぞれについて、入力された単語に対して関連する単語を出力するように学習した学習モデル４０をもとに関連する単語を推測して単語辞書を生成する。

具体的には、単号辞書生成部３３は、学習モデル４０のパラメータを適用したニューラルネットワークを用い、説明文より抽出した単語群に含まれる単語のそれぞれから関連する単語を推測する。次いで、単号辞書生成部３３は、各単語についての読み方と表記が記述された辞書データなどを参照し、学習モデル４０を用いて推測した各単語の読みと表記との対応を示す単語辞書を生成する。

音声認識部５０は、制御部２０より出力された入力音声と単語辞書とをもとに音声認識を行い、音声認識結果を制御部２０へ返す。具体的には、音声認識部５０は、音響モデル５１および単語辞書（固定）５２を有する。音響モデル５１は、各音素のモデルとなる波形を示す波形データなどである。単語辞書（固定）５２は、一般的な用語などの所定の単語について、読み方と表記との対応を示す単語辞書である。

音声認識部５０は、音響モデル５１を参照することで、入力音声の波形から人などが発声した音素、すなわち認識対象となる人が発した言葉（読み）を認識する。次いで、音声認識部５０は、入力音声より認識した音素をもとに、単語辞書（固定）５２に動的辞書生成部３０が生成した単語辞書の内容を加えた単語辞書における単語群の中で、音素に近い読みをもつ単語の候補を求める。次いで、音声認識部５０は、求めた単語の候補の中で、確率的に最もあり得る単語を文脈解析などにより選択し、選択した単語を並べたテキストを音声認識結果として出力する。

図２、図３は、第１実施形態にかかる音声認識装置１の動作例を示すフローチャートである。より具体的には、図２は音声認識装置１における動作の概要を示すフローチャートであり、図３は、音声認識装置１における動作（Ｓ１、Ｓ２）の詳細を示すフローチャートである。

図２に示すように、音声認識装置１は、入力端末２からの音声認識に対応する入力データ（入力音声・説明文）を受け付けると、動的辞書生成部３０が説明文をもとに動的辞書の生成を行う（Ｓ１）。具体的には、動的辞書生成部３０は、説明文に含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデル４０をもとに、抽出した単語に関連する単語を含む単語辞書を生成する。すなわち、音声認識装置１は、辞書作成装置の一例である。

次いで、音声認識装置１の音声認識部５０は、入力音声から認識した音素と、動的辞書生成部３０が生成した単語辞書とをもとに、入力音声に含まれる音声をテキストに変換する音声認識を行う（Ｓ２）。

具体的には、図３に示すように、入出力部１０は、入力端末２からの入力データ（入力音声・説明文）を受け付けると、受け付けた入力データを制御部２０へ出力する（Ｓ１０）。

次いで、制御部２０は、入力データにおける説明文を動的辞書生成部３０の入出力部３１へ出力する（Ｓ１１）。入出力部３１は、制御部２０から出力された説明文を形態素解析部３２へ出力する（Ｓ１２）。形態素解析部３２は、入力された説明文について形態素解析を行って単語群を抽出し、抽出した単語群を単号辞書生成部３３へ出力する（Ｓ１３）。

次いで、単号辞書生成部３３は、説明文より抽出した単語群に含まれる単語のそれぞれについて、学習モデル４０をもとに関連する単語を推測して単語辞書を生成し、生成した単語辞書を入出力部３１へ出力する（Ｓ１４）。

次いで、制御部２０は、動的辞書生成部３０が生成した単語辞書（Ｓ１５）と、入力データに含まれる入力音声とを音声認識部５０に出力し（Ｓ１６）、音声認識部５０から入力音声の音声認識結果を受け取る（Ｓ１７）。次いで、制御部２０は、音声認識部５０からの音声認識結果を入出力部１０を介して入力端末２へ出力する（Ｓ１８）。

図４は、学習フェーズおよび推論フェーズの動作例を説明する説明図である。図４に示すように、学習フェーズ（Ｓ１０１）では、教師とする大量のテキストデータＤ２をもとに、所定の単語に対して関連する単語を推論するためのニューラルネットワークの学習が行われ、学習モデル４０が生成される。

推論フェーズ（Ｓ１０２）では、動的辞書生成部３０が学習フェーズ（Ｓ１０１）において事前に生成された学習モデル４０を用いて、説明文に含まれる単語に関連する単語群（単語辞書）を生成する。そして、音声認識部５０では、単語辞書（固定）５２だけでなく、説明文より動的に生成した単語辞書を用いて入力音声の音声認識を行う。

例えば、動的生成辞書無しの場合は、「郵送した選手にインタビュー」などのように誤った認識結果が得られる場合がある。これに対し、音声認識装置１では、動的に生成した単語辞書を音声認識に用いるので、単語辞書（固定）５２を更新する手間を要することなく、「優勝した選手にインタビュー」などのように正しい認識結果を得ることができる。

（第２実施形態）
図５は、第２実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図５に示すように、音声認識装置１ａは、インターネットなどにおける辞書サイトなどのビックデータＤ３に対して検索を行う検索部６０を更に有する構成である。

図６は、第２実施形態にかかる音声認識装置１ａの動作例を示すフローチャートである。図６に示すように、音声認識装置１ａは、入力端末２からの音声認識に対応する入力データ（入力音声・説明文）を受け付けると、動的辞書生成部３０が説明文をもとに動的辞書の生成を行う（Ｓ１）。

また、制御部２０は、入出力部１０より入力データ（入力音声・説明文）を受け取ると、入力データに含まれる説明文を検索部６０に出力する。検索部６０は、制御部２０から説明文を受け取ると、説明文に含まれる単語を用いてビックデータＤ３の検索を行う（Ｓ１ａ）。これにより、検索部６０は、説明文に含まれる単語と関連する単語の単語辞書を生成する。次いで、検索部６０は、生成した単語辞書を制御部２０へ出力する。

次いで、制御部２０は、動的辞書生成部３０が生成した単語辞書に検索部６０が生成した単語辞書を加えて、単語辞書を拡充した上で、入力音声とともに単語辞書を音声認識部５０へ出力する。次いで、音声認識部５０は、入力音声から認識した音素と、単語辞書とをもとに、入力音声に含まれる音声をテキストに変換する音声認識を行う（Ｓ２）。

このように、ビックデータＤ３を検索して単語辞書を拡充することで、音声認識装置１ａは、教師とするテキストデータＤ２に含まれていない単語をビックデータＤ３より新たに追加することができ、より精度の高い音声認識を実現することができる。

（第３実施形態）
図７は、第３実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図７に示すように、音声認識装置１ｂは、ＩＤＦデータ７０（IDF：Inverse Document Frequency）などの各単語の出現頻度を示す頻度情報をもとに、単語辞書に含まれる単語の優先度を設定する優先度制御部２１を有する。

ＩＤＦデータ７０は、複数の文書の単語数をカウントし、各単語の出現頻度を示すものであり、例えば複数の文書から事前に計算した各単語の出現頻度の計算結果などであってもよい。

図８は、第３実施形態にかかる音声認識装置１ｂの動作例を示すフローチャートである。図８に示すように、音声認識装置１ｂは、入力端末２からの音声認識に対応する入力データ（入力音声・説明文）を受け付けると、動的辞書生成部３０が説明文をもとに動的辞書の生成を行う（Ｓ１）。

次いで、優先度制御部２１は、動的辞書生成部３０が生成した単語辞書に含まれる単語について、ＩＤＦデータ７０を参照して優先度（重要度）を計算する（Ｓ１ｂ）。具体的には、優先度制御部２１は、動的辞書生成部３０が生成した単語辞書に含まれる単語それぞれについて、ＩＤＦを比較して出現頻度に応じた優先度を計算する。例えば、優先度制御部２１は、出現頻度が高い単語はよく使われる一般的な単語である可能性が高いため、単語辞書（固定）５２の単語よりも優先度を低くする。

また、出現頻度が低い単語（例えば単語辞書（固定）５２の単語よりも出現頻度が低い単語）は、一般的な単語ではなく、限られた話題で使われる単語（例えば専門用語）である可能性が高い。優先度制御部２１は、このような専門用語を優先するように、所定の単語より出現頻度が低い単語の優先度を所定の単語の優先度より高くする。

例えば、優先度制御部２１は、ＩＤＦデータ７０を参照して動的辞書生成部３０が生成した単語辞書に含まれる単語をＩＤＦ順に列挙する。次いで、優先度制御部２１は、ＩＤＦの閾値を定義し、その閾値以上の単語は優先度を高くし、閾値以下の単語は優先度を低くする。次いで、優先度制御部２１は、計算した優先度順に動的辞書生成部３０が生成した単語辞書の単語を並べ直すことで、単語辞書の編集を行う（Ｓ１ｃ）。

次いで、制御部２０は、入力音声とともに編集後の単語辞書を音声認識部５０へ出力する。次いで、音声認識部５０は、入力音声から認識した音素と、単語辞書とをもとに、入力音声に含まれる音声をテキストに変換する音声認識を行う（Ｓ２）。具体的には、音声認識部５０は、編集後の単語辞書の並び順に従って単語を選択し、音声認識を行う。

このように、音声認識装置１ｂは、動的辞書生成部３０により生成された単語辞書の単語について、出現頻度に応じた優先度を設定して音声認識に用いることで、例えば話題に特化した単語や専門用語をより優先的に音声認識に用いるようにすることができる。

以上のように、音声認識装置１は、入出力部１０、動的辞書生成部３０および音声認識部５０を有する。入出力部１０は、入力端末２などから音声データと、音声データに対応するテキストデータとの入力を受け付ける。動的辞書生成部３０は、テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデル４０をもとに、抽出した単語に関連する単語を含む単語辞書を生成する。音声認識部５０は、音声データから認識した音素と、生成した単語辞書とをもとに、音声データに含まれる音声をテキストに変換する。

このように、音声認識装置１は、音声データに対応するテキストデータに含まれる単語と関連する単語の単語辞書を生成して音声認識に用いるため、例えば様々な分野や新たな単語、表現に容易に対応でき、音声認識の精度を向上させることができる。

また、音声認識装置１の音声認識部５０は、予め設定された単語辞書（固定）５２に動的辞書生成部３０が生成した単語辞書を加えた辞書に含まれる単語群の中から入力音声の音素に対応する単語を抽出して音声をテキストに変換する。このように、音声認識装置１は、事前に登録した単語と、テキストデータより新たに追加した単語とをもとに音声認識を行うので、事前に登録した単語、表現とともに新たな単語、表現にも対応でき、音声認識の精度を向上させることができる。

また、音声認識装置１ａは、ビックデータＤ３などの外部データにアクセスして音声データの説明文などのテキストデータに含まれる単語に関連する単語を検索する検索部６０を有する。音声認識装置１ａの音声認識部５０は、動的辞書生成部３０が生成した単語辞書に検索した単語を加えた辞書に含まれる単語群の中から入力音声の音素に対応する単語を抽出して音声をテキストに変換する。このように、音声認識装置１ａは、テキストデータより生成した単語辞書と、外部データより検索した単語とをもとに音声認識を行うので、外部データによる新たな単語、表現にも対応でき、音声認識の精度を向上させることができる。

また、音声認識装置１ｂは、各単語の出現頻度を示すＩＤＦデータ７０などをもとに、動的辞書生成部３０が生成した単語辞書に含まれる単語の優先度を設定する優先度制御部２１を有する。音声認識装置１ｂの音声認識部５０は、優先度制御部２１により設定された優先度に基づき、単語辞書の中からテキストへの変換に用いる単語を選択する。このように、音声認識装置１ｂは、各単語の出現頻度に対応した音声認識を行うことで、音声認識の精度を向上させることができる。

また、音声認識装置１ｂの優先度制御部２１は、単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する。例えば、出現頻度が低い単語は、一般的な単語ではなく、限られた話題で使われる単語（例えば専門用語）である可能性が高い場合がある。したがって、音声認識装置１ｂは、出現頻度がより低い単語の優先度を高く設定して音声認識に用いられるようにすることで、話題に対応した音声認識を精度よく行うことが可能となる。

音声認識装置１、１ａ、１ｂで行われる各種処理機能は、演算処理装置としてのＣＰＵ（Central Processing Unit）（またはＭＰＵ（Micro Processing Unit）、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、音声認識装置１、１ａ、１ｂで行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ（ハードウエア）の一例を説明する。図９は、実施形態にかかる音声認識装置１のハードウエア構成の一例を示すブロック図である。なお、音声認識装置１ａ、１ｂのハードウエア構成については、音声認識装置１と同様であるため説明を省略する。

図９に示すように、音声認識装置１は、各種演算処理を実行するＣＰＵ１０１と、データ入力を受け付ける入力装置１０２と、モニタ１０３と、スピーカ１０４とを有する。また、音声認識装置１は、記憶媒体からプログラム等を読み取る媒体読取装置１０５と、各種装置と接続するためのインタフェース装置１０６と、有線または無線により外部機器と通信接続するための通信装置１０７とを有する。また、音声認識装置１は、各種情報を一時記憶するＲＡＭ１０８と、ハードディスク装置１０９とを有する。また、音声認識装置１内の各部（１０１～１０９）は、バス１１０に接続される。

ハードディスク装置１０９には、上記の実施形態で説明した入出力部１０、制御部２０、動的辞書生成部３０、学習モデル４０、音声認識部５０、検索部６０等における各種の処理を実行するためのプログラム１１１が記憶される。また、ハードディスク装置１０９には、プログラム１１１が参照する各種データ１１２が記憶される。入力装置１０２は、例えば、音声認識装置１の操作者から操作情報の入力を受け付ける。モニタ１０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置１０６は、例えば印刷装置等が接続される。通信装置１０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ１０１は、ハードディスク装置１０９に記憶されたプログラム１１１を読み出して、ＲＡＭ１０８に展開して実行することで、入出力部１０、制御部２０、動的辞書生成部３０、学習モデル４０、音声認識部５０、検索部６０等における各種の処理を行う。なお、プログラム１１１は、ハードディスク装置１０９に記憶されていなくてもよい。例えば、音声認識装置１が読み取り可能な記憶媒体に記憶されたプログラム１１１を、音声認識装置１が読み出して実行するようにしてもよい。音声認識装置１が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラムを記憶させておき、音声認識装置１がこれらからプログラムを読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成する辞書生成部と、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する音声認識部と、
を有することを特徴とする音声認識装置。

（付記２）前記音声認識部は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記１に記載の音声認識装置。

（付記３）外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する検索部を更に有し、
前記音声認識部は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する（図６）、
ことを特徴とする付記１に記載の音声認識装置。

（付記４）各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の優先度を設定する設定部を更に有し、
前記音声認識部は、設定された前記優先度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする付記１乃至３のいずれか一に記載の音声認識装置。

（付記５）前記設定部は、前記単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する、
ことを特徴とする付記４に記載の音声認識装置。

（付記６）音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。

（付記７）前記変換する処理は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記６に記載の音声認識プログラム。

（付記８）外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する処理を更にコンピュータに実行させ、
前記変換する処理は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記６に記載の音声認識プログラム。

（付記９）各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の優先度を設定する処理を更にコンピュータに実行させ、
前記変換する処理は、設定された前記優先度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする付記６乃至８のいずれか一に記載の音声認識プログラム。

（付記１０）前記設定する処理は、前記単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する、
ことを特徴とする付記９に記載の音声認識プログラム。

（付記１１）音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する、
処理をコンピュータが実行することを特徴とする音声認識方法。

（付記１２）前記変換する処理は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記１１に記載の音声認識方法。

（付記１３）外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する処理を更にコンピュータに実行させ、
前記変換する処理は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記１１に記載の音声認識方法。

（付記１４）各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の優先度を設定する処理を更にコンピュータに実行させ、
前記変換する処理は、設定された前記優先度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする付記１１乃至１３のいずれか一に記載の音声認識方法。

（付記１５）前記設定する処理は、前記単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する、
ことを特徴とする付記１４に記載の音声認識方法。

（付記１６）音声認識の対象とする音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む、前記音声認識に用いる単語辞書を生成する辞書生成部と、
を有することを特徴とする辞書作成装置。

１、１ａ、１ｂ…音声認識装置
２…入力端末
３…学習装置
１０…入出力部
２０…制御部
２１…優先度制御部
３０…動的辞書生成部
３１…入出力部
３２…形態素解析部
３３…単号辞書生成部
４０…学習モデル
５０…音声認識部
５１…音響モデル
５２…単語辞書（固定）
６０…検索部
７０…ＩＤＦデータ
１０１…ＣＰＵ
１０２…入力装置
１０３…モニタ
１０４…スピーカ
１０５…媒体読取装置
１０６…インタフェース装置
１０７…通信装置
１０８…ＲＡＭ
１０９…ハードディスク装置
１１０…バス
１１１…プログラム
１１２…各種データ
３０１…テキスト入力部
３０２…形態素解析部
３０３…学習処理部
２４…Ｉ／Ｆ部
Ｄ１…入力データ
Ｄ２…テキストデータ
Ｄ３…ビックデータ

Claims

音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成する辞書生成部と、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する音声認識部と、
各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の重要度を設定する設定部と、を有し、
前記設定部は、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高く設定し、
前記音声認識部は、設定された前記重要度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする音声認識装置。
前記音声認識部は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする請求項１に記載の音声認識装置。
外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する検索部を更に有し、
前記音声認識部は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする請求項１に記載の音声認識装置。
音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高くなるように、前記単語辞書に含まれる単語の重要度を設定し、
前記音声データから認識した音素と、生成した前記単語辞書と、設定された前記重要度と、をもとに、前記単語辞書の中からテキストへの変換に用いる単語を選択し、前記音声データに含まれる音声をテキストに変換する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。
音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高くなるように、前記単語辞書に含まれる単語の重要度を設定し、
前記音声データから認識した音素と、生成した前記単語辞書と、設定された前記重要度と、をもとに、前記単語辞書の中からテキストへの変換に用いる単語を選択し、前記音声データに含まれる音声をテキストに変換する、
処理をコンピュータが実行することを特徴とする音声認識方法。
音声認識の対象とする音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む、前記音声認識に用いる単語辞書を生成する辞書生成部と、
各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の重要度を設定する設定部と、を有し、
前記設定部は、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高く設定する、
ことを特徴とする辞書作成装置。