JP7102986B2 - 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置 - Google Patents

音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置 Download PDF

Info

Publication number
JP7102986B2
JP7102986B2 JP2018127546A JP2018127546A JP7102986B2 JP 7102986 B2 JP7102986 B2 JP 7102986B2 JP 2018127546 A JP2018127546 A JP 2018127546A JP 2018127546 A JP2018127546 A JP 2018127546A JP 7102986 B2 JP7102986 B2 JP 7102986B2
Authority
JP
Japan
Prior art keywords
word
words
voice
dictionary
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018127546A
Other languages
English (en)
Other versions
JP2020008637A (ja
Inventor
忍武 時田
祐介 ▲濱▼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018127546A priority Critical patent/JP7102986B2/ja
Publication of JP2020008637A publication Critical patent/JP2020008637A/ja
Application granted granted Critical
Publication of JP7102986B2 publication Critical patent/JP7102986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明の実施形態は、音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置に関する。
従来、人が話した言葉を文字として書き起こす技術として、単語等の言語表現の要素の列の条件付出現確率を表す言語モデルを用いて、入力音声に含まれる最尤の言語表現列(単語列等)を認識結果とする音声認識技術が知られている。この音声認識技術では、音声認識の精度を向上するために、話題の分野にそれぞれ対応する言語モデルを使用して入力音声を音声認識処理するよう言語モデルを切り替える従来技術が知られている。
特開2013-50605号公報 特表2014-521158号公報
しかしながら、上記の従来技術では、事前に想定していない分野の音声に対しては言語モデルが用意されていないため、音声認識の精度が低減することがあるという問題がある。また、様々な分野や新たな単語、表現に対応するためには言語モデルを常に更新していくための手間がかかり、音声認識の精度を向上することは容易なことではなかった。
1つの側面では、容易に音声認識の精度を向上することができる音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置を提供することを目的とする。
第1の案では、音声認識装置は、入力部と、辞書生成部と、音声認識部とを有する。入力部は、音声データと、当該音声データに対応するテキストデータとの入力を受け付ける。辞書生成部は、テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した単語に関連する単語を含む単語辞書を生成する。音声認識部は、音声データから認識した音素と、生成した単語辞書とをもとに、音声データに含まれる音声をテキストに変換する。
本発明の1実施態様によれば、従来よりも容易に音声認識の精度を向上することができる。
図1は、第1実施形態にかかる音声認識装置の機能構成例を示すブロック図である。 図2は、第1実施形態にかかる音声認識装置の動作例を示すフローチャートである。 図3は、第1実施形態にかかる音声認識装置の動作例を示すフローチャートである。 図4は、学習フェーズおよび推論フェーズの動作例を説明する説明図である。 図5は、第2実施形態にかかる音声認識装置の機能構成例を示すブロック図である。 図6は、第2実施形態にかかる音声認識装置の動作例を示すフローチャートである。 図7は、第3実施形態にかかる音声認識装置の機能構成例を示すブロック図である。 図8は、第3実施形態にかかる音声認識装置の動作例を示すフローチャートである。 図9は、実施形態にかかる音声認識装置のハードウエア構成の一例を示すブロック図である。
以下、図面を参照して、実施形態にかかる音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
(第1実施形態)
図1は、第1実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図1に示すように、音声認識装置1は、音声データを含む入力データの入力を受け付け、音声をテキストに変換した音声認識結果を出力する情報処理装置である。例えば、音声認識装置1は、PC(パーソナルコンピュータ)などであり、LAN(Local Area Network)やインターネット等の通信ネットワーク(図示しない)を介して入力端末2および学習装置3と接続する。
入力端末2は、音声認識に対応する入力データ(入力音声・説明文)、学習モデル40の学習にかかる大量のテキストデータの音声認識装置1への入力を行う。また、入力端末2は、音声認識装置1から出力された音声認識結果をディスプレイなどに出力する。例えば、入力端末2は、PCなどを適用できる。
音声認識に対応する入力データは、入力音声および説明文を含む。入力音声は、音声認識対象となる音声データである。説明文は、音声データにおける音声の内容を示すテキストデータであり、例えば音声で紹介する内容の紹介文である。
学習装置3は、大量のテキストデータを教師とし、入力された単語について関連する単語を出力するようにニューラルネットワークを用いて学習することで、学習モデル40を生成する。
学習モデル40は、ある単語が与えられたとき、その単語に関連する単語を推論するニューラルネットワークについての、各ノードの重みを示すパラメータなどである。推論時(推論フェーズ)は、学習モデル40を適用したニューラルネットワークを用いることで、所定の単語に関連する単語を得ることができる。
例えば、学習装置3は、word2vecによりテキストデータに含まれる単語を単語ベクトルとし、公知のディープラーニング技術によりニューラルネットワークの学習を行う。また、教師とする大量のテキストデータとしては、オンライン辞書などにおける各種分野についての説明文などを適用できる。
具体的には、学習装置3は、PCなどを適用でき、テキスト入力部301、形態素解析部302および学習処理部303を有する。
テキスト入力部301は、教師とする大量のテキストデータなどの入力を受け付ける。形態素解析部302は、テキスト入力部301を介して入力されたテキストの形態素解析を行い、テキストの含まれる単語群を抽出する。学習処理部303は、形態素解析により得られた単語群を教師としてディープラーニング技術によりニューラルネットワークを用いて学習し、学習モデル40を生成する。
なお、本実施形態では音声認識装置1、入力端末2および学習装置3を別々の装置とする場合を例示するが、例えばテキスト入力部301、形態素解析部302および学習処理部303の機能構成は音声認識装置1に実装されてもよく、音声認識装置1単体とする構成であってもよい。また、ユーザは、音声認識装置1を直接操作することで、音声認識に対応する入力データ(入力音声・説明文)の入力や、音声認識結果の出力などを得てもよい。
音声認識装置1は、入出力部10、制御部20、動的辞書生成部30、学習モデル40および音声認識部50を有する。
入出力部10は、入力端末2や学習装置3との間でデータの入出力を行う処理部である。例えば、入出力部10は、Webサーバなどであり、入力端末2や学習装置3から通信ネットワーク経由で音声認識装置1にアクセスするためのインタフェースを提供する。一例として、入出力部10は、入力端末2からWebブラウザによるアクセスを受け付けると、ユーザが操作可能なWebベージを提供する。このwebページでは、入力音声、説明文などの入力データの受け付けや、入力データに対する結果(音声認識結果)を出力する手段を提供する。
入出力部10は、入力端末2におけるユーザの操作により音声認識に対応する入力データ(入力音声・説明文)を受け取り、受け取った入力データを制御部20へ出力する。また、入出力部10は、入力端末2におけるユーザの操作により学習モデル40を作成するためのテキストデータを受け取り、受け取ったテキストデータを学習装置3へ出力する。
制御部20は、入出力部10、動的辞書生成部30および音声認識部50における処理を制御する。具体的には、制御部20は、入出力部10より入力データ(入力音声・説明文)を受け取ると、入力データに含まれる説明文を動的辞書生成部30に出力して動的辞書生成部30が生成した単語辞書を受け取る。次いで、制御部20は、入力データに含まれる入力音声と、動的辞書生成部30が生成した単語辞書とを音声認識部50に出力し、音声認識部50から入力音声の音声認識結果を受け取る。次いで、制御部20は、入出力部10を介して受け取った音声認識結果を入力端末2へ出力する。
動的辞書生成部30は、制御部20より出力されたテキストデータ(説明文)をもとに、説明文に含まれる単語と関連する単語のそれぞれについて、読みと表記との対応を示す単語辞書を生成して制御部20へ返す。具体的には、動的辞書生成部30は、入出力部31、形態素解析部32および単号辞書生成部33を有する。
入出力部31は、制御部20との間でデータの入出力を行う処理部である。入出力部31は、制御部20より説明文の入力を受け付け、入力された説明文を形態素解析部32へ出力する。また、入出力部31は、動的辞書生成部30が生成した単語辞書を制御部20へ出力する。
形態素解析部32は、入出力部31を介して入力された説明文の形態素解析を行い、説明文の含まれる単語群を抽出する。形態素解析部32は、説明文より抽出した単語群を単号辞書生成部33へ出力する。
単号辞書生成部33は、説明文より抽出した単語群に含まれる単語のそれぞれについて、入力された単語に対して関連する単語を出力するように学習した学習モデル40をもとに関連する単語を推測して単語辞書を生成する。
具体的には、単号辞書生成部33は、学習モデル40のパラメータを適用したニューラルネットワークを用い、説明文より抽出した単語群に含まれる単語のそれぞれから関連する単語を推測する。次いで、単号辞書生成部33は、各単語についての読み方と表記が記述された辞書データなどを参照し、学習モデル40を用いて推測した各単語の読みと表記との対応を示す単語辞書を生成する。
音声認識部50は、制御部20より出力された入力音声と単語辞書とをもとに音声認識を行い、音声認識結果を制御部20へ返す。具体的には、音声認識部50は、音響モデル51および単語辞書(固定)52を有する。音響モデル51は、各音素のモデルとなる波形を示す波形データなどである。単語辞書(固定)52は、一般的な用語などの所定の単語について、読み方と表記との対応を示す単語辞書である。
音声認識部50は、音響モデル51を参照することで、入力音声の波形から人などが発声した音素、すなわち認識対象となる人が発した言葉(読み)を認識する。次いで、音声認識部50は、入力音声より認識した音素をもとに、単語辞書(固定)52に動的辞書生成部30が生成した単語辞書の内容を加えた単語辞書における単語群の中で、音素に近い読みをもつ単語の候補を求める。次いで、音声認識部50は、求めた単語の候補の中で、確率的に最もあり得る単語を文脈解析などにより選択し、選択した単語を並べたテキストを音声認識結果として出力する。
図2、図3は、第1実施形態にかかる音声認識装置1の動作例を示すフローチャートである。より具体的には、図2は音声認識装置1における動作の概要を示すフローチャートであり、図3は、音声認識装置1における動作(S1、S2)の詳細を示すフローチャートである。
図2に示すように、音声認識装置1は、入力端末2からの音声認識に対応する入力データ(入力音声・説明文)を受け付けると、動的辞書生成部30が説明文をもとに動的辞書の生成を行う(S1)。具体的には、動的辞書生成部30は、説明文に含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデル40をもとに、抽出した単語に関連する単語を含む単語辞書を生成する。すなわち、音声認識装置1は、辞書作成装置の一例である。
次いで、音声認識装置1の音声認識部50は、入力音声から認識した音素と、動的辞書生成部30が生成した単語辞書とをもとに、入力音声に含まれる音声をテキストに変換する音声認識を行う(S2)。
具体的には、図3に示すように、入出力部10は、入力端末2からの入力データ(入力音声・説明文)を受け付けると、受け付けた入力データを制御部20へ出力する(S10)。
次いで、制御部20は、入力データにおける説明文を動的辞書生成部30の入出力部31へ出力する(S11)。入出力部31は、制御部20から出力された説明文を形態素解析部32へ出力する(S12)。形態素解析部32は、入力された説明文について形態素解析を行って単語群を抽出し、抽出した単語群を単号辞書生成部33へ出力する(S13)。
次いで、単号辞書生成部33は、説明文より抽出した単語群に含まれる単語のそれぞれについて、学習モデル40をもとに関連する単語を推測して単語辞書を生成し、生成した単語辞書を入出力部31へ出力する(S14)。
次いで、制御部20は、動的辞書生成部30が生成した単語辞書(S15)と、入力データに含まれる入力音声とを音声認識部50に出力し(S16)、音声認識部50から入力音声の音声認識結果を受け取る(S17)。次いで、制御部20は、音声認識部50からの音声認識結果を入出力部10を介して入力端末2へ出力する(S18)。
図4は、学習フェーズおよび推論フェーズの動作例を説明する説明図である。図4に示すように、学習フェーズ(S101)では、教師とする大量のテキストデータD2をもとに、所定の単語に対して関連する単語を推論するためのニューラルネットワークの学習が行われ、学習モデル40が生成される。
推論フェーズ(S102)では、動的辞書生成部30が学習フェーズ(S101)において事前に生成された学習モデル40を用いて、説明文に含まれる単語に関連する単語群(単語辞書)を生成する。そして、音声認識部50では、単語辞書(固定)52だけでなく、説明文より動的に生成した単語辞書を用いて入力音声の音声認識を行う。
例えば、動的生成辞書無しの場合は、「郵送した選手にインタビュー」などのように誤った認識結果が得られる場合がある。これに対し、音声認識装置1では、動的に生成した単語辞書を音声認識に用いるので、単語辞書(固定)52を更新する手間を要することなく、「優勝した選手にインタビュー」などのように正しい認識結果を得ることができる。
(第2実施形態)
図5は、第2実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図5に示すように、音声認識装置1aは、インターネットなどにおける辞書サイトなどのビックデータD3に対して検索を行う検索部60を更に有する構成である。
図6は、第2実施形態にかかる音声認識装置1aの動作例を示すフローチャートである。図6に示すように、音声認識装置1aは、入力端末2からの音声認識に対応する入力データ(入力音声・説明文)を受け付けると、動的辞書生成部30が説明文をもとに動的辞書の生成を行う(S1)。
また、制御部20は、入出力部10より入力データ(入力音声・説明文)を受け取ると、入力データに含まれる説明文を検索部60に出力する。検索部60は、制御部20から説明文を受け取ると、説明文に含まれる単語を用いてビックデータD3の検索を行う(S1a)。これにより、検索部60は、説明文に含まれる単語と関連する単語の単語辞書を生成する。次いで、検索部60は、生成した単語辞書を制御部20へ出力する。
次いで、制御部20は、動的辞書生成部30が生成した単語辞書に検索部60が生成した単語辞書を加えて、単語辞書を拡充した上で、入力音声とともに単語辞書を音声認識部50へ出力する。次いで、音声認識部50は、入力音声から認識した音素と、単語辞書とをもとに、入力音声に含まれる音声をテキストに変換する音声認識を行う(S2)。
このように、ビックデータD3を検索して単語辞書を拡充することで、音声認識装置1aは、教師とするテキストデータD2に含まれていない単語をビックデータD3より新たに追加することができ、より精度の高い音声認識を実現することができる。
(第3実施形態)
図7は、第3実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図7に示すように、音声認識装置1bは、IDFデータ70(IDF:Inverse Document Frequency)などの各単語の出現頻度を示す頻度情報をもとに、単語辞書に含まれる単語の優先度を設定する優先度制御部21を有する。
IDFデータ70は、複数の文書の単語数をカウントし、各単語の出現頻度を示すものであり、例えば複数の文書から事前に計算した各単語の出現頻度の計算結果などであってもよい。
図8は、第3実施形態にかかる音声認識装置1bの動作例を示すフローチャートである。図8に示すように、音声認識装置1bは、入力端末2からの音声認識に対応する入力データ(入力音声・説明文)を受け付けると、動的辞書生成部30が説明文をもとに動的辞書の生成を行う(S1)。
次いで、優先度制御部21は、動的辞書生成部30が生成した単語辞書に含まれる単語について、IDFデータ70を参照して優先度(重要度)を計算する(S1b)。具体的には、優先度制御部21は、動的辞書生成部30が生成した単語辞書に含まれる単語それぞれについて、IDFを比較して出現頻度に応じた優先度を計算する。例えば、優先度制御部21は、出現頻度が高い単語はよく使われる一般的な単語である可能性が高いため、単語辞書(固定)52の単語よりも優先度を低くする。
また、出現頻度が低い単語(例えば単語辞書(固定)52の単語よりも出現頻度が低い単語)は、一般的な単語ではなく、限られた話題で使われる単語(例えば専門用語)である可能性が高い。優先度制御部21は、このような専門用語を優先するように、所定の単語より出現頻度が低い単語の優先度を所定の単語の優先度より高くする。
例えば、優先度制御部21は、IDFデータ70を参照して動的辞書生成部30が生成した単語辞書に含まれる単語をIDF順に列挙する。次いで、優先度制御部21は、IDFの閾値を定義し、その閾値以上の単語は優先度を高くし、閾値以下の単語は優先度を低くする。次いで、優先度制御部21は、計算した優先度順に動的辞書生成部30が生成した単語辞書の単語を並べ直すことで、単語辞書の編集を行う(S1c)。
次いで、制御部20は、入力音声とともに編集後の単語辞書を音声認識部50へ出力する。次いで、音声認識部50は、入力音声から認識した音素と、単語辞書とをもとに、入力音声に含まれる音声をテキストに変換する音声認識を行う(S2)。具体的には、音声認識部50は、編集後の単語辞書の並び順に従って単語を選択し、音声認識を行う。
このように、音声認識装置1bは、動的辞書生成部30により生成された単語辞書の単語について、出現頻度に応じた優先度を設定して音声認識に用いることで、例えば話題に特化した単語や専門用語をより優先的に音声認識に用いるようにすることができる。
以上のように、音声認識装置1は、入出力部10、動的辞書生成部30および音声認識部50を有する。入出力部10は、入力端末2などから音声データと、音声データに対応するテキストデータとの入力を受け付ける。動的辞書生成部30は、テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデル40をもとに、抽出した単語に関連する単語を含む単語辞書を生成する。音声認識部50は、音声データから認識した音素と、生成した単語辞書とをもとに、音声データに含まれる音声をテキストに変換する。
このように、音声認識装置1は、音声データに対応するテキストデータに含まれる単語と関連する単語の単語辞書を生成して音声認識に用いるため、例えば様々な分野や新たな単語、表現に容易に対応でき、音声認識の精度を向上させることができる。
また、音声認識装置1の音声認識部50は、予め設定された単語辞書(固定)52に動的辞書生成部30が生成した単語辞書を加えた辞書に含まれる単語群の中から入力音声の音素に対応する単語を抽出して音声をテキストに変換する。このように、音声認識装置1は、事前に登録した単語と、テキストデータより新たに追加した単語とをもとに音声認識を行うので、事前に登録した単語、表現とともに新たな単語、表現にも対応でき、音声認識の精度を向上させることができる。
また、音声認識装置1aは、ビックデータD3などの外部データにアクセスして音声データの説明文などのテキストデータに含まれる単語に関連する単語を検索する検索部60を有する。音声認識装置1aの音声認識部50は、動的辞書生成部30が生成した単語辞書に検索した単語を加えた辞書に含まれる単語群の中から入力音声の音素に対応する単語を抽出して音声をテキストに変換する。このように、音声認識装置1aは、テキストデータより生成した単語辞書と、外部データより検索した単語とをもとに音声認識を行うので、外部データによる新たな単語、表現にも対応でき、音声認識の精度を向上させることができる。
また、音声認識装置1bは、各単語の出現頻度を示すIDFデータ70などをもとに、動的辞書生成部30が生成した単語辞書に含まれる単語の優先度を設定する優先度制御部21を有する。音声認識装置1bの音声認識部50は、優先度制御部21により設定された優先度に基づき、単語辞書の中からテキストへの変換に用いる単語を選択する。このように、音声認識装置1bは、各単語の出現頻度に対応した音声認識を行うことで、音声認識の精度を向上させることができる。
また、音声認識装置1bの優先度制御部21は、単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する。例えば、出現頻度が低い単語は、一般的な単語ではなく、限られた話題で使われる単語(例えば専門用語)である可能性が高い場合がある。したがって、音声認識装置1bは、出現頻度がより低い単語の優先度を高く設定して音声認識に用いられるようにすることで、話題に対応した音声認識を精度よく行うことが可能となる。
音声認識装置1、1a、1bで行われる各種処理機能は、演算処理装置としてのCPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、音声認識装置1、1a、1bで行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウエア)の一例を説明する。図9は、実施形態にかかる音声認識装置1のハードウエア構成の一例を示すブロック図である。なお、音声認識装置1a、1bのハードウエア構成については、音声認識装置1と同様であるため説明を省略する。
図9に示すように、音声認識装置1は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、音声認識装置1は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、音声認識装置1は、各種情報を一時記憶するRAM108と、ハードディスク装置109とを有する。また、音声認識装置1内の各部(101~109)は、バス110に接続される。
ハードディスク装置109には、上記の実施形態で説明した入出力部10、制御部20、動的辞書生成部30、学習モデル40、音声認識部50、検索部60等における各種の処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する各種データ112が記憶される。入力装置102は、例えば、音声認識装置1の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、入出力部10、制御部20、動的辞書生成部30、学習モデル40、音声認識部50、検索部60等における各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、音声認識装置1が読み取り可能な記憶媒体に記憶されたプログラム111を、音声認識装置1が読み出して実行するようにしてもよい。音声認識装置1が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラムを記憶させておき、音声認識装置1がこれらからプログラムを読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成する辞書生成部と、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する音声認識部と、
を有することを特徴とする音声認識装置。
(付記2)前記音声認識部は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記1に記載の音声認識装置。
(付記3)外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する検索部を更に有し、
前記音声認識部は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する(図6)、
ことを特徴とする付記1に記載の音声認識装置。
(付記4)各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の優先度を設定する設定部を更に有し、
前記音声認識部は、設定された前記優先度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする付記1乃至3のいずれか一に記載の音声認識装置。
(付記5)前記設定部は、前記単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する、
ことを特徴とする付記4に記載の音声認識装置。
(付記6)音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。
(付記7)前記変換する処理は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記6に記載の音声認識プログラム。
(付記8)外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する処理を更にコンピュータに実行させ、
前記変換する処理は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記6に記載の音声認識プログラム。
(付記9)各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の優先度を設定する処理を更にコンピュータに実行させ、
前記変換する処理は、設定された前記優先度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする付記6乃至8のいずれか一に記載の音声認識プログラム。
(付記10)前記設定する処理は、前記単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する、
ことを特徴とする付記9に記載の音声認識プログラム。
(付記11)音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する、
処理をコンピュータが実行することを特徴とする音声認識方法。
(付記12)前記変換する処理は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記11に記載の音声認識方法。
(付記13)外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する処理を更にコンピュータに実行させ、
前記変換する処理は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
ことを特徴とする付記11に記載の音声認識方法。
(付記14)各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の優先度を設定する処理を更にコンピュータに実行させ、
前記変換する処理は、設定された前記優先度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
ことを特徴とする付記11乃至13のいずれか一に記載の音声認識方法。
(付記15)前記設定する処理は、前記単語辞書に含まれる単語の中で、出現頻度がより低い単語の優先度をより高く設定する、
ことを特徴とする付記14に記載の音声認識方法。
(付記16)音声認識の対象とする音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む、前記音声認識に用いる単語辞書を生成する辞書生成部と、
を有することを特徴とする辞書作成装置。
1、1a、1b…音声認識装置
2…入力端末
3…学習装置
10…入出力部
20…制御部
21…優先度制御部
30…動的辞書生成部
31…入出力部
32…形態素解析部
33…単号辞書生成部
40…学習モデル
50…音声認識部
51…音響モデル
52…単語辞書(固定)
60…検索部
70…IDFデータ
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
301…テキスト入力部
302…形態素解析部
303…学習処理部
24…I/F部
D1…入力データ
D2…テキストデータ
D3…ビックデータ

Claims (6)

  1. 音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
    前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成する辞書生成部と、
    前記音声データから認識した音素と、生成した前記単語辞書とをもとに、前記音声データに含まれる音声をテキストに変換する音声認識部と、
    各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の重要度を設定する設定部と、を有し、
    前記設定部は、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高く設定し、
    前記音声認識部は、設定された前記重要度に基づき、前記単語辞書の中からテキストへの変換に用いる単語を選択する、
    ことを特徴とする音声認識装置。
  2. 前記音声認識部は、所定の単語辞書に生成した前記単語辞書を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 外部データにアクセスして前記テキストデータに含まれる単語に関連する単語を検索する検索部を更に有し、
    前記音声認識部は、生成した前記単語辞書に検索した単語を加えた辞書に含まれる単語群の中から前記音素に対応する単語を抽出して前記音声をテキストに変換する、
    ことを特徴とする請求項1に記載の音声認識装置。
  4. 音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
    前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
    各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高くなるように、前記単語辞書に含まれる単語の重要度を設定し、
    前記音声データから認識した音素と、生成した前記単語辞書と、設定された前記重要度と、をもとに、前記単語辞書の中からテキストへの変換に用いる単語を選択し、前記音声データに含まれる音声をテキストに変換する、
    処理をコンピュータに実行させることを特徴とする音声認識プログラム。
  5. 音声データと、当該音声データに対応するテキストデータとの入力を受け付け、
    前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む単語辞書を生成し、
    各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高くなるように、前記単語辞書に含まれる単語の重要度を設定し、
    前記音声データから認識した音素と、生成した前記単語辞書と、設定された前記重要度と、をもとに、前記単語辞書の中からテキストへの変換に用いる単語を選択し、前記音声データに含まれる音声をテキストに変換する、
    処理をコンピュータが実行することを特徴とする音声認識方法。
  6. 音声認識の対象とする音声データと、当該音声データに対応するテキストデータとの入力を受け付ける入力部と、
    前記テキストデータに含まれる単語を抽出し、入力された単語に対して関連する単語を出力するように学習した学習モデルをもとに、抽出した前記単語に関連する単語を含む、前記音声認識に用いる単語辞書を生成する辞書生成部と、
    各単語の出現頻度を示す頻度情報をもとに、前記単語辞書に含まれる単語の重要度を設定する設定部と、を有し、
    前記設定部は、前記単語辞書に含まれる単語の中で、所定の単語よりも出現頻度がより低い単語の重要度を前記所定の単語より高く設定する、
    ことを特徴とする辞書作成装置。
JP2018127546A 2018-07-04 2018-07-04 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置 Active JP7102986B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018127546A JP7102986B2 (ja) 2018-07-04 2018-07-04 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018127546A JP7102986B2 (ja) 2018-07-04 2018-07-04 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置

Publications (2)

Publication Number Publication Date
JP2020008637A JP2020008637A (ja) 2020-01-16
JP7102986B2 true JP7102986B2 (ja) 2022-07-20

Family

ID=69151342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018127546A Active JP7102986B2 (ja) 2018-07-04 2018-07-04 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置

Country Status (1)

Country Link
JP (1) JP7102986B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12118983B2 (en) 2021-04-02 2024-10-15 Samsung Electronics Co., Ltd. Electronic device and operation method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197229A (ja) 2007-02-09 2008-08-28 Konica Minolta Business Technologies Inc 音声認識辞書構築装置及びプログラム
JP2008287210A (ja) 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP2018055224A (ja) 2016-09-27 2018-04-05 日本電気株式会社 データ生成装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197229A (ja) 2007-02-09 2008-08-28 Konica Minolta Business Technologies Inc 音声認識辞書構築装置及びプログラム
JP2008287210A (ja) 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP2018055224A (ja) 2016-09-27 2018-04-05 日本電気株式会社 データ生成装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2020008637A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
JP7280386B2 (ja) 多言語音声合成およびクロスランゲージボイスクローニング
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
EP1089256A2 (en) Speech recognition models adaptation from previous results feedback
Watts Unsupervised learning for text-to-speech synthesis
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
EP2329489A1 (en) Stochastic phoneme and accent generation using accent class
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
JP2008276543A (ja) 対話処理装置、応答文生成方法、及び応答文生成処理プログラム
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备
Viacheslav et al. System of methods of automated cognitive linguistic analysis of speech signals with noise
JP7102986B2 (ja) 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置
JP2020060642A (ja) 音声合成システム、及び音声合成装置
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
Samuel Manoharan A novel text-to-speech synthesis system using syllable-based HMM for Tamil language
CN113327583A (zh) 一种基于ppg一致性的最优映射跨语言音色转换方法及系统
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP5336779B2 (ja) 文字列変換を行う情報処理装置、文字列変換方法、プログラム、および情報処理システム
JP2001100788A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP7012935B1 (ja) プログラム、情報処理装置、方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R150 Certificate of patent or registration of utility model

Ref document number: 7102986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150