JP7143665B2 - 音声認識装置、音声認識プログラムおよび音声認識方法 - Google Patents

音声認識装置、音声認識プログラムおよび音声認識方法 Download PDF

Info

Publication number
JP7143665B2
JP7143665B2 JP2018141325A JP2018141325A JP7143665B2 JP 7143665 B2 JP7143665 B2 JP 7143665B2 JP 2018141325 A JP2018141325 A JP 2018141325A JP 2018141325 A JP2018141325 A JP 2018141325A JP 7143665 B2 JP7143665 B2 JP 7143665B2
Authority
JP
Japan
Prior art keywords
recognition
speech
speech recognition
candidates
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018141325A
Other languages
English (en)
Other versions
JP2020016839A (ja
Inventor
祐介 ▲濱▼田
啓介 朝倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018141325A priority Critical patent/JP7143665B2/ja
Priority to US16/456,232 priority patent/US11270692B2/en
Publication of JP2020016839A publication Critical patent/JP2020016839A/ja
Application granted granted Critical
Publication of JP7143665B2 publication Critical patent/JP7143665B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、音声認識装置、音声認識プログラムおよび音声認識方法に関する。
従来、人が話した言葉を文字として書き起こす技術として、入力された音声をテキストに変換する音声認識処理がある。この音声認識処理では、テキスト内の単語の中に信頼度の低い単語がある場合、テキストに含まれる信頼度の高い一以上の単語からなる文字列に基づく予測変換によりテキストの修正を行う従来技術が知られている。
特開2012-78650号公報 特表2007-524949号公報 特開平8-166966号公報
しかしながら、上記の従来技術では、文脈や文書全体で見たときに予測変換によるテキストの修正が適切なものではない場合があり、結果として認識率が悪くなるという問題がある。
1つの側面では、音声認識の精度を向上することを可能とする音声認識装置、音声認識プログラムおよび音声認識方法を提供することを目的とする。
1つの案では、音声認識装置は、音声処理部と、検証部と、評価部とを有する。音声処理部は、入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する。検証部は、取得した複数の認識候補と、入力音声に対応するメタ情報との類似度を検証する。評価部は、検証した類似度に基づき、取得した複数の認識候補の中から信頼度が低い区間の認識結果を決定する。
本発明の実施態様によれば、音声認識の精度を向上することができる。
図1は、実施形態にかかる音声認識装置の機能構成例を示すブロック図である。 図2は、実施形態にかかる音声認識装置の動作例を示すフローチャートである。 図3は、実施形態にかかる音声認識装置の動作の概要を示す説明図である。 図4は、音声認識エンジンによる音声認識を説明するフローチャートである。 図5-1は、信頼度の追記処理を例示するフローチャートである。 図5-2は、信頼度の追記を説明する説明図である。 図6-1は、ジャンル判別処理を例示するフローチャートである。 図6-2は、ジャンル判別を説明する説明図である。 図7-1は、区間音声データの生成処理を例示するフローチャートである。 図7-2は、区間音声データの生成を説明する説明図である。 図8は、再認識処理を例示するフローチャートである。 図9は、文書候補一覧表の生成処理を例示するフローチャートである。 図10-1は、整合性の確認処理を例示するフローチャートである。 図10-2は、整合性の確認を説明する説明図である。 図11-1は、類似度の検証処理を例示するフローチャートである。 図11-2は、説明文のベクトル化を説明する説明図である。 図12は、評価処理を例示するフローチャートである。 図13は、学習フェーズの一例を説明する説明図である。 図14は、学習フェーズの動作例を示すフローチャートである。 図15は、推論フェーズの一例を説明する説明図である。 図16は、推論フェーズの動作例を示すフローチャートである。 図17は、実施形態にかかる音声認識装置のハードウエア構成の一例を示すブロック図である。
以下、図面を参照して、実施形態にかかる音声認識装置、音声認識プログラムおよび音声認識方法を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する音声認識装置、音声認識プログラムおよび音声認識方法は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、実施形態にかかる音声認識装置の機能構成例を示すブロック図である。図1に示すように、音声認識装置1は、音声ファイル11aおよび音声ファイル11aに対応する説明文11bを含む入力データ11の入力を受け付け、音声をテキストに変換した音声認識結果をテキストデータ12として出力する情報処理装置である。例えば、音声認識装置1は、PC(パーソナルコンピュータ)などを適用できる。
具体的には、音声認識装置1は、入出力部10、音声認識処理部20および記憶部30を有する。
入出力部10は、ファイルの入出力やディスプレイへのデータの表示出力などを行う処理部である。例えば、入出力部10は、音声認識にかかる入力データ11の入力を受け付ける。入力データ11は、音声ファイル11aおよび説明文11bを含む。音声ファイル11aは、音声認識対象となる音声データを含むファイルである。
説明文11bは、音声ファイル11aにおける音声の内容を示すテキストデータであり、例えば音声で紹介する内容の紹介文である。すなわち、説明文11bは、入力音声に対応するメタ情報の一例である。なお、本実施形態ではメタ情報の一例として説明文11bを例示するが、メタ情報は説明文11bだけでなく、例えば音声ファイル11aに対応する動画像におけるテロップ文などであってもよい。
音声認識処理部20は、入出力部10が入力を受け付けた音声ファイル11aについて音声認識を行い、認識結果をテキストデータ12として出力する。具体的には、音声認識処理部20は、音声処理部21、文脈検証部22、評価部23を有する。
音声処理部21は、制御部21a、音声認識エンジン21b、音素管理表21c、ジャンル別置換候補生成法表21dおよび置換候補一覧表21eを有する。
制御部21aは、音声処理部21における音声認識の処理を制御する。具体的には、制御部21aは、入力音声について音声認識エンジン21bを用いて音声認識を行う。次いで、制御部21aは、認識結果における信頼度が所定値より低い区間について、ジャンル別置換候補生成法表21dをもとに音声認識エンジン21bを用いて互いに異なる複数の音声認識処理により再認識し、複数の認識候補(単語など)を取得する。次いで、制御部21aは、取得した複数の認識候補を置換候補一覧表21eに保存する。
次いで、制御部21aは、信頼度が低い区間について、置換候補一覧表21eに記載された複数の認識候補(単語など)を埋め込んだ文書候補一覧を生成し、文書候補一覧表32aとして共通部32に格納する。また、制御部21aは、音声ファイル11aに対応する説明文11bを説明文32bとして共通部32に格納する。
音声認識エンジン21bは、音声ファイル11aの音声波形から人などが発声した音素、すなわち認識対象となる人が発した言葉(読み)を認識する。次いで、音声認識エンジン21bは、内蔵された単語辞書における単語群の中で認識した読み方と近い読みをもつ単語を、音声の時間とともに認識結果として音素管理表21cに記入する。
音素管理表21cは、音声認識エンジン21bが認識した音素を時間とともに管理するデータテーブルなどである。ジャンル別置換候補生成法表21dは、信頼度が低い区間を複数の音声認識処理で再認識する際の手法を処理ごとに記載したデータテーブルなどである。置換候補一覧表21eは、信頼度が低い区間について、再認識により取得した複数の認識候補(置換候補)の一覧を記載するデータテーブルなどである。
文脈検証部22は、文書候補一覧表32aを参照し、音声処理部21が取得した複数の認識候補と、音声ファイル11aに対応するメタ情報である説明文32bとの類似度を、ディープラーニング手法により学習した文脈モデルを用いて検証する。具体的には、文脈検証部22は、複数の認識候補を含む文書および説明文11bを、ディープラーニング手法を用いたdoc2vecなどの技術を用いてベクトル化する。次いで、文脈検証部22は、複数の認識候補を含む文書および説明文11bについて、文書の特徴をベクトル化した文脈ベクトル同士を比較することで、類似度を求める。すなわち、文脈検証部22は、検証部の一例である。
また、文脈検証部22は、複数の認識候補を埋め込んだ文書候補一覧表32aを参照し、埋め込んだ部分を含む前後の文脈をdoc2vecなどの技術を用いてベクトル化する。次いで、文脈検証部22は、生成したベクトル同士を比較することで、前後の文脈の整合度を検証する。
評価部23は、文脈検証部22の検証結果に基づき、音声認識の信頼度が低い区間について、音声処理部21が取得した複数の認識候補の中から認識結果を決定する。

具体的には、評価部23は、説明文11bとの類似度に基づき、文書候補一覧表32aの中から例えば類似度の最も高いものを認識結果として決定する。また、評価部23は、文書候補一覧表32aにおける前後の文脈の整合度に基づき、文書候補一覧表32aの中から例えば整合度の最も高いものを認識結果として決定する。評価部23が決定した認識結果は、音声ファイル11aの音声認識結果を示すテキストデータ12として入出力部10より出力される。
記憶部30は、例えばHDD(Hard Disk Drive)などの記憶装置であり、モデル格納部31および共通部32を有する。モデル格納部31は、文脈モデル情報31aおよび説明文32bを格納する。共通部32は、文書候補一覧表32aおよび説明文32bを格納する。
文脈モデル情報31aは、学習済みの文脈モデルについてのニューラルネットワークを構築するための各種パラメタなどである。フィルタ情報31bは、音声認識エンジン21bの音声認識処理で用いる音声フィルタに関連する各種パラメータなどである。
図2は、実施形態にかかる音声認識装置1の動作例を示すフローチャートである。図3は、実施形態にかかる音声認識装置1の動作の概要を示す説明図であり、より具体的には、図2における各処理(S1~S9)の概要を示す図である。
図2に示すように、処理が開始されると、入出力部10は、音声認識の対象となる入力データ11(音声ファイル11a、説明文11b)の入力を受け付ける(S0)。例えば、図3に示すように、制御部21aは、「本日は所により雨、降水確率は…」とする音声ファイル11aの入力を受け付ける。
次いで、音声処理部21の制御部21aは、入力された音声ファイル11aを音声認識エンジン21bに入力し、音声認識結果(音素)を音素管理表21cに記入する(S1)。
例えば、図3に示すように、制御部21aは、「本日は所により雨、降水確率は…」とする音声ファイル11aを音声認識エンジン21bに入力することで「本日は所により雨、コース確立は…」とする仮の音声認識結果を得る。この音声認識結果は、音素管理表21cに記入される。
図4は、音声認識エンジン21bによる音声認識を説明するフローチャートである。図4に示すように、制御部21aは、音声認識エンジン21bに音声ファイル11aの音声データを入力する(S11)。次いで、制御部21aは、音声認識エンジン21bより出力された音声認識結果と、認識した音声の時間を音素ごとに音素管理表21cに保存する(S12)。
図2に戻り、S1に次いで、制御部21aは、音声認識結果とともに音声認識エンジン21bより得られた音声認識の確度を示す信頼度を音素管理表21cに追記する(S2)。例えば、図3に示すように、制御部21aは、「本日は所により雨、コース確立は…」とする音声認識結果とともにパーセント形式で表記する信頼度を取得し、音素管理表21cに追記する。
図5-1は、信頼度の追記処理を例示するフローチャートである。図5-2は、信頼度の追記を説明する説明図である。
図5-1に示すように、信頼度の追記処理が開始されると、制御部21aは、音声認識エンジン21bが音声認識した各単語の信頼度を出力するか否かを確認する(S21)。音声認識エンジン21bが信頼度を出力する場合(S21:YES)、制御部21aは、音声認識エンジン21bが出力した信頼度を音素管理表21cに追記する(S23)。
音声認識エンジン21bが信頼度を出力しない場合(S21:NO)、制御部21aは、ディープラーニング手法により信頼度を出力するように事前に学習した文脈モデルを用いて音声認識エンジン21bが認識した各単語の信頼度を算出する(S22)。具体的には、制御部21aは、音声認識エンジン21bの認識結果を入力すると認識結果の信頼度を出力するように学習した文脈モデルを用いて信頼度の算出を行う。次いで、制御部21aは、算出した信頼度を音素管理表21cに追記する(S23)。
例えば、図5-2に示すように、制御部21aは、「本日は所により雨、コース確立は…」とする音声認識結果とともに各単語の信頼度を音声認識エンジン21bが出力する場合、認識結果とともに出力した信頼度を音素管理表21cに追記する。また、制御部21aは、音声認識エンジン21bが信頼度を出力しない場合、「本日は所により雨、コース確立は…」とする制御部21aの音声認識結果を文脈モデルに入力して各単語の信頼度を得る。次いで、制御部21aは、文脈モデルを用いて得た信頼度を音素管理表21cに追記する。
図2に戻り、S2に次いで、制御部21aは、音素管理表21cの音素の内、信頼度の高い区間の音素をもとに、音声ファイル11aにおける音声のジャンルを判別する(S3)。制御部21aが判別する音声のジャンルについては、例えば、天気予報、バラエティ番組、ドキュメンタリーなどがある。
具体的には、制御部21aは、ディープラーニング手法によりジャンルを出力するように事前に学習した文脈モデルに信頼度の高い区間の音素のデータを入力することで、ジャンルの判別を行う。例えば、図3に示すように、制御部21aは、信頼度の高い「本日は所により雨」とする音声認識結果を文脈モデルに入力することで、「天気予報」とするジャンルを判別する。
図6-1は、ジャンル判別処理を例示するフローチャートである。図6-2は、ジャンル判別を説明する説明図である。
図6-1に示すように、ジャンル判別処理が開始されると、制御部21aは、音素管理表21cから音素ごとの信頼度をもとに、信頼性の高い区間を複数抽出する(S31)。例えば、図6-2に示すように、制御部21aは、信頼度が所定値(例えば60%)以上の区間を抽出する。
次いで、制御部21aは、抽出した区間の音素を学習済みの文脈モデルに入力することで、ジャンルを判定する(S32)。例えば、図6-2に示すように、制御部21aは、信頼度の高い「本日は所により雨」の区間の音素を文脈モデルに入力することで、「天気予報」とするジャンルを判別する。
図2に戻り、S3に次いで、制御部21aは、音素管理表21cの音素の内、信頼度の低い区間の音素に対応する音声データを切り取り区間音声データを生成する(S4)。例えば、図3に示すように、制御部21aは、信頼度の低い「コース確立」の区間について、音声データを切り出す。
図7-1は、区間音声データの生成処理を例示するフローチャートである。図7-2は、区間音声データの生成を説明する説明図である。
図7-1に示すように、区間音声データの生成処理が開始されると、制御部21aは、音素管理表21cから音素ごとの信頼度をもとに、信頼度の低い単語と時間を抽出する(S41)。例えば、図7-2に示すように、制御部21aは、信頼度が所定値(例えば60%)以下の区間を音素管理表21cより抽出する。
次いで、制御部21aは、S41で抽出した時間をもとに、音声ファイル11aの音声データにおいて、信頼度の低い単語が存在する区間を切り取り、区間音声データを生成する(S42)。例えば、図7-2に示すように、制御部21aは、信頼度の低い「コース確立」の区間に対応する区間音声データを生成する。
図2に戻り、S4に次いで、制御部21aは、区間音声データを使用して互いに異なる複数の音声認識処理により再認識し、認識結果を置換候補一覧表21eに記載する(S5)。
例えば、図3に示すように、制御部21aは、「コース確立」の区間について、SEフィルタ+音声認識エンジン21bによる再認識で「国立」とする認識結果を得る。また、制御部21aは、BGMフィルタ+音声認識エンジン21bにより再認識で「降水確率」とする認識結果を得る。また、制御部21aは、別の音声認識エンジンを用いた再認識で「香水確立」とする認識結果を得る。また、制御部21aは、同音または類似音の単語をコーパスなどで検索する類似音検索により「越す確率」とする認識結果を得る。次いで、制御部21aは、「国立」、「降水確率」、「香水確立」、「越す確率」などの認識結果を置換候補一覧表21eに記載する。
図8は、再認識処理を例示するフローチャートである。図8に示すように、再認識処理が開始されると、制御部21aは、ジャンル別置換候補生成法表21dを参照し、S3で判別したジャンルを基に、適用する処理(フィルタ・エンジン)を設定する(S51)。
例えば、判別したジャンルが「天気予報」である場合、制御部21aは、ジャンル別置換候補生成法表21dを参照することで、SEフィルタ+音声認識エンジン21bと、BGMフィルタ+音声認識エンジン21bと、別エンジンと、類似音検索とを適用する処理として設定する。
次いで、制御部21aは、S51の設定内容をもとに、互いに異なる複数の音声認識処理(図示例では第1~第5の処理)のどの処理を適用するかを判別する(S52、S53、S54、S55、S56)。次いで、制御部21aは、適用すると判別(S52、S53、S54、S55、S56:YES)した処理(S52a、S53a、S54a、S55a、S56a)を実施する。
例えば、制御部21aは、BGMフィルタ+音声認識エンジン21bによる第1の処理を適用する場合(S52:YES)、フィルタ情報31bを参照してBGMフィルタのパラメータを設定し、BGMフィルタでの推論を行う。次いで、制御部21aは、フィルタ適用後の音声データを音声認識エンジン21bで再認識する(S52a)。
また、制御部21aは、SEフィルタ+音声認識エンジン21bによる第2の処理を適用する場合(S53:YES)、フィルタ情報31bを参照してSEフィルタのパラメータを設定し、SEフィルタでの推論を行う。次いで、制御部21aは、フィルタ適用後の音声データを音声認識エンジン21bで再認識する(S53a)。
また、制御部21aは、ノイズフィルタ+音声認識エンジン21bによる第3の処理を適用する場合(S54:YES)、フィルタ情報31bを参照してノイズフィルタのパラメータを設定し、ノイズフィルタでの推論を行う。次いで、制御部21aは、フィルタ適用後の音声データを音声認識エンジン21bで再認識する(S54a)。
また、制御部21aは、別エンジンによる第4の処理を適用する場合(S55:YES)、別エンジンでの音声認識を行う(S55a)。
また、制御部21aは、類似音検索による第5の処理を適用する場合(S56:YES)、コーパスなどを使用して類似音単語を検索する(S56a)。
次いで、制御部21aは、互いに異なる複数の音声認識処理による認識結果を置換候補一覧表21eに保存し(S57)、処理を終了する。
図2に戻り、S5に次いで、制御部21aは、制御部21aに記載される単語を、音素管理表21cが示すもとの文章に埋め込み文書候補一覧表32aを生成する(S6)。
図9は、文書候補一覧表32aの生成処理を例示するフローチャートである。図9に示すように、生成処理が開始されると、制御部21aは、置換候補一覧表21eに記述された置換候補(複数の認識結果)の数だけ繰り返すループ処理(S61~S63)を行い、処理を終了する。具体的には、制御部21aは、音素管理表21cが示す元のテキストに置換候補一覧表21eの認識結果それぞれを埋め込み、文書候補一覧表32aを生成して出力する(S62)。
図2に戻り、S6に次いで、文脈検証部22は、文書候補一覧表32aに記載される文章の整合性を確認し、確認結果を文書候補一覧表32aに追記する(S7)。例えば、図3に示すように、S7では、文書候補一覧表32aにおいて認識結果ごとに記載される文書をそれぞれ文脈モデルに入力し、文書の文脈整合性を求める。
図10-1は、整合性の確認処理を例示するフローチャートである。図10-2は、整合性の確認を説明する説明図である。
図10-1に示すように、整合性の確認処理が開始されると、文脈検証部22は、文書候補の数(認識結果の数)だけ繰り替えしを行うループ処理(S71~S74)を行い、処理を終了する。
具体的には、文脈検証部22は、文書候補一覧表32aの文書候補を文脈モデルに入力する推論(推論フェーズ)により整合度を示す値を取得し、整合性を確認する(S72)。次いで、文脈検証部22は、整合性の確認結果(得られた値)を文書候補一覧表32aに追記する(S73)。
例えば、図10-2に示すように、文脈検証部22は、文書候補一覧表32aにおける1~5の文書候補を文脈モデルに入力することで、それぞれの整合性を示す値を得て追記する。例えば、文脈検証部22は、文書候補一覧表32aの5番目に記載された「本日は所により雨、越す確率は…」とする文書を文脈モデルに入力することで、その文書の文脈についての整合度(50%)を得る。そして、文脈検証部22は、得られた値(50%)を文書候補一覧表32aに追記する。
図2に戻り、文脈検証部22は、説明文32bと、文書候補一覧表32aの文章とをベクトル化し、文脈ベクトルを得る。次いで、文脈検証部22は、文脈ベクトルの類似度を比較し、比較結果を文書候補一覧表32aに追記する(S8)。
例えば、図3に示すように、文脈検証部22は、文書候補一覧表32aにおける1~5の文書から得られた文脈ベクトル(V1~V5)と、説明文32bの文脈ベクトル(V0)との類似度を求める。次いで、文脈検証部22は、求めた類似度を文書候補一覧表32aにおける1~5に追記する。
図11-1は、類似度の検証処理を例示するフローチャートである。図11-1に示すように、類似度の検証処理が開始されると、文脈検証部22は、文書候補の数(認識結果の数)だけ繰り返すループ処理(S81~S85)を行い、処理を終了する。
具体的には、文脈検証部22は、説明文32bと、文書候補一覧表32aの文書候補をdoc2vecなどの技術を用いてそれぞれベクトル化する(S82)。
図11-2は、説明文32bのベクトル化を説明する説明図である。図11-2に示すように、文脈検証部22は、例えば説明文32bの文書をdoc2vecを適用したニューラルネットワークに入力することで、説明文32bの文脈をベクトル化した文脈ベクトル(V0)を得る。
次いで、文脈検証部22は、文書候補(図示例では1~5)のベクトル(V1~V5)と、音声の説明文32bのベクトル(V0)とを比較し、類似度を算出する(S83)。次いで、文脈検証部22は、得られた類似度を文書候補一覧表32aにおける文書候補それぞれに追記する(S84)。
図2に戻り、S8に次いで、評価部23は、文書候補一覧表32aにおける文書候補それぞれの類似度と整合性の値から最も適切な補正(文書候補)を決定する。次いで、評価部23は、決定した内容を音声認識結果として適用し(S9)、音声認識結果を示すテキストデータ12を入出力部10を介して出力する(S10)。
例えば、図3に示すように、評価部23は、文書候補一覧表32aにおける1~5の文書候補それぞれの類似度と整合性の値から3、5、1の順に文書候補の順位を求める。次いで、評価部23は、順位の一番高い3番目の文書候補「本日は所により雨、降水確率は…」をテキストデータ12として出力する。
図12は、評価処理を例示するフローチャートである。図12に示すように、評価処理が開始されると、評価部23は、文書候補一覧表32aにおける文書候補それぞれの類似度と整合性の値を統計的手法で評価する(S91)。例えば、統計的手法の評価の一例として、評価部23は、類似度と整合性の値の平均値を算出する。
次いで、評価部23は、文書候補一覧表32aの文書候補の内、統計的手法で評価した値の最も高い候補文をテキストデータ12として出力する(S92)。
なお、信頼度の算出、ジャンルの判別、文脈整合性の評価、doc2vecにおける類似度測定等を行うための文脈モデルや、音声認識の音声フィルタなどは、ディープラーニング等の機械学習により学習した学習モデルを用いて行う。
図13は、学習フェーズの一例を説明する説明図である。図13に示すように、ディープラーニング学習(S201)では、ニューラルネットワーク定義202およびハイパーパラメタ203を用いて初期のニューラルネットワークを構築する。次いで、ディープラーニング学習では、教師データ201を構築したニューラルネットワークに適用し、信頼度の算出、ジャンルの判別、文脈整合性の評価、doc2vecにおける類似度測定、音声フィルタ等を行うようにニューラルネットワークの学習を行う。教師データ201は、信頼度の算出、ジャンルの判別、文脈整合性の評価、doc2vecにおける類似度測定、音声フィルタ等としてニューラルネットワークを学習するための教師とするサンプルデータである。
具体的には、ディープラーニング学習(S201)では、教師データ201をニューラルネットワークに順伝播して得られた推論結果と、教師データ201に含まれる正解データとの差分(損失)を求める。次いで、得られた差分をニューラルネットワークに逆伝播させ、ニューラルネットワークの各ノードのパラメータを変更して最適解に近づけていく。このようなディープラーニング学習(S201)により、ニューラルネットワークにおける各ノードのパラメータが学習済モデル204として得られる。
図14は、学習フェーズの動作例を示すフローチャートである。図14に示すように、処理が開始されると、音声認識処理部20は、ハイパーパラメタ203をもとにディープラーニングに関する定義を与える(S211)。次いで、音声認識処理部20は、ニューラルネットワーク定義202に従いニューラルネットワークを構築する(S212)。
次いで、音声認識処理部20は、構築したニューラルネットワークに、ニューラルネットワーク定義202で指定されたアルゴリズムに従い初期値を設定する(S213)。次いで、音声認識処理部20は、予め指定されたバッチサイズの教師データ集合を教師データ201より取得する(S214)。
次いで、音声認識処理部20は、取得した教師データ集合を入力データと正解データに分離し(S215)、構築したニューラルネットワークに入力データを入力して順伝播させる順伝播処理を行う(S216)。
次いで、音声認識処理部20は、ニューラルネットワークより順伝播して得られた出力値と、正解データとを比較して損失(差分)を計算する(S217)。次いで、音声認識処理部20は、得られた損失をニューラルネットワークに逆伝播させてニューラルネットワークの各ノードのパラメータを最適解に近づけていく逆伝播処理を行う(S218)。
次いで、音声認識処理部20は、予め設定された終了条件に到達したか否かを判定し(S219)、到達していない場合(S219:NO)はS214へ処理を戻す。到達している場合(S219:YES)、音声認識処理部20は、S214~S219を繰り返して得られたニューラルネットワークの各ノードのパラメータ、すなわち学習済モデル204を出力する(S220)。
図15は、推論フェーズの一例を説明する説明図である。図15に示すように、推論フェーズ(S301)では、学習フェーズで得られた学習済モデル204をもとにニューラルネットワークを構築する。次いで、推論フェーズ(S301)では、信頼度の算出、ジャンルの判別、文脈整合性の評価、doc2vecにおける類似度測定、音声フィルタ等の対象となるテストデータ301をニューラルネットワークに適用する。これにより、信頼度の算出、ジャンルの判別、文脈整合性の評価、doc2vecにおける類似度測定、音声フィルタ等の処理結果(推論結果)を得ることができる。
図16は、推論フェーズの動作例を示すフローチャートである。図16に示すように、処理が開始されると、音声認識処理部20は、学習時と同様にハイパーパラメタ203をもとにディープラーニングに関する定義を与える(S311)。
次いで、音声認識処理部20は、学習済モデル204を読み込み、学習済モデル204に対応したニューラルネットワークを構築する(S312)。次いで、音声認識処理部20は、予め指定されたバッチサイズのテストデータ301を取得し(S313)、構築したニューラルネットワークに入力して順伝播させる順伝播処理を行う(S314)。
次いで、音声認識処理部20は、順伝播処理によるニューラルネットワークからの出力値、すなわち推論データを処理結果として出力する(S315)。
以上のように、音声認識装置1は、音声処理部21と、文脈検証部22と、評価部23とを有する。音声処理部21は、音声ファイル11aの入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する。文脈検証部22は、取得した複数の認識候補と、入力音声に対応するメタ情報(説明文11b)との類似度を検証する。評価部23は、検証した類似度に基づき、取得した複数の認識候補の中から信頼度の低い区間の認識結果を決定する。
これにより、音声認識装置1は、音声認識の信頼度が低い区間について、複数の認識候補の中から入力音声に対応するメタ情報との類似度合に基づいて例えば説明文11bと類似するものに決定する。したがって、音声認識装置1は、入力音声に内容に沿った適切な認識結果を得ることができ、音声認識の精度を向上することができる。
また、音声処理部21は、認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する、ジャンル別置換候補生成法表21dにおける複数の音声認識処理により信頼度が低い区間の複数の認識候補を取得する。このように、音声認識装置1は、音声認識の信頼度が高い区間をもとに判定したジャンルを用いて信頼度が低い区間の音声認識処理を行うので、信頼度が低い区間の再認識を精度よく行うことができる。
また、文脈検証部22は、複数の認識候補について、音声認識の信頼度が低い区間に認識候補を埋め込んだ場合の文脈の整合度を検証する。そして、評価部23は、類似度および整合度に基づき、音声認識の信頼度が低い区間の認識結果を決定する。このように、音声認識装置1は、文脈の整合度を加味して音声認識の信頼度が低い区間の認識結果を決定ので、より適切な認識結果を得ることができる。
音声認識装置1で行われる各種処理機能は、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、音声認識装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータ(ハードウエア)の一例を説明する。図17は、実施形態にかかる音声認識装置1のハードウエア構成の一例を示すブロック図である。
図17に示すように、音声認識装置1は、各種演算処理を実行するCPU101と、データ入力を受け付ける入力装置102と、モニタ103と、スピーカ104とを有する。また、音声認識装置1は、記憶媒体からプログラム等を読み取る媒体読取装置105と、各種装置と接続するためのインタフェース装置106と、有線または無線により外部機器と通信接続するための通信装置107とを有する。また、音声認識装置1は、各種情報を一時記憶するRAM108と、記憶部30としての機能を提供するハードディスク装置109とを有する。また、音声認識装置1内の各部(101~109)は、バス110に接続される。
ハードディスク装置109には、上記の実施形態で説明した入出力部10および音声認識処理部20にかかる各種の処理を実行するためのプログラム111が記憶される。また、ハードディスク装置109には、プログラム111が参照する各種データ112が記憶される。入力装置102は、例えば、音声認識装置1の操作者から操作情報の入力を受け付ける。モニタ103は、例えば、操作者が操作する各種画面を表示する。インタフェース装置106は、例えば印刷装置等が接続される。通信装置107は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU101は、ハードディスク装置109に記憶されたプログラム111を読み出して、RAM108に展開して実行することで、入出力部10および音声認識処理部20にかかる各種の処理を行う。なお、プログラム111は、ハードディスク装置109に記憶されていなくてもよい。例えば、音声認識装置1が読み取り可能な記憶媒体に記憶されたプログラム111を、音声認識装置1が読み出して実行するようにしてもよい。音声認識装置1が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム111を記憶させておき、音声認識装置1がこれらからプログラム111を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する音声処理部と、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証する検証部と、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する評価部と、
を有することを特徴とする音声認識装置。
(付記2)前記音声処理部は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする付記1に記載の音声認識装置。
(付記3)前記検証部は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度を検証し、
前記評価部は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記1または2に記載の音声認識装置。
(付記4)入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。
(付記5)前記取得する処理は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする付記4に記載の音声認識プログラム。
(付記6)前記検証する処理は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度を検証し、
前記決定する処理は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記4または5に記載の音声認識プログラム。
(付記7)入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータが実行することを特徴とする音声認識方法。
(付記8)前記取得する処理は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする付記7に記載の音声認識方法。
(付記9)前記検証する処理は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度を検証し、
前記決定する処理は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記7または8に記載の音声認識方法。
1…音声認識装置
10…入出力部
11…入力データ
11a…音声ファイル
11b…説明文
12…テキストデータ
20…音声認識処理部
21…音声処理部
21a…制御部
21b…音声認識エンジン
21c…音素管理表
21d…ジャンル別置換候補生成法表
21e…置換候補一覧表
22…文脈検証部
23…評価部
30…記憶部
31…モデル格納部
31a…文脈モデル情報
31b…フィルタ情報
32…共通部
32a…文書候補一覧表
32b…説明文
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
201…教師データ
202…ニューラルネットワーク定義
203…ハイパーパラメタ
204…学習済モデル
301…テストデータ

Claims (5)

  1. 入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する音声処理部と、
    取得した複数の前記認識候補と、前記入力音声に対応する、音声の内容を示すメタ情報との類似度を検証する検証部と、
    検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する評価部と、
    を有することを特徴とする音声認識装置。
  2. 前記音声処理部は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記検証部は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度合いを検証し、
    前記評価部は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
    ことを特徴とする請求項1または2に記載の音声認識装置。
  4. 入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
    取得した複数の前記認識候補と、前記入力音声に対応する、音声の内容を示すメタ情報との類似度を検証し、
    検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
    処理をコンピュータに実行させることを特徴とする音声認識プログラム。
  5. 入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
    取得した複数の前記認識候補と、前記入力音声に対応する、音声の内容を示すメタ情報との類似度を検証し、
    検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
    処理をコンピュータが実行することを特徴とする音声認識方法。
JP2018141325A 2018-07-27 2018-07-27 音声認識装置、音声認識プログラムおよび音声認識方法 Active JP7143665B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018141325A JP7143665B2 (ja) 2018-07-27 2018-07-27 音声認識装置、音声認識プログラムおよび音声認識方法
US16/456,232 US11270692B2 (en) 2018-07-27 2019-06-28 Speech recognition apparatus, speech recognition program, and speech recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018141325A JP7143665B2 (ja) 2018-07-27 2018-07-27 音声認識装置、音声認識プログラムおよび音声認識方法

Publications (2)

Publication Number Publication Date
JP2020016839A JP2020016839A (ja) 2020-01-30
JP7143665B2 true JP7143665B2 (ja) 2022-09-29

Family

ID=69178542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018141325A Active JP7143665B2 (ja) 2018-07-27 2018-07-27 音声認識装置、音声認識プログラムおよび音声認識方法

Country Status (2)

Country Link
US (1) US11270692B2 (ja)
JP (1) JP7143665B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023007960A (ja) * 2021-07-02 2023-01-19 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、情報処理方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263192A (ja) 2002-03-12 2003-09-19 Nec Corp 情報処理システムおよび情報処理方法ならびに情報処理プログラム
JP2005221678A (ja) 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 音声認識システム
JP2010055044A (ja) 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2013167666A (ja) 2012-02-14 2013-08-29 Nec Corp 音声認識装置、音声認識方法、及びプログラム

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166966A (ja) 1994-12-15 1996-06-25 Sony Corp 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
JP4517260B2 (ja) * 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
EP1505571A4 (en) * 2002-04-12 2007-02-21 Mitsubishi Electric Corp AUTONAVIGATION SYSTEM AND VOICE RECOGNITION DEVICE FOR THIS
TW200538969A (en) 2004-02-11 2005-12-01 America Online Inc Handwriting and voice input with automatic correction
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
US20080004881A1 (en) * 2004-12-22 2008-01-03 David Attwater Turn-taking model
US8352273B2 (en) * 2005-07-26 2013-01-08 Honda Motor Co., Ltd. Device, method, and program for performing interaction between user and machine
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
US20110066437A1 (en) * 2009-01-26 2011-03-17 Robert Luff Methods and apparatus to monitor media exposure using content-aware watermarks
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
EP2485212A4 (en) * 2009-10-02 2016-12-07 Nat Inst Inf & Comm Tech LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
EP2519934A4 (en) * 2009-12-31 2015-12-16 Digimarc Corp METHOD AND ARRANGEMENTS WITH SMARTPHONES WITH SENSORS
US8521526B1 (en) * 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
JP5688677B2 (ja) 2010-10-04 2015-03-25 日本電気株式会社 音声入力支援装置
US8826354B2 (en) * 2010-12-01 2014-09-02 At&T Intellectual Property I, L.P. Method and system for testing closed caption content of video assets
KR101892733B1 (ko) * 2011-11-24 2018-08-29 한국전자통신연구원 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
US10078690B2 (en) * 2011-12-31 2018-09-18 Thomson Licensing Dtv Method and device for presenting content
US9020817B2 (en) * 2013-01-18 2015-04-28 Ramp Holdings, Inc. Using speech to text for detecting commercials and aligning edited episodes with transcripts
US9495365B2 (en) * 2013-03-15 2016-11-15 International Business Machines Corporation Identifying key differences between related content from different mediums
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
US8947596B2 (en) * 2013-06-27 2015-02-03 Intel Corporation Alignment of closed captions
US9424843B2 (en) * 2013-09-24 2016-08-23 Starkey Laboratories, Inc. Methods and apparatus for signal sharing to improve speech understanding
US9418650B2 (en) * 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
US20150149169A1 (en) * 2013-11-27 2015-05-28 At&T Intellectual Property I, L.P. Method and apparatus for providing mobile multimodal speech hearing aid
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US9918141B2 (en) * 2015-08-05 2018-03-13 Surewaves Mediatech Private Limited System and method for monitoring and detecting television ads in real-time using content databases (ADEX reporter)
US9886233B2 (en) * 2015-10-23 2018-02-06 Echostar Technologies L.L.C. Apparatus, systems and methods for audio content diagnostics
US9940932B2 (en) * 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
EP3502840B1 (en) * 2016-08-16 2020-11-04 Sony Corporation Information processing device, information processing method, and program
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
KR102502220B1 (ko) * 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US11003839B1 (en) * 2017-04-28 2021-05-11 I.Q. Joe, Llc Smart interface with facilitated input and mistake recovery
US10453451B2 (en) * 2017-07-05 2019-10-22 Comcast Cable Communications, Llc Methods and systems for using voice to control multiple devices
US10757148B2 (en) * 2018-03-02 2020-08-25 Ricoh Company, Ltd. Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263192A (ja) 2002-03-12 2003-09-19 Nec Corp 情報処理システムおよび情報処理方法ならびに情報処理プログラム
JP2005221678A (ja) 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 音声認識システム
JP2010055044A (ja) 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2013167666A (ja) 2012-02-14 2013-08-29 Nec Corp 音声認識装置、音声認識方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
南條浩輝 他,"検索語の説明文による音声内容検索を利用した音声検索語検出",情報処理学会研究報告,Vol.2017-SLP-115, No.5,2017年02月10日,pp.1-6

Also Published As

Publication number Publication date
US11270692B2 (en) 2022-03-08
JP2020016839A (ja) 2020-01-30
US20200035226A1 (en) 2020-01-30

Similar Documents

Publication Publication Date Title
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP6585022B2 (ja) 音声認識装置、音声認識方法およびプログラム
CN112397056B (zh) 语音评测方法及计算机存储介质
JP7097416B2 (ja) アクセント検出方法、装置及び非一時的な記憶媒体
JP5025550B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP7167554B2 (ja) 音声認識装置、音声認識プログラムおよび音声認識方法
Hourri et al. A novel scoring method based on distance calculation for similarity measurement in text-independent speaker verification
Yu et al. {SMACK}: Semantically Meaningful Adversarial Audio Attack
JP7143665B2 (ja) 音声認識装置、音声認識プログラムおよび音声認識方法
Aissiou A genetic model for acoustic and phonetic decoding of standard Arabic vowels in continuous speech
US20230076073A1 (en) Method and apparatus for speech recognition
JP4716125B2 (ja) 発音評定装置、およびプログラム
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
CN111816164A (zh) 用于语音识别的方法及设备
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
JP7102986B2 (ja) 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置
CN113192483B (zh) 一种文本转换为语音的方法、装置、存储介质和设备
Fadhel et al. Unsupervised and Semi-Supervised Speech Recognition System: A Review
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
CN114255758A (zh) 口语评测方法及装置、设备以及存储介质
Pathak et al. Emotion-Aware Text to Speech: Bridging Sentiment Analysis and Voice Synthesis
Len Improving Speech-to-Text recognition for Malaysian english accents using accent identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220829

R150 Certificate of patent or registration of utility model

Ref document number: 7143665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150