JP2005084102A - 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム - Google Patents

音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム Download PDF

Info

Publication number
JP2005084102A
JP2005084102A JP2003312747A JP2003312747A JP2005084102A JP 2005084102 A JP2005084102 A JP 2005084102A JP 2003312747 A JP2003312747 A JP 2003312747A JP 2003312747 A JP2003312747 A JP 2003312747A JP 2005084102 A JP2005084102 A JP 2005084102A
Authority
JP
Japan
Prior art keywords
evaluation
information
voice
speech
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003312747A
Other languages
English (en)
Other versions
JP3984207B2 (ja
Inventor
Masaru Sakai
優 酒井
Hiroshi Kanazawa
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003312747A priority Critical patent/JP3984207B2/ja
Priority to US10/931,998 priority patent/US7454340B2/en
Priority to CNB2004101038905A priority patent/CN1311422C/zh
Publication of JP2005084102A publication Critical patent/JP2005084102A/ja
Application granted granted Critical
Publication of JP3984207B2 publication Critical patent/JP3984207B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 評価用音声データを予め用意する必要がなく、かつ、評価項目ごとの音声認識装置の性能評価が容易であり、少ない時間と少ないコストで評価が可能。
【解決手段】 評価項目設定部11が音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する。音声合成パラメタ生成部12が評価用音声情報に対応する合成音を生成するためのパラメタを生成する。音声合成部13がパラメタに基づいて合成音を生成する。合成音出力部14が合成音を音声認識装置に出力する。認識結果取得部15が音声認識装置が合成音を認識した認識結果を音声認識装置から取得する。認識結果解析部16が評価項目と認識結果とを参照して、評価項目に対する音声認識装置の性能を評価する。
【選択図】 図1

Description

本発明は、音声を認識する音声認識装置の性能を評価する音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムに関する。
音声認識装置の開発では、音声認識装置が期待通りの性能を発揮するかどうかを評価することが不可欠である。音声認識装置の性能評価は、音声認識装置に様々な条件下で録音された音声データを入力し、それに対する認識結果を解析することで行われる。例えば、音声認識装置の認識率を解析することで、音声認識装置が良好な性能を発揮できるような条件を知ることができ、その条件における具体的な性能も認識率という数値として知ることができる(例えば、非特許文献1参照)。さらに、音声認識装置が期待通りの性能を発揮しない場合は、誤認識結果の傾向を解析することで、音声認識装置が期待通りの性能を発揮できない原因の詳細を探ることができ、その原因を性能改善の手がかりとして利用することができる。
音声認識装置を評価する際の評価項目には様々なものがあるが、代表的なものとして以下の3つがある。すなわち、(1)音声認識装置が受理可能な語彙セットのバリエーション、(2)話者に起因するバリエーション(話者の性別、話者の話す速度、話者の声の高さ、その他(話者のイントネーションのつけ方、訛りなど))、(3)環境に起因するバリエーション(周囲の雑音、マイクの特性、その他(伝送系の特性、など))である。音声認識装置の評価では、上で挙げた様々な評価項目について、条件が異なる多数の音声データを音声認識装置に入力し、それぞれの項目におけるバリエーションに対して音声認識装置が良好な性能を示すか否かを確認する。理想的な音声認識装置は、どのような条件でも良好な性能を示し、条件の違いに対する性能差が小さいものである。
音声認識装置を評価する際には、前述の評価項目を様々な視点から使い分ける。音声認識装置を評価する視点も様々であるが、代表的な視点は以下の2通りである。(1)様々な評価項目に対する音声認識装置の全般的な性能を調べる、という視点である(例えば、非特許文献2参照)。音声認識装置の基本性能を評価するような場合には、あらゆる評価項目について音声認識装置を評価する必要がある。(2)ある特定の条件における音声認識装置の性能を調べる、という視点である。特定の用途における音声認識装置の性能を評価する場合には、その用途においてバリエーションをもたない、すなわち固定することができる評価項目を除き、他の評価項目のバリエーションに対する音声認識装置の性能を調べる。例えば、「音声認識装置が受理可能な語彙セットが固定」かつ「男性話者専用」である音声認識装置の評価では、語彙セットと話者の性別を固定した上で、その他の評価項目のバリエーションに対する音声認識装置の性能を評価する。一般に、音声認識装置の用途によって評価すべき項目は異なる。
以上に説明したような視点から音声認識装置を評価する方法は、以下の通りである。(1)様々な評価項目に対する音声認識装置の全般的な性能を調べる場合には、あらゆる評価項目について、それらのバリエーションを十分にカバーする大規模な評価用音声データセットを用意する必要がある。評価用音声データセットの評価項目ごとのバリエーションを調べた上で、音声認識装置の認識結果をもとに、それらのバリエーションに対する認識性能を統計的な手法などを用いて求めることで、あらゆる評価項目ごとの性能を調べることができる。(2)ある特定の条件における音声認識装置の性能を調べる場合には、その特定の条件において考慮すべき評価項目のバリエーションをカバーできるような評価用音声データセットを準備する、あるいは新規に収録する必要がある。特に、音声認識装置が受理可能な語彙セットの設計を変更した場合には、語彙セットに含まれる語彙を発声した音声データを新たに収録する必要がある。評価データセットの評価項目ごとのバリエーションを調べた上で、それらのバリエーションに対する認識性能を統計的な手法などを用いて求めることで、ある特定の条件における評価項目ごとの性能を調べることができる。
寺嶌立太、他、「HMM音声合成に基づく音声認識性能予測手法」、日本音響学会講演論文集2003年3月、pp159−pp160 松井、内藤、他、「地域や年齢的な広がりを考慮した大規模な日本語音声データベース」、日本音響学会講演論文集1999秋季、pp169−pp170
前述のように、音声認識装置を評価するためには、評価の視点に応じた評価用音声データセットを用意する必要がある。しかし、そのような評価用音声データセットを用意するための音声データベースの収録には多大な時間とコストが必要である。
まず、(1)様々な評価項目に対する音声認識装置の全般的な性能を調べる場合では、あらゆる評価項目のバリエーションをカバーできるような大規模な評価用音声データセットを構築するためのコストが非常に大きい。構築できたとしても、構築時には想定していなかった評価項目についても評価することができるようにする場合や、ある評価項目についてそのバリエーションを増やしたい場合には、評価用音声データの新規収録又は追加収録が必要となり、さらなる時間とコストがかかる。
また、(2)ある特定の条件における音声認識装置の性能を調べる場合でも、評価したい特定の条件において考慮すべき評価項目のバリエーションをカバーできる評価用音声データセットが存在しない場合には、音声データを新規収録する必要があり、やはり時間とコストが非常に大きい。このように、音声認識装置の評価では、評価用音声データを用意するためのかかる時間及びコストが非常に大きいという問題がある。
既に存在する評価用音声データセットに対して人工的に変動を加えることで、様々な評価項目のバリエーションをカバーする評価用音声データセットを人工的に作成する方法が考えられる。環境に起因する評価項目(雑音、マイク特性、など)については、雑音を重畳する、評価用音声データにマイク特性を畳み込むなどの処理によって、それらのバリエーションを増やすことが比較的容易に可能である。しかし、既存の評価用音声データの話速や声の高さを人工的に変動させることは非常に難しく、話者の性別や発声内容を人工的に変動させることは不可能であるため、それらのバリエーションを人工的に増やすことは不可能である。したがって、既に存在する評価用音声データセットに対して人工的に変動を加える方法では、前述の問題を解決することはできない。
本発明は、上述した従来の技術に鑑み、評価用音声データを予め用意する必要がなく、かつ、評価項目ごとの音声認識装置の性能評価が容易であり、少ない時間と少ないコストで評価が可能な音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムを提供する。
本発明の音声認識評価装置は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて合成音を生成する合成音生成手段と、前記合成音を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記合成音を認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする。
また、本発明の音声認識評価装置は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする。
本発明の音声認識評価方法は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成し、前記パラメタに基づいて合成音を生成し、前記合成音を前記音声認識装置に出力し、前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得し、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする。
また、本発明の音声認識評価方法は、音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成し、前記パラメタに基づいて特徴ベクトル時系列を生成し、前記特徴ベクトル時系列を前記音声認識装置に出力し、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得し、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする。
本発明の音声認識評価プログラムは、コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて合成音を生成する合成音生成手段と、前記合成音を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるためのものである。
また、本発明の音声認識評価プログラムは、コンピュータを、
音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるためのものである。
本発明の音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムによれば、評価用音声データを用意する必要がなく、かつ、少ない時間と少ないコストで評価項目ごとの音声認識装置の性能評価が容易になる。
以下、図面を参照して本発明の実施形態に関する音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムを説明する。本発明の実施形態では、音声合成部から出力される合成音を用いて音声認識装置を評価する装置を提案する。音声合成部は、以下の条件を満たすものとする。パラメタを調整することで、任意の語彙セットのバリエーションをカバーする合成音、話者に起因する評価項目のバリエーションをカバーする合成音を出力することができる。このような音声合成部により出力された合成音を評価用音声データセットとして用いることで、任意の評価項目について、音声認識装置の性能を評価することができる。以下、本発明の実施形態をより詳細に説明する。
(第1の実施形態)
本実施形態の音声認識評価装置の各装置部分を図1を参照して説明する。図1は、本発明の第1の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部11は、ユーザから音声認識装置の評価項目の指定を受け付ける。評価項目は、音声認識装置が様々な形態の音声を取得してそれらを異なる音声として識別することが可能か否かを評価するためのものである。評価項目は、例えば、声質情報、語彙情報、言い淀みや不要語の挿入の有無情報、発声時の感情情報がある。声質情報は、例えば、話者の性別、話者の話す速度(話速)、話者の声の高さ、話者のイントネーションのつけ方がある。なお、本実施形態では評価項目として評価用音声情報である話者の性別、話速、声の高さの3つを用いて説明する。語彙情報については第3の実施形態、言い淀みや不要語の挿入の有無情報については第4の実施形態、発声時の感情情報については第5の実施形態において説明する。しかし、本発明の実施形態の音声認識評価装置はこれらの評価項目に限らず、他の評価項目を用いることもできる。
音声合成パラメタ生成部12は、評価項目設定部11で指定された評価項目ごとのバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。この音声合成パラメタは各バリエーションに対応する合成音を生成するためのものである。音声合成パラメタの生成は、ある評価項目に対応する音声合成パラメタについて、評価項目のバリエーションに対応する音声合成パラメタの設定値を生成することで行う。音声合成パラメタの生成については後に図5を参照して具体例を挙げて詳細に説明する。
音声合成部13は、音声合成パラメタ生成部12から出力される音声合成パラメタに基づいて音声合成処理を行う。音声合成処理は、入力された音声合成パラメタの設定値の組合せごとに、評価項目設定部11が予め格納している標準的な語彙セット(後述する図3の113)に含まれる全ての語彙を読み上げる音声を合成する。その後、音声合成部13は合成音を合成音出力部14に出力する。
合成音出力部14は、音声合成部13で生成された合成音を、評価対象である音声認識装置に出力する。音声認識装置は合成音を入力として認識処理を行う。認識結果取得部15は、合成音出力部14から出力された合成音に対する音声認識装置の認識結果を取得し、認識結果解析部16に出力する。
認識結果解析部16は、認識結果取得部15から出力される音声認識装置の認識結果及び評価項目設定部11から出力される評価項目を入力として、評価項目設定部11で指定された評価項目に対する音声認識装置の性能を解析する。認識結果解析部16は、入力された認識結果が正解であるか不正解であるかを判定し、その判定結果を順次保存する。その際に、入力された認識結果に対応する評価項目とそのバリエーションに関する情報を認識結果と一緒に保存する。音声合成部13が、音声合成パラメタ生成部12が出力した音声合成パラメタセットに対応する全ての合成音の出力を完了し、それに対応する音声認識装置の全ての認識結果が得られた後で、認識結果解析部16は評価項目設定部11で指定された評価項目に対する音声認識装置の性能を統計的な手法を用いて解析する。認識結果解析部16は、その解析結果を解析結果提示部17に出力する。
解析結果提示部17は、認識結果解析部16から出力される解析結果をユーザに提示する。解析結果提示部17では、入力された解析結果をユーザが見やすい形式に整形し提示する。
次に、図1の音声認識評価装置で実行される動作を図2を参照して説明する。図2は、本発明の第1の実施形態に関する音声認識評価方法のフロー図である。
まず、評価項目設定部11がユーザから評価項目の指定を受け付ける。評価項目設定部11は、評価用音声情報を音声合成パラメタ生成部12に出力する。音声合成パラメタ生成部12は評価用音声情報から音声合成パラメタを生成し、音声合成パラメタを音声合成部13に出力する。音声合成部13は音声合成パラメタから合成音を生成し、合成音を合成音出力部14に出力する。合成音出力部14は、音声認識装置に合成音を出力して、音声認識装置に合成音を認識させる。音声認識装置が認識した合成音の認識結果は、認識結果取得部15が取得し認識結果を認識結果解析部16に出力する。認識結果解析部16は認識結果を解析する。すなわち、ステップS1の評価項目と認識結果とを参照して、評価項目に対する音声認識装置の性能を評価する。その後、解析結果提示部17が認識結果解析部16による解析結果はユーザに提示する。解析結果を提示後、ユーザが再度、音声認識装置を評価するか否か判断して、評価する場合はステップS1に戻り、評価項目を変更したりして再度音声認識装置を評価し、評価しない場合は音声認識装置の評価を終了する。
ここで、図1の評価項目設定部11及び認識結果解析部16を図3を参照して詳細に説明する。図3は、図1の評価項目設定部11及び認識結果解析部16のブロック図である。
評価項目設定部11は、声質評価項目入力部111、評価用音声情報生成部112、標準評価語彙セット113、及び声質評価項目バリエーション114を備えている。
声質評価項目入力部111はユーザから声質に関する評価項目の指定を入力して、声質に関する評価項目を評価用音声情報生成部112に出力する。
評価用音声情報生成部112は、声質評価項目入力部111から入力した評価項目に対して、評価項目ごとのバリエーションの情報である声質評価項目バリエーション114を参照し、評価項目ごとにバリエーションをもつ評価用音声の情報を生成する。さらに、評価用音声情報生成部112は、標準評価語彙セット113を参照しそこに格納されている語彙を利用して、評価用音声の語彙(発声内容)を生成する。そして、評価用音声情報生成部112は、ある音質の音声情報及び評価用音声の語彙を評価用音声情報として音声合成パラメタ生成部12に出力する。
標準評価語彙セット113は、音声認識装置を評価するための語彙を複数格納している。これらの語彙は、音声認識装置がしばしば入力すると期待される標準的な語彙であることが望ましい。声質評価項目バリエーション114は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション114の内容は後に図4を参照して説明する。
また、認識結果解析部16は、認識結果正解判定部161と評価項目別認識率計算部162とを備えている。
認識結果正解判定部161は、評価項目設定部11の標準評価語彙セット113から音声認識装置に入力した評価用音声の語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を評価項目別認識率計算部162に出力する。
評価項目別認識率計算部162は、声質評価項目入力部111から出力された声質に関する評価項目の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの認識率とその平均及び分散を求める。本実施形態では、「話者の性別」、「話速」、「声の高さ」のそれぞれの評価項目について、評価項目別認識率計算部162が評価項目のバリエーションごとの認識率及びその平均と分散を求めるが、その詳細は後に図6を参照して説明する。その後、評価項目別認識率計算部162はこれら認識率及び平均と分散を解析結果提示部17に出力する。
図3の声質評価項目バリエーション114の内容を図4を参照して説明する。図4は、図3の声質評価項目バリエーション114に格納されている情報を示す。評価項目設定部11の中にある声質評価項目バリエーション114は、予め用意されている評価項目ごとのバリエーションの情報を格納している。
図4に示した例では、「話者の性別」1141(図4では「話者(性別)」)には6種類のバリエーションがあり、「話速」1142、「声の高さ」1143にはそれぞれ5種類のバリエーションがある。この3つ以外の評価項目に関しては、それぞれの評価項目のバリエーションの中から標準的なものを1つだけ選択し利用する。図4に示した例では、評価項目「イントネーション」1144には3種類のバリエーションが存在するが、ここでは、その中から「標準」のみを選択して利用する。また、音声認識装置が受理可能な語彙セット(グラマーと呼ぶ。以下では単に「グラマー」と表記する)に関しては、標準評価語彙セット113が予め格納している標準的なグラマーを利用する。この結果、ユーザが評価項目として「話者(性別)」、「話速」、「声の高さ」を指定した場合には、6×5×5=150通りのバリエーションをもつ評価用音声データが利用可能となる。評価項目設定部11は、ユーザから指定された評価項目の情報を、音声合成パラメタ生成部12に出力する。
上述した図4のバリエーションに基づいて評価用音声情報生成部112が生成した評価用音声情報を音声合成パラメタ生成部12が入力して生成する音声合成パラメタを図5を参照して説明する。図5は、図4のバリエーションごとに音声合成パラメタ生成部12が生成した音声合成パラメタを示している。
図5の例では、評価項目「話者(性別)」には音声合成パラメタ「モデル」が対応し、評価項目「話者(性別)」のバリエーションである「男性A」〜「女性F」に対応して音声合成パラメタ「モデル」の設定値である「モデルA」〜「モデルF」を生成する。
評価項目「話速」には音声合成パラメタ「継続時間(ここでは1音素あたりの平均継続時間長を指す)」が対応し、評価項目「話速」のバリエーションに対応して音声合成パラメタ「継続時間」の設定値を「0.50」〜「2.00」の範囲で生成する。ここで、音声合成パラメタ「継続時間」の設定値は平均的な継続時間に対する比率を表しており、設定値が小さいほど1音素あたりの継続時間長が短い、すなわち話速が大きい、という関係となっている。
評価項目「声の高さ」には音声合成パラメタ「ピッチ」が対応し、評価項目「声の高さ」のバリエーションに対して音声合成パラメタ「ピッチ」の設定値を「2.00」〜「0.50」の範囲で生成する。ここで、音声合成パラメタ「ピッチ」は平均的なピッチに対する比率を表しており、設定値が大きいほどピッチが大きい、すなわち声が高い、という関係となっている。
前述の3つの音声合成パラメタ以外のパラメタに関しては、評価項目のバリエーションのうち標準的なものに対応する設定値をひとつだけ生成して、その設定値を用いる。図5の例では、評価項目「イントネーション」のバリエーションのひとつである「標準」に対して、音声合成パラメタ「韻律パターン」の設定値「標準韻律パターン」を生成する。他の評価項目、音声合成パラメタが存在する場合も同様である。ここで、音声合成部13の合成精度が優れず、評価項目のバリエーションの大きさが小さいものを再現できない場合がある。このように評価項目のバリエーションの大きさが音声合成部13の性能に制限されることを防ぐために、音声合成パラメタの設定値を大きめに変動させて設定するという制御を行うようにしてもよい。
このようにして、ユーザが指定した評価項目「話者(性別)」、「話速」、「声の高さ」のバリエーションの組合せによる150通りの評価音声データを合成するために必要な、音声合成パラメタ「モデル」、「継続時間」、「ピッチ」の異なる設定値及び他の音声合成パラメタの標準的な設定値を組み合わせた150通りの音声合成パラメタセットを生成する。音声合成パラメタ生成部12は、生成した音声合成パラメタセットを音声合成部13に出力する。
次に、図5に示した音声合成パラメタ生成部12が生成したパラメタを基にして生成した合成音を音声認識装置に出力して取得した認識結果を認識結果解析部16が解析して、解析結果提示部17に提示する解析結果を図6を参照して説明する。図6は、図5のパラメタを基にして解析した解析結果を示した図である。
図6の例では、評価項目設定部11で指定された評価項目「話者(性別)」、「話速」、「声の高さ」のそれぞれについて、そのバリエーションに対する認識率とその平均値、バリエーションに対する分散をユーザに提示している。解析結果を図6のような形式で提示することにより、ユーザは下記のようなことを容易に理解することができる。すなわち、「話者(性別)」については、男性Cの認識率が他に比べて低いことから、音声認識装置が特定の話者に対して十分な性能を発揮しない場合があることがわかる。「話速」については、そのバリエーションに対する認識率の分散が他の評価項目に比べて大きく、話速が遅くなるほど認識率が上昇することから、音声認識装置の性能が話速の変動に影響を受けやすく、話速が遅い(すなわち、ゆっくりと喋る)ほど良好な性能を示す傾向にあることがわかる。「声の高さ」については、そのバリエーションに対する認識率の分散が他の評価項目に比べて極めて小さいことから、音声認識装置の性能は声の高さにはほとんど全く影響を受けないことがわかる。音声認識装置の平均的な性能は、認識率の平均を参照することでわかる。
本実施形態で説明したように、本実施形態の音声認識評価装置を用いることで、ユーザが評価用音声データセットを用意するための時間及びコストを小さくすることができる。また、評価項目に対する音声認識装置の性能を容易に知ることができる。
(第2の実施形態)
第2の実施形態の音声認識評価装置は、音声特徴ベクトル合成部23及び特徴ベクトル出力部24のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図7は、本発明の第2の実施形態に関する音声認識評価装置のブロック図である。
第2の実施形態の音声認識評価装置は、音声特徴ベクトル合成部23において、合成音を出力するかわりに、評価対象である音声認識装置に入力することが可能な特徴ベクトル時系列を出力する。特徴ベクトル時系列は、例えば、LPCケプストラム(特徴量)である。LPCケプストラムは、例えば、「古井(著)、「音声情報処理」、森北出版株式会社」にその記載がある。音声特徴ベクトル合成部23は特徴ベクトル時系列を特徴ベクトル出力部24に出力する。特徴ベクトル出力部24は、入力された特徴ベクトル時系列を評価対象である音声認識装置に出力し、音声認識装置は入力された特徴ベクトル時系列を参照して音声認識処理を行う。
第2の実施形態の音声認識評価装置は、音声特徴ベクトル合成部23及び特徴ベクトル出力部24において、合成音ではなく合成音の代わりに、評価対象である音声認識装置に入力することが可能な特徴ベクトル時系列を出力することを特徴とする。一般に、音声認識装置に入力することが可能な特徴ベクトル時系列は合成音よりもデータサイズが小さくなる傾向がある。したがって、本実施形態の音声認識評価装置は、合成音ではなく特徴ベクトル時系列を用いることで、音声認識評価装置と評価対象である音声認識装置との間でのデータ入出力に必要な時間を短縮することができるという利点がある。
(第3の実施形態)
第3の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、ユーザは評価のためにグラマーを指定する。指定する評価項目が第1の実施形態と異なることに起因して、評価項目設定部31及び認識結果解析部36のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図8は本発明の第3の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部31は、音声認識装置の評価項目のうち、「音声認識装置が受理可能なグラマー」を受け付ける。ユーザは同時に、音声認識装置の評価に用いるグラマーを入力する。ここでは例として、「電源オン」、「電源オフ」という2つの語彙からなるグラマーを入力した場合について説明する。評価項目設定部31は、評価項目「グラマー」以外の評価項目のバリエーションを全て選択し、それらの情報を音声合成パラメタ生成部12に出力する。
認識結果解析部36では、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部36は評価項目設定部11で指定されたグラマーに含まれる語彙について、ある語彙がどの語彙に誤認識されたかを解析する。認識結果解析部36は、その解析結果を解析結果提示部17に出力する。
次に、評価項目設定部31及び認識結果解析部36を図9を参照して詳細に説明する。図9は、図8の評価項目設定部31及び認識結果解析部36のブロック図である。
評価項目設定部31は、評価語彙入力部311、評価用音声情報生成部312、及び声質評価項目バリエーション313を備えている。
評価語彙入力部311は、ユーザからグラマーに関する評価項目の指定を入力して、グラマーに関する評価項目を評価用音声情報生成部312に出力する。
評価用音声情報生成部312は、評価語彙入力部311から入力した評価項目に対して、声質の評価項目ごとのバリエーションの情報である声質評価項目バリエーション313を参照し、評価項目ごとにバリエーションをもつ評価用音声情報を生成する。
声質評価項目バリエーション313は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション313の内容は図4を参照して上述した。
また、認識結果解析部36は、認識結果正解判定部361、及び評価語彙別誤り率計算部362を備えている。
認識結果正解判定部361は、評価項目設定部31の評価語彙入力部311に入力された評価語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を評価語彙別誤り率計算部362に出力する。
評価語彙別誤り率計算部362は、評価語彙入力部311から出力された評価語彙の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの誤り頻度を求めるが、その詳細は後に図10を参照して説明する。その後、評価語彙別誤り率計算部362は誤り頻度を解析結果提示部17に出力する。
以下、音声認識装置の評価項目として、音声認識装置が受理可能なグラマーとして「電源オン」、「電源オフ」という2つの語彙からなるグラマーの場合を例にとって、本実施形態の詳細を説明する。
ユーザはまず、評価項目設定部31が提示する音声認識装置の評価項目のうち、「音声認識装置が受理可能なグラマー」を選択する。ユーザは同時に、音声認識装置の評価に用いるグラマーを評価語彙入力部311に入力する。
評価用音声情報生成部312は、評価語彙入力部311から指定されたグラマーに対して、声質評価項目ごとのバリエーションの情報である声質評価項目バリエーション313を参照し、声質評価項目バリエーション313に格納されている全ての声質評価項目のバリエーションをもつ評価用音声の情報を生成する。すなわち、グラマーに含まれる単語ごとに、声質評価項目バリエーション313に格納されている「話者(性別)」、「話速」、「声の高さ」、及び「イントネーション」の全てのバリエーションをもつ評価用音声の情報を生成する。
評価項目設定部31は評価用音声情報を音声合成パラメタ生成部12に出力する。音声合成パラメタ生成部12では、評価項目ごとのバリエーションに対応する音声合成パラメタを生成する。
音声合成パラメタ生成部12は、入力された評価項目のうち「グラマー」以外の評価項目ごとのバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。音声合成パラメタの生成方法は第1の実施形態と同様である。音声合成パラメタ生成部12では、生成した音声合成パラメタセットと、ユーザが入力したグラマーを音声合成部13に出力する。
音声合成部13は、入力された音声合成パラメタに基づいて音声合成処理を行う。その際に、評価項目設定部11でユーザが入力したグラマーに含まれる全ての語彙を読み上げる音声を合成する。前述の例では、全ての音声合成パラメタの設定値の組合せごとに「電源オン」、「電源オフ」という2発声分の音声を合成する処理を行う。音声合成部13は、合成音を合成音出力部14に出力する。
合成音出力部14は、評価対象である音声認識装置に合成音を出力する。音声認識装置は合成音を入力として認識処理を行う。認識結果取得部15は、評価対象である音声認識装置から出力される認識結果を取得し、認識結果解析部36に出力する。
認識結果解析部36では、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部36は評価項目設定部11で指定されたグラマーに含まれる語彙について、ある語彙がどの語彙に誤認識されたかを解析する。認識結果解析部36は、その解析結果を解析結果提示部17に出力する。
この例では、図10の上段に示されるようにグラマーに含まれる「電源オン」、「電源オフ」のそれぞれの単語について、「電源オン」が「電源オフ」に誤って認識された頻度、及び、「電源オフ」が「電源オン」に誤って認識された頻度を求める。図10は、評価語彙別誤り率計算部362が計算した解析結果であって、解析結果提示部17がユーザに提示する解析結果を示した図である。
解析結果提示部17では、入力された解析結果をユーザが見やすい形式に整形し、ユーザに提示する。その例を図10の上段に示す。図10の上段の例では、評価項目設定部31で指定されたグラマーに含まれる語彙のそれぞれについて、誤認識された場合の語彙とその頻度をユーザに提示している。この頻度は語彙の総発声数に対する誤認識の発声回数である。解析結果を図10のような形式で提示することにより、ユーザは、どの語彙がどの語彙に誤認識されやすいのかという傾向と、そのような誤認識の発生頻度を容易に知ることができる。例えば図10の上段を見ると、語彙「電源オフ」は語彙「電源オン」に誤認識されるという強い傾向(偏り)があるが、その逆の傾向は無いことが容易にわかる。
ユーザは、解析結果提示部17で提示された解析結果をもとにグラマーを変更し、グラマー以外の条件を変更せずに、前述までの処理を再実行することができる。そのような例として、グラマーを「電源つけて」、「電源けして」という2つの語彙からなるグラマーに変更して前述までの処理を再実行した場合の解析結果提示部17の出力を図10の下段に示す。図10の下段の解析結果を見ると、図10の上段に見られるような特定の誤認識傾向の偏りは存在しておらず、全ての語彙が同じ頻度で誤認識されていることがわかる。図10の上段と下段(すなわち、グラマー修正前と修正後)の解析結果を比較することにより、ユーザは、図10の上段において用いたグラマーに比べて、図10の下段で用いたグラマーには特定の誤認識傾向の偏りが存在しないことを容易に知ることができる。
図10に示すように、2つの異なるグラマーをそれぞれ用いて音声認識装置の性能の解析結果を出し、その結果得られた2つの解析結果を比較することで、2つのグラマー間の誤り傾向の差を容易に理解することができる。図10の例では、ユーザは、「電源つけて」、「電源消して」という2つの単語から構成されるグラマーを用いた場合には、「電源オン」、「電源オフ」という2つの単語から構成されるグラマーを用いた場合に比べて、誤り率の偏りが小さくなることを容易に知ることができる。
本実施形態の音声認識評価装置を用いることで、ユーザは、音声認識装置が受理可能なグラマーについて、特定の誤認識傾向の偏りが存在するか否かを容易に知ることができる。また、複数のグラマーに対する音声認識装置の認識結果の比較も容易に行うことができる。
(第4の実施形態)
第4の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、ユーザは人間による実発声において現れることがありうる言い淀みや不要語の挿入を、評価用データセットに含めるか否かを選択することができる。指定する評価項目が第1の実施形態と異なることに起因して、評価項目設定部41及び認識結果解析部46のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図11は本発明の第4の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部41は、音声認識装置の評価項目として、人間による実発声において現れる言い淀みや不要語の挿入を受け付ける。さらに、グラマーに対して、言い淀みや不要語の挿入が起こる位置と、その内容を指定できる。例えば、単語「つけて」の直前に言い淀みを挿入する、単語「電源」と単語「けして」の間に不要語「え〜と」を挿入する、というように指定することができる。言い淀みや不要語の挿入が起こる位置とその内容(「え〜と」など)を指定しない場合には、評価項目設定部41が予め格納している言い淀み、不要語のパターンのリストから適当なものを選択し、グラマー中の任意の位置に挿入する。挿入する位置やその内容はランダムに決定してもよいし、グラマー中で言い淀みや不要語の挿入が起こりやすい位置やその内容に関する統計的な情報を予め格納しておき、その情報をもとに挿入する位置と内容を決定してもよい。
認識結果解析部46は、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部46は評価項目設定部41で指定されたグラマーに含まれる語彙について、ある語彙がどの語彙に誤認識されたかを解析する。認識結果解析部46は、その解析結果を解析結果提示部17に出力する。
次に、評価項目設定部41及び認識結果解析部46を図12を参照して詳細に説明する。図12は、図11の評価項目設定部41及び認識結果解析部46のブロック図である。
評価項目設定部41は、評価語彙入力部411、不要語挿入部412、評価用音声情報生成部413、及び声質評価項目バリエーション414を備えている。
評価語彙入力部411は、音声認識装置が受理可能なグラマーの指定をユーザから受け付ける。不要語挿入部412は、不要語が挿入されたグラマーと挿入されていないグラマーを生成し、それらのグラマーを評価語彙として評価用音声情報生成部413に出力する。不要語挿入部412は、グラマーには含まれないが人間の実発声において現れる可能性の高い「え〜と」などの発声や言い淀みなどの不要語の発声内容と、グラマー中で不要語が挿入される位置を指定する。
評価用音声情報生成部413は、不要語挿入部412から入力した評価項目に対して、声質の評価項目ごとのバリエーションの情報である声質評価項目バリエーション414を参照し、評価項目ごとにバリエーションをもつ評価用音声情報を生成する。
声質評価項目バリエーション414は、評価項目ごとに対応して複数のバリエーションを格納している。声質評価項目バリエーション414の内容は第3の実施形態での声質評価項目バリエーション313と同様である。
また、認識結果解析部46は、認識結果正解判定部461及び不要語有無別誤り率計算部462を備えている。
認識結果正解判定部461は、評価項目設定部41の評価語彙入力部411に入力された評価語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を不要語有無別誤り率計算部462に出力する。
不要語有無別誤り率計算部462は、評価語彙入力部411及び不要語挿入部412からそれぞれ出力された評価語彙及び不要語の内容と不要語の挿入位置の情報を参照し、正解又は不正解の情報が付与された認識結果に対して、評価項目別にそのバリエーションごとの誤り頻度を求めるが、その詳細は後に図13を参照して説明する。その後、不要語有無別誤り率計算部462は誤り率を解析結果提示部17に出力する。
以下、本実施形態の全体の動作の流れを説明する。
評価項目設定部41は、ユーザが指定した評価項目やグラマーと共に、言い淀みや不要語が挿入される位置とその内容の情報を、音声合成パラメタ生成部12へ出力する。音声合成パラメタ生成部12では、入力された評価項目のバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。音声合成パラメタ生成部12は、生成した音声合成パラメタセットと、グラマー、言い淀みや不要語が挿入される位置とその内容を、音声合成部13に出力する。
音声合成部13は、入力された音声合成パラメタに基づいて音声合成処理を行う。その際に、ユーザが入力したグラマーに対して、言い淀みや不要語を挿入すべき位置に挿入した上で、グラマーに含まれる全ての語彙を読み上げる音声を合成する。この結果ユーザは、言い淀みや不要語が挿入された評価用音声データセットを容易に得ることができる。音声合成部13は、合成音を合成音出力部14に出力する。
合成音出力部14、認識結果取得部15、解析結果提示部17は、第1の実施形態及び第3の実施形態と同様に動作する。ユーザが評価項目設定部41において指定した評価項目に対しては第1の実施形態と同様に、グラマーに対しては第3の実施形態と同様に動作する。
さらに本実施形態では、認識結果解析部46において、言い淀みや不要語の挿入の有無に対する音声認識装置の性能を解析し、解析結果提示部17では、その解析結果をユーザが見やすい形式に整形して提示する。その例を図13に示す。図13は、不要語有無別誤り率計算部462が計算して求めた不要語の有無別の誤り率を示した図である。解析結果を図13のような形式で提示することにより、ユーザは、言い淀みや不要語の挿入の有無に対する音声認識装置の性能変動を容易に知ることができる。例えば図13の例では、言い淀みや不要語の挿入がある場合に、評価対象である音声認識装置の性能は大幅に低下することがわかる。
一般に、人間の発声者に言い淀みや不要語の挿入を意識して行ってもらうことは難しいが、本実施形態の音声認識評価装置を用いることで、言い淀みや不要語が挿入された評価用音声データセットを少ない時間及びコストで容易に得ることができる。また、本実施形態の音声認識評価装置を用いることで、ユーザは、人間による実発声において現れるであろう言い淀みや不要語の挿入に対して、音声認識装置がどれだけ頑健な認識性能を発揮できるかを容易に知ることができる。
(第5の実施形態)
第4の実施形態の音声認識評価装置は、ユーザが指定する評価項目が他の実施形態と異なる。本実施形態では、発声時の感情を評価用データセットに含めるか否かを選択することができる。人間は通常、感情に依存して発声される音声も変化すると期待される。本実施形態では、感情に応じて変化した発声に対する音声認識装置の性能を評価するための音声認識評価装置を提供する。指定する評価項目が第1の実施形態と異なることに起因して、評価項目設定部51及び認識結果解析部56のみが第1の実施形態の音声認識評価装置と異なる。その他は第1の実施形態に示した音声認識評価装置と同様である。図14は本発明の第5の実施形態に関する音声認識評価装置のブロック図である。
評価項目設定部51は、音声認識評価装置の評価項目として、人間が発声する際の感情を受け付ける。ユーザは評価用音声データ発声時の感情を指定する。感情の評価項目としては、例えば、「怒り」、「喜び」、「悲しみ」がある。評価項目設定部51は、ユーザが指定した評価項目やグラマーと共に、発生時の感情の情報を音声合成パラメタ生成部12へ出力する。
認識結果解析部56は、入力された認識結果の正解又は不正解を判定し、その結果を順次保存する。認識結果解析部56は感情情報入力部511で指定された感情について、その感情に応じて変化した発声が認識されたかを解析する。認識結果解析部56は、その解析結果を解析結果提示部17に出力する。
次に、評価項目設定部51及び認識結果解析部56を図15を参照して詳細に説明する。図15は、図14の評価項目設定部51及び認識結果解析部56のブロック図である。
評価項目設定部51は、感情情報入力部511、評価用音声情報生成部512、標準評価語彙セット513、及び声質評価項目バリエーション514を備えている。
感情情報入力部511は、評価項目として、発声時での感情の種類の指定をユーザから受付、評価用音声情報生成部512に発声時の感情の種類を出力する。評価用音声情報生成部512は、標準評価語彙セット513と声質評価項目バリエーション514を参照して、評価用音声情報を生成し、この評価用音声情報を音声合成パラメタ生成部12に出力する。評価用音声情報生成部512では、標準評価語彙セットに格納されているグラマーに対して、声質評価項目バリエーションを参照し、声質評価項目バリエーションに格納されている全ての声質評価項目のバリエーションをもつ評価用音声の情報を生成する。すなわち、グラマーに含まれる単語ごとに、声質評価項目バリエーションに格納されている「話者(性別)」、「話速」、「声の高さ」、「イントネーション」の全てのバリエーションをもつ評価用音声情報を生成する。そして、評価用音声情報生成部512は、感情情報入力部511から出力された発声時の感情の種類を参照し、感情の種類ごとに上記の評価用音声情報を生成するものとする。
認識結果解析部56は、認識結果正解判定部561及び感情情報別認識率計算部562を備えている。
認識結果正解判定部561は、評価項目設定部51の標準評価語彙セット513から音声認識装置に入力した評価用音声の語彙を入力して、この語彙と認識結果取得部15で得られた認識結果を比較し、この認識結果が正解であるか不正解であるかの判定を行い、認識結果に正解又は不正解の情報を付与し、その正解情報が付与された認識結果を感情情報別認識率計算部562に出力する。
感情情報別認識率計算部562は、感情情報入力部511から出力された発声時の感情の種類を参照し、正解又は不正解の情報が付与された認識結果に対して、感情の種類別に、感情に応じて変化した発声の認識率を求める。例えば図16に示すように、「怒り」、「喜び」、「悲しみ」という3種の感情それぞれについて、それぞれの感情に応じて変化した発声の認識率を求める。そして、感情情報別認識率計算部562は、発声時の感情の種類別に求めた認識率を、発声時の感情の種類に応じて変化する発声に対する音声認識装置の性能の解析結果として解析結果提示部17に出力する。
以下、本実施形態の全体の動作の流れを説明する。
評価項目設定部51は、ユーザが指定した評価項目やグラマーと共に、発生時の感情の情報を音声合成パラメタ生成部12に出力する。音声合成パラメタ生成部12は、声質に関する情報及び発声時の感情を参照して、それぞれの項目のバリエーションに対応する音声合成パラメタを生成する。音声合成パラメタ生成部12では、入力された評価項目のバリエーションに対して、バリエーションに対応する音声合成パラメタを生成する。その際に、感情音声合成の技術を利用して、評価項目設定部51で指定された感情に応じて音声合成パラメタを調整し、合成音に込める感情を指定するパラメタ(感情パラメタ)を付与する。音声合成パラメタ生成部12は、生成した音声合成パラメタセットと、必要ならば付与された感情パラメタとを、感情音声の合成が可能な音声合成部13に出力する。
音声合成部13は、入力された音声合成パラメタ、及び、付与された感情パラメタに基づいて、感情が込められた音声を合成する処理を行う。音声合成部13は、感情が込められた合成音を合成音出力部14に出力する。
合成音出力部14、認識結果取得部15、解析結果提示部17は、第1の実施形態及び第3の実施形態と同様に動作する。ユーザが評価項目設定部11において指定した評価項目に対しては第1の実施形態と同様に、グラマーに対しては第3の実施形態と同様に動作する。さらに本実施形態では、認識結果解析部56において、ユーザが指定した感情の種類に応じて変化した発声に対する音声認識装置の性能を解析し、解析結果提示部17では、その解析結果をユーザが見やすい形式に整形して提示する。その例を図16に示す。図16は、感情情報別認識率計算部562が計算して求めた認識率を示した図である。解析結果を図16のような形式で提示することにより、ユーザは、発声時の感情の種類に応じて変化した発声に対する音声認識装置の性能変動を容易に知ることができる。例えば図16の例では、発声時の感情が「怒り」、「喜び」である場合に比べて、感情が「悲しみ」である場合には、評価対象である音声認識装置の性能は大幅に低下することがわかる。
一般に、人間の発声者に感情を込めた発声を意識して行ってもらうことは難しいが、本実施形態の音声認識評価装置を用いることで、感情を込めて発声された評価用音声データセットを容易に得ることができる。また、本実施形態の音声認識評価装置を用いることで、ユーザは、感情が込められた発声に対して、音声認識装置がどれだけ頑健な認識性能を発揮できるかを容易に知ることができる。
以上説明したように、本発明の実施形態の音声認識評価装置、音声認識評価方法、及び音声認識評価プログラムは、従来の音声認識装置の評価において問題となっていた、評価用音声データセットを用意するためにかかる時間及びコストが非常に大きいという問題を解決することができる。さらに、評価項目ごとの音声認識装置の性能を容易に知ることができる。本実施形態の音声認識評価装置は、音声認識装置を評価しようとするユーザにとって、非常に有用な装置である。
また、本発明の実施形態では、評価者が指定した音声認識装置の任意の評価項目を基に、評価項目のバリエーションを十分にカバーできるような合成音を出力するために必要な合成音パラメタの設定値を自動的に生成する。音声合成部はこの合成音パラメタの設定値を用いて合成音を出力する。この合成音を評価用音声データセットとして用いることで、評価者は、時間及びコストをほとんどかけずに評価用音声データセットを得ることが可能となる。
さらに、本発明の実施形態では、音声認識装置が出力する認識結果を評価者が指定した評価項目ごとに統計的な手法を用いて自動的に解析し、評価項目ごとの性能を評価者に提示する。この結果、評価者は、評価項目を指定するだけで、評価項目ごとの音声認識装置の性能を容易に知ることが可能となる。
また、上述の実施形態の中で示した処理手順に示された指示、及び流れ図の各ステップに示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声認識評価装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声認識評価装置と同様な動作を実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に関する音声認識評価装置のブロック図。 本発明の第1の実施形態に関する音声認識評価方法のフロー図。 図1の評価項目設定部及び認識結果解析部のブロック図。 図3の声質評価項目バリエーションに格納されている情報を示す図。 図4のバリエーションごとに図1の音声合成パラメタ生成部が生成した音声合成パラメタを示す図。 図5のパラメタを基にして認識結果解析部が解析した解析結果を示した図。 本発明の第2の実施形態に関する音声認識評価装置のブロック図。 本発明の第3の実施形態に関する音声認識評価装置のブロック図。 図8の評価項目設定部及び認識結果解析部のブロック図。 図8の解析結果提示部がユーザに提示する解析結果を示す図。 本発明の第4の実施形態に関する音声認識評価装置のブロック図。 図11の評価項目設定部及び認識結果解析部のブロック図。 図11の解析結果提示部がユーザに提示する解析結果を示す図。 本発明の第5の実施形態に関する音声認識評価装置のブロック図。 図14の評価項目設定部及び認識結果解析部のブロック図。 図14の解析結果提示部がユーザに提示する解析結果を示す図。
符号の説明
11、31、41、51・・・評価項目設定部、12・・・音声合成パラメタ生成部、13・・・音声合成部、14・・・合成音出力部、15・・・認識結果取得部、16、36、46、56・・・認識結果解析部、17・・・解析結果提示部、23・・・音声特徴ベクトル合成部、24・・・特徴ベクトル出力部、111・・・声質評価項目入力部、112・・・評価用音声情報生成部、113、513・・・標準評価語彙セット、114、313、414、514・・・声質評価項目バリエーション、161、361、461、561・・・認識結果正解判定部、162・・・評価項目別認識率計算部、311、411・・・評価語彙入力部、312、413、512・・・評価用音声情報生成部、362・・・評価語彙別誤り率計算部、412・・・不要語挿入部、462・・・不要語有無別誤り率計算部、511・・・感情情報入力部、562・・・感情情報別認識率計算部

Claims (36)

  1. 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
    前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、
    前記パラメタに基づいて合成音を生成する合成音生成手段と、
    前記合成音を前記音声認識装置に出力する出力手段と、
    前記音声認識装置が前記合成音を認識した認識結果を前記音声認識装置から取得する取得手段と、
    前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする音声認識評価装置。
  2. 前記音声情報生成手段は、
    前記評価項目を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。
  3. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項2に記載の音声認識評価装置。
  4. 前記音声情報生成手段は、
    前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。
  5. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項4に記載の音声認識評価装置。
  6. 前記音声情報生成手段は、
    前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と、該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報とを取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。
  7. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出する算出手段とを具備することを特徴とする請求項6に記載の音声認識評価装置。
  8. 前記音声情報生成手段は、
    前記評価項目として、発声時の感情の種類を指定する感情情報を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項1に記載の音声認識評価装置。
  9. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出する算出手段とを具備することを特徴とする請求項8に記載の音声認識評価装置。
  10. 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
    前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、
    前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、
    前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、
    前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
    前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段とを具備することを特徴とする音声認識評価装置。
  11. 前記音声情報生成手段は、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも1つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項1から請求項10のいずれかに記載の音声認識評価装置。
  12. 前記評価手段の評価結果を提示する提示手段をさらに具備することを特徴とする請求項1から請求項11のいずれかに記載の音声認識評価装置。
  13. 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、
    前記評価用音声情報に対応する合成音を生成するためのパラメタを生成し、
    前記パラメタに基づいて合成音を生成し、
    前記合成音を前記音声認識装置に出力し、
    前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得し、
    前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする音声認識評価方法。
  14. 前記評価用音声情報を生成することは、
    前記評価項目を取得し、
    複数の声質情報を格納し、
    前記合成音を語彙の発声に対応させるための語彙情報を格納し、
    前記評価項目に応じて前記声質格納手段から声質情報を選択し、
    該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。
  15. 前記評価項目に対する前記音声認識装置の性能を評価することは、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
    正解であるか否かの判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出することを特徴とする請求項14に記載の音声認識評価方法。
  16. 前記評価用音声情報を生成することは、
    前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得し、
    複数の声質情報を格納し、
    前記評価項目に応じて声質情報を選択し、
    該声質情報と前記語彙情報とを含む評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。
  17. 前記評価項目に対する前記音声認識装置の性能を評価することは、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
    正解であるか否かの判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出することを特徴とする請求項16に記載の音声認識評価方法。
  18. 前記評価用音声情報を生成することは、
    前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報を取得し、
    複数の声質情報を格納し、
    前記評価項目に応じて前記声質格納手段から声質情報を選択し、
    該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。
  19. 前記評価項目に対する前記音声認識装置の性能を評価することは、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
    正解であるか否かの判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出することを特徴とする請求項18に記載の音声認識評価方法。
  20. 前記評価用音声情報を生成することは、
    前記評価項目として、発声時の感情の種類を指定する感情情報を取得し、
    複数の声質情報を格納し、
    前記合成音を語彙の発声に対応させるための語彙情報を格納し、
    前記評価項目に応じて前記声質格納手段から声質情報を選択し、
    該声質情報と前記語彙情報とを含む評価用音声情報を生成することを特徴とする請求項13に記載の音声認識評価方法。
  21. 前記評価項目に対する前記音声認識装置の性能を評価することは、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定し、
    正解であるか否かの判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出することを特徴とする請求項20に記載の音声認識評価方法。
  22. 音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成し、
    前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成し、
    前記パラメタに基づいて特徴ベクトル時系列を生成し、
    前記特徴ベクトル時系列を前記音声認識装置に出力し、
    前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得し、
    前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価することを特徴とする音声認識評価方法。
  23. 前記評価用音声情報を生成することは、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも1つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項13から請求項22のいずれかに記載の音声認識評価方法。
  24. 前記評価項目に対する前記音声認識装置の性能を評価する評価結果を提示することをさらに具備することを特徴とする請求項13から請求項23のいずれかに記載の音声認識評価方法。
  25. コンピュータを、
    音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
    前記評価用音声情報に対応する合成音を生成するためのパラメタを生成するパラメタ生成手段と、
    前記パラメタに基づいて合成音を生成する合成音生成手段と、
    前記合成音を前記音声認識装置に出力する出力手段と、
    前記音声認識装置が前記合成音を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
    前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるための音声認識評価プログラム。
  26. 前記音声情報生成手段は、
    前記評価項目を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報とを含み、前記パラメタを生成するための評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。
  27. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、評価項目の各音声情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項26に記載の音声認識評価プログラム。
  28. 前記音声情報生成手段は、
    前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。
  29. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、評価項目の各語彙情報に対して認識率を算出する算出手段とを具備することを特徴とする請求項28に記載の音声認識評価プログラム。
  30. 前記音声情報生成手段は、
    前記評価項目として、前記合成音を語彙の発声に対応させるための語彙情報と、該語彙情報に含める無意味な言葉及びその挿入位置に関する無意味語情報を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報と前記無意味語情報を含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。
  31. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、語彙の発声中に無意味語が挿入されているか否かに対して認識率を算出する算出手段とを具備することを特徴とする請求項30に記載の音声認識評価プログラム。
  32. 前記音声情報生成手段は、
    前記評価項目として、発声時の感情の種類を指定する感情情報を取得する取得手段と、
    複数の声質情報を格納している声質格納手段と、
    前記合成音を語彙の発声に対応させるための語彙情報を格納している語彙格納手段と、
    前記評価項目に応じて前記声質格納手段から声質情報を選択する選択手段と、
    該声質情報と前記語彙情報とを含む評価用音声情報を生成する生成手段とを具備することを特徴とする請求項25に記載の音声認識評価プログラム。
  33. 前記評価手段は、
    前記合成音に対応する語彙情報と前記認識結果とを比較して、前記認識結果が正解であるか否かを判定する判定手段と、
    該判定手段の判定結果と前記評価項目とを参照して、発声時の感情の種類ごとに認識率を算出する算出手段とを具備することを特徴とする請求項32に記載の音声認識評価プログラム。
  34. コンピュータを、
    音声認識装置を評価する評価項目を取得して、該評価項目に基づいて音声認識装置に出力する合成音の特徴を決定する評価用音声情報を生成する音声情報生成手段と、
    前記評価用音声情報に対応する特徴ベクトル時系列を生成するためのパラメタを生成するパラメタ生成手段と、
    前記パラメタに基づいて特徴ベクトル時系列を生成する時系列生成手段と、
    前記特徴ベクトル時系列を前記音声認識装置に出力する出力手段と、
    前記音声認識装置が前記特徴ベクトル時系列を入力して認識した認識結果を前記音声認識装置から取得する取得手段と、
    前記評価項目と前記認識結果とを参照して、該評価項目に対する前記音声認識装置の性能を評価する評価手段として機能させるための音声認識評価プログラム。
  35. 前記音声情報生成手段は、性別による声質、話速、声の高さ、及び、イントネーションのうちの少なくとも1つを含んでいる評価項目を生成し、各評価項目は複数のバリエーションからなることを特徴とする請求項25から請求項34のいずれかに記載の音声認識評価プログラム。
  36. 前記評価手段の評価結果を提示する提示手段をさらに具備することを特徴とする請求項25から請求項35のいずれかに記載の音声認識評価プログラム。
JP2003312747A 2003-09-04 2003-09-04 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム Expired - Fee Related JP3984207B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003312747A JP3984207B2 (ja) 2003-09-04 2003-09-04 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
US10/931,998 US7454340B2 (en) 2003-09-04 2004-09-02 Voice recognition performance estimation apparatus, method and program allowing insertion of an unnecessary word
CNB2004101038905A CN1311422C (zh) 2003-09-04 2004-09-03 语音识别评价装置和语音识别评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003312747A JP3984207B2 (ja) 2003-09-04 2003-09-04 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム

Publications (2)

Publication Number Publication Date
JP2005084102A true JP2005084102A (ja) 2005-03-31
JP3984207B2 JP3984207B2 (ja) 2007-10-03

Family

ID=34413914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003312747A Expired - Fee Related JP3984207B2 (ja) 2003-09-04 2003-09-04 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム

Country Status (3)

Country Link
US (1) US7454340B2 (ja)
JP (1) JP3984207B2 (ja)
CN (1) CN1311422C (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113569A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整
JP2007199173A (ja) * 2006-01-24 2007-08-09 Asahi Kasei Corp 評価用データ生成装置、認識性能分布情報生成装置およびシステム
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
KR100930039B1 (ko) * 2007-12-18 2009-12-07 한국전자통신연구원 음성 인식기의 성능 평가 장치 및 그 방법
JP2010190995A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声処理装置、音声処理方法及び音声処理プログラム
US9734821B2 (en) 2015-06-30 2017-08-15 International Business Machines Corporation Testing words in a pronunciation lexicon
KR20210128255A (ko) * 2020-04-16 2021-10-26 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
JP2007047412A (ja) * 2005-08-09 2007-02-22 Toshiba Corp 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
WO2007120418A2 (en) * 2006-03-13 2007-10-25 Nextwire Systems, Inc. Electronic multilingual numeric and language learning tool
EP2685451A3 (en) 2006-04-03 2014-03-19 Vocollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN103366737B (zh) 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
WO2014199450A1 (ja) * 2013-06-11 2014-12-18 株式会社東芝 電子透かし埋め込み装置、電子透かし埋め込み方法、及び電子透かし埋め込みプログラム
CN104732968B (zh) * 2013-12-20 2018-10-02 上海携程商务有限公司 语音操控系统的评价系统及方法
JP6580882B2 (ja) 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
CN105336342B (zh) * 2015-11-17 2019-05-28 科大讯飞股份有限公司 语音识别结果评价方法及系统
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN106448701B (zh) * 2016-08-30 2019-10-25 河北师范大学 一种声乐综合训练系统
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP7073640B2 (ja) * 2017-06-23 2022-05-24 カシオ計算機株式会社 電子機器、感情情報取得システム、プログラム及び感情情報取得方法
CN107403629B (zh) * 2017-08-16 2020-10-09 歌尔股份有限公司 远场拾音性能评价方法和系统、电子设备
US10553203B2 (en) * 2017-11-09 2020-02-04 International Business Machines Corporation Training data optimization for voice enablement of applications
US10565982B2 (en) * 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
US10636423B2 (en) * 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
CN108986811B (zh) * 2018-08-31 2021-05-28 北京新能源汽车股份有限公司 一种语音识别的检测方法、装置和设备
KR102020773B1 (ko) * 2019-04-04 2019-11-04 미디어젠(주) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
CN110417589B (zh) * 2019-07-23 2022-11-29 徐州工程学院 一种车载语音云用户体验质量路测方法
FR3102603A1 (fr) * 2019-10-24 2021-04-30 Psa Automobiles Sa Procédé et dispositif d’évaluation d’un système de reconnaissance vocale

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
CN1287657A (zh) * 1998-08-17 2001-03-14 索尼株式会社 声音识别装置和方法、导航装置、便携电话装置以及信息处理装置
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
JP2001117581A (ja) * 1999-10-22 2001-04-27 Alpine Electronics Inc 感情認識装置
JP2001338265A (ja) * 2000-05-25 2001-12-07 Fujitsu Ltd パターン認識装置及び方法並びに当該装置及び方法を実現するコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
WO2002049001A1 (fr) * 2000-12-14 2002-06-20 Sony Corporation Dispositif d'extraction d'informations
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113569A (ja) * 2004-10-15 2006-04-27 Microsoft Corp 音声認識システムの音響モデルから生成された合成入力を用いた自動音声認識システムのテストおよび調整
JP2007199173A (ja) * 2006-01-24 2007-08-09 Asahi Kasei Corp 評価用データ生成装置、認識性能分布情報生成装置およびシステム
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
KR100930039B1 (ko) * 2007-12-18 2009-12-07 한국전자통신연구원 음성 인식기의 성능 평가 장치 및 그 방법
JP2010190995A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声処理装置、音声処理方法及び音声処理プログラム
US8650034B2 (en) 2009-02-16 2014-02-11 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product for speech processing
US9734821B2 (en) 2015-06-30 2017-08-15 International Business Machines Corporation Testing words in a pronunciation lexicon
US10373607B2 (en) 2015-06-30 2019-08-06 International Business Machines Corporation Testing words in a pronunciation lexicon
KR20210128255A (ko) * 2020-04-16 2021-10-26 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치
KR102386635B1 (ko) 2020-04-16 2022-04-14 주식회사 카카오엔터프라이즈 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치

Also Published As

Publication number Publication date
US20050086055A1 (en) 2005-04-21
CN1311422C (zh) 2007-04-18
US7454340B2 (en) 2008-11-18
CN1619643A (zh) 2005-05-25
JP3984207B2 (ja) 2007-10-03

Similar Documents

Publication Publication Date Title
JP3984207B2 (ja) 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JP4539537B2 (ja) 音声合成装置,音声合成方法,およびコンピュータプログラム
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4125362B2 (ja) 音声合成装置
US20090281807A1 (en) Voice quality conversion device and voice quality conversion method
JP5149107B2 (ja) 音響処理装置およびプログラム
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JP2006201749A (ja) 音声による選択装置、及び選択方法
JP2018072650A (ja) 音声対話装置及び音声対話方法
JP6464703B2 (ja) 会話評価装置およびプログラム
JP2007140200A (ja) 語学学習装置およびプログラム
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
Savchenko Semi-automated Speaker Adaptation: How to Control the Quality of Adaptation?
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
Cen et al. Generating emotional speech from neutral speech
JP4972660B2 (ja) 音声学習装置及びプログラム
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
JP6163454B2 (ja) 音声合成装置、その方法及びプログラム
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
Percybrooks et al. Voice conversion with linear prediction residual estimaton

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees