JP2021135396A

JP2021135396A - 端末、音声通話品質評価システムおよび品質基準生成システム

Info

Publication number: JP2021135396A
Application number: JP2020031709A
Authority: JP
Inventors: 仁山下; Hitoshi Yamashita; 卓也篠崎; Takuya Shinozaki; 宏松永; Hiroshi Matsunaga
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2021-09-13

Abstract

【課題】多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施する。【解決手段】端末１０は、所定の試験シナリオに基づいて試験音声および音声認識装置を選択し、選択された試験音声を、上記選択された音声認識装置５０へ音声通信網経由で送信し（矢印Ａ１）、そして、音声認識により得られた認識結果テキストを音声認識装置５０から受信する（矢印Ａ２）。さらに、端末１０は、受信された認識結果テキストと元の試験音声テキストとを比較し、予め対応付けられた音声認識精度および音声通話品質評価値（ＭＯＳ値）を記憶した音声認識精度ＭＯＳ値対応表を参照して、上記比較結果から得られる音声認識精度に対応する音声通話品質評価値（ＭＯＳ値）を取得する。【選択図】図１

Description

本開示は、端末、音声通話品質評価システムおよび品質基準生成システムに関する。

音声通信網をユーザに提供する事業者にとって、さまざまな場所における音声通話の品質評価を定常的に実施することは非常に重要であり、従来より、さまざまな音声通話の品質評価方法が実施されてきた。例えば、従来の品質評価方法として、予め生成された評価用の音声データを音声通信網経由で送受信し、送受信された後の音声データと元の音声データとの比較結果に基づいて、音声通話の品質評価を行う方法が知られている（特許文献１参照）。

特開２００５−０２６９０１号公報

上記のような従来技術では、音声データ同士を比較する処理が必要となり、このような比較処理を実行する比較モジュールなどの特別な構成要素を要する点が課題であった。また、別のさまざまな従来技術では、(1)大きいサイズの試験用音声パケットデータの収集を必要とする、(2)ネットワーク側で試験用の無線パラメータの設定を必要とする、(3)試験において上記無線パラメータの収集を必要とするなど、多くの処理負荷を要する点が課題であった。

本開示は、上記を考慮し、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することを目的とする。

本開示に係る端末は、所定の試験シナリオに基づいて試験音声および音声認識装置を選択する選択部と、前記選択部により選択された試験音声を取得し、前記選択部により選択された音声認識装置へ前記試験音声を音声通信網経由で送信する試験音声送信部と、前記音声認識装置による音声認識により得られた認識結果テキストを前記音声認識装置から受信する音声認識結果受信部と、前記音声認識結果受信部により受信された認識結果テキストと元の試験音声テキストとを比較する比較部と、予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースと、前記音声通話品質基準データベースを参照して、前記比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する品質評価部と、を備える。

上記の端末では、選択部が所定の試験シナリオに基づいて試験音声および音声認識装置を選択し、試験音声送信部が、選択された試験音声を取得し、選択された音声認識装置へ試験音声を音声通信網経由で送信する。そして、音声認識結果受信部が、音声認識装置による音声認識によって得られた認識結果テキストを音声認識装置から受信すると、比較部が、受信された認識結果テキストと元の試験音声テキストとを比較し、品質評価部が、予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースを参照して、比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する。以上のようにして、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。

本開示によれば、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。これに伴い、多くの言語の音声を対象とすることが容易となり、また、スマートフォン等の携帯型端末への実装が容易となるという利点もある。

第１実施形態に係る音声通話品質評価システムの構成を示す機能ブロック図である。第１実施形態に係る端末の構成を示す機能ブロック図である。第１、第２実施形態に係る音声認識装置の構成を示す機能ブロック図である。（ａ）日本語用の音声認識精度ＭＯＳ対応表の一例を示す図であり、（ｂ）英語用の音声認識精度ＭＯＳ対応表の一例を示す図であり、（ｃ）中国語用の音声認識精度ＭＯＳ対応表の一例を示す図である。第１実施形態に係る音声通話品質評価方法を示す処理フローである。第２実施形態に係る音声通話品質評価システムの構成を示す機能ブロック図である。第２実施形態に係る制御端末の構成を示す機能ブロック図である。第２実施形態に係る試験端末の構成を示す機能ブロック図である。第２実施形態に係る音声通話品質評価方法を示す処理フローである。第３実施形態に係る品質基準生成システムの構成を示す機能ブロック図である。第３実施形態に係る品質基準生成方法を説明するための図である。第３実施形態に係る品質基準生成方法を示す処理フローである。第３実施形態の変形例に係る品質基準生成システムの構成を示す機能ブロック図である。（ａ）は理想的な音声認識精度ＭＯＳ対応表の一例を示す図であり、（ｂ）は実用上の目標とされる音声認識精度ＭＯＳ対応表の一例を示す図であり、（ｃ）および（ｄ）は単体では実用上望ましくないとされる音声認識精度ＭＯＳ対応表の一例を示す図である。端末のハードウェア構成例を示す図である。

図面を参照しながら、本開示に係る第１〜第３実施形態を順に説明する。

以下では、第１実施形態として、ある端末が音声通信網経由で音声認識装置へ試験音声を送信して音声認識装置からの音声認識結果を受信し、当該音声認識結果に基づいて音声通話品質評価を行う基本型の実施形態を説明する。次に、第２実施形態として、端末の機能を「制御端末」と「試験端末」とに分けて、制御端末が、選択した試験端末に対し、選択した音声認識装置へ試験音声を送信するように指示し、試験端末が当該指示に基づき音声認識装置へ音声通信網経由で試験音声を送信し、制御端末が音声認識装置からの音声認識結果を受信して当該音声認識結果に基づいて音声通話品質評価を行う発展型の実施形態を説明する。さらに、第３実施形態として、音声認識結果に基づいて音声通話品質評価を行う際に参照される音声通話品質基準データベースの一例として、音声認識精度ＭＯＳ（Mean Opinion Score）値対応表を生成する品質基準生成システムを説明する。

［第１実施形態］
図１には、第１実施形態に係る音声通話品質評価システム１の構成図を示しており、端末１０と、移動通信ネットワーク（音声通信網）内に存在する音声認識装置５０とを含む。移動通信ネットワークには、例えば、基地局２０、基地局２０を制御する無線制御装置３０、および、無線制御装置３０を制御するネットワーク制御装置４０がさらに含まれ、音声認識装置５０はネットワーク制御装置４０の上位に配置される。図１に示す端末１０および音声認識装置５０が本開示の主要な構成要素であるため、以下、図２、図３を参照して、端末１０および音声認識装置５０の構成を説明する。

図２に示すように、端末１０は、選択部１１、試験音声送信部１２、試験音声データベース（試験音声ＤＢ）１３、音声認識結果受信部１４、比較部１５、品質評価部１６、および音声認識精度ＭＯＳ値対応表１７を備える。

このうち、選択部１１は、試験対象となる言語などの試験方法に関する情報を規定した試験シナリオに基づいて、試験音声および音声認識装置を選択する機能部であり、例えば、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択する。試験音声データベース（試験音声ＤＢ）１３は、さまざまな言語の試験音声データ、および該試験音声データに対応するテキストデータを、所定の識別情報（音声ＩＤ）に紐づけて記憶したデータベースである。試験音声送信部１２は、選択部１１により選択された試験音声に対応する試験音声データおよびテキストデータを、上記選択された試験音声の音声ＩＤをキーとして試験音声ＤＢ１３から取得し、選択部１１により選択された音声認識装置５０へ試験音声データを移動通信ネットワーク（音声通信網）経由で送信する機能部である。なお、ここでは、端末１０が試験音声ＤＢ１３を内蔵した構成例を示すが、端末１０が試験音声ＤＢ１３を内蔵することは必須ではなく、試験音声ＤＢ１３は、端末１０の外部に設けられ、端末１０からの要求に応じて試験音声データおよび対応するテキストデータを端末１０に提供する構成であってもよい。

音声認識結果受信部１４は、音声認識により得られた認識結果テキストを音声認識装置５０から受信する機能部である。比較部１５は、音声認識結果受信部１４により受信された認識結果テキストと、試験音声ＤＢ１３に記憶された元の試験音声テキストとを比較し、比較結果を品質評価部１６へ出力する機能部である。品質評価部１６は、音声認識精度ＭＯＳ値対応表１７を参照して、比較部１５による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する機能部である。

音声認識精度ＭＯＳ値対応表１７は、予め対応付けられた音声認識精度および音声通話品質評価値を記憶した「音声通話品質基準データベース」の一例であり、図４（ａ）〜図４（ｃ）に示すように、言語ごとに、音声通話品質評価値の一例であるＭＯＳ値と音声認識精度とを記憶している。ＭＯＳ値は、移動通信ネットワークにおける音声の主観的品質（ＱｏＥ：Quality of Experience）の評価指標として広く知られた指標である。図４（ａ）に示す日本語の音声認識精度ＭＯＳ値対応表の一例では、１から５までの５段階のＭＯＳ値それぞれに対し、音声認識精度として「J1未満」、「J1以上J2未満」、「J2以上J3未満」、「J3以上J4未満」、「J4以上」が対応付けられている。なお、J1〜J4は、J1＜J2＜J3＜J4を満たす規定値である。図４（ｂ）に示す英語版および図４（ｃ）に示す中国語版についても同様の構成である。

また、音声認識精度ＭＯＳ値対応表１７における音声認識精度は、下記に挙げる音声認識精度指標(A)〜(D)のいずれかを採用してもよいし、下記の音声認識指標(A)〜(D)のうち複数の音声認識指標に所定の重みを付けて組み合わせた値を採用してもよい。
(A)単語認識率（Word Correct）
これは、全単語に対する正解単語数の比率により求められ、正解がどの程度得られたかが評価される。例えば、以下の式（１）により求められる。なお、以降の式中の「正解単語数」とは原音に含まれる単語数、「置換単語数」とは原音から置き換えられた単語数、「削除単語数」とは原音から削除された単語数、「挿入単語数」とは原音に挿入された単語数を、それぞれ意味する。
単語認識率＝正解単語数／（正解単語数＋置換単語数＋削除単語数）・・（１）
(B)単語正解率（Word Accuracy）
これは、上記の単語認識率に対し、さらに挿入誤りも考慮された指標であり、認識結果の確からしさの評価となる。例えば、以下の式（２）により求められる。
単語正解率＝
（正解単語数−挿入単語数）／（正解単語数＋置換単語数＋削除単語数）・・（２）
(C)単語誤り率（ＷＥＲ：Word Error Rate）
これは、正解単語に比べ、挿入、置換、削除の誤りがどれほど少ないかを評価する指標であり、近年よく用いられている。例えば、以下の式（３）により求められる。
単語誤り率＝（置換単語数＋削除単語数＋挿入単語数）／正解単語数・・（３）
(D)文字誤り率(ＣＥＲ：Character Error Rate)
これは、単語毎の誤りではなく、文字に起こした際の総文字数に対する誤り文字数の比率であり、日本語に対してはよく利用される。

次に、図３に示すように、音声認識装置５０は、試験音声受信部５１、音声認識部５２、および音声認識結果送信部５３を備える。このうち、試験音声受信部５１は、所定の試験シナリオに記載された言語の試験音声データを移動通信ネットワーク（音声通信網）経由で端末１０から受信する機能部である。音声認識部５２は、受信された試験音声データに対し音声認識処理を実行し、音声認識結果としてテキストデータを出力する機能部であり、日本語の試験音声データに対し音声認識処理を実行する日本語音声認識部、英語の試験音声データに対し音声認識処理を実行する英語音声認識部、中国語の試験音声データに対し音声認識処理を実行する中国語音声認識部、といったさまざまな言語ごとの音声認識部を含んで構成される。音声認識結果送信部５３は、音声認識部５２から出力された音声認識結果としてのテキストデータを端末１０へ送信する機能部である。

（第１実施形態における処理）
以下、図５を用いて、第１実施形態において実行される処理の一例を説明する。端末１０において選択部１１が予め定められた試験シナリオに基づき試験音声および音声認識装置を選択する（図５のステップＳ１）。例えば、選択部１１は、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置５０を選択する。次に、試験音声送信部１２が、選択された試験音声の音声ＩＤをキーとして、試験音声データおよび対応するテキストデータを試験音声ＤＢ１３から取得し、取得した試験音声データおよび試験に関する指示（例えば、音声認識結果としてのテキストデータを端末１０へ送信する旨の指示、端末１０のＩＰアドレスなど）を上記選択された音声認識装置５０へ送信する（ステップＳ２）。これにより、試験音声が図１の矢印Ａ１に沿って、ネットワークの上流に位置する音声認識装置５０へ送信される。

音声認識装置５０では、試験音声受信部５１が、送信されてきた試験音声および指示を受信し（ステップＳ３）、音声認識部５２が上記指示に基づき試験音声を対象として音声認識を実行し（ステップＳ４）、そして、音声認識結果としてのテキストデータを端末１０へ送信する旨の指示に基づき、音声認識結果送信部５３が、音声認識結果としてのテキストデータを端末１０へ送信する（ステップＳ５）。これにより、音声認識結果としてのテキストデータが図１の矢印Ａ２に沿って、音声認識装置５０からネットワークの下流に位置する端末１０へ送信される。

端末１０では、音声認識結果受信部１４が、送信されてきた音声認識結果としてのテキストデータを受信し（ステップＳ６）、比較部１５が、試験音声に対応するテキストデータ（元のテキストデータ）と、上記受信された音声認識結果としてのテキストデータとを比較する（ステップＳ７）。このとき比較部１５は、元のテキストデータを試験音声送信部１２から取得してもよいし、試験音声の音声ＩＤを試験音声送信部１２又は選択部１１から取得し、該音声ＩＤをキーとして試験音声ＤＢ１３から元のテキストデータを取得してもよい。また、ステップＳ７の比較処理において比較部１５は、「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を求める。そして、品質評価部１６は、音声認識精度ＭＯＳ値対応表１７を参照して品質評価を実行する（ステップＳ８）。具体的には、品質評価部１６は、比較部１５による比較結果から得られた音声認識精度対応するＭＯＳ値を、音声通話品質評価値として取得する。

以上説明した第１実施形態では、図５のステップＳ７の比較処理にて、音声データ同士の比較ではなく、テキスト同士の比較を行うため、従来のように比較モジュールなどの特別な構成要素を必要とせず、簡易に実施できる。また、別のさまざまな従来技術のように、(1)大きいサイズの試験用音声パケットデータの収集を必要とする、(2)ネットワーク側で試験用の無線パラメータの設定を必要とする、(3)試験において上記無線パラメータの収集を必要とする、といった多くの処理負荷を必要とする従来の課題を解消して、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。これに伴い、多くの言語の音声を対象とすることが容易となり、また、スマートフォン等の携帯型端末への実装が容易となるという利点もある。

また、音声認識精度ＭＯＳ値対応表１７にて用いる「音声認識精度」および比較部１５による比較処理で求める「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を採用することで、さまざまな視点からの音声認識精度を用いることができ、結果的に、精度の良い音声通話品質評価値を取得することができる。

［第２実施形態］
第２実施形態では、端末の機能を「制御端末」と「試験端末」とに分けた発展型の実施形態として、制御端末が、選択された試験端末に対し、選択された音声認識装置へ試験音声を送信するように指示し、試験端末が当該指示に基づき音声認識装置へ音声通信網経由で試験音声を送信し、そして、制御端末が音声認識装置からの音声認識結果を受信して当該音声認識結果に基づいて音声通話品質評価を行う実施形態を説明する。

図６には、第２実施形態に係る音声通話品質評価システム１Ｓの構成図を示しており、制御端末６０と、試験端末７０と、移動通信ネットワーク（音声通信網）内に存在する音声認識装置５０とを含む。移動通信ネットワークには、例えば、基地局２０、基地局２０を制御する無線制御装置３０、および、無線制御装置３０を制御するネットワーク制御装置４０がさらに含まれ、音声認識装置５０はネットワーク制御装置４０の上位に配置される。図６に示す制御端末６０、試験端末７０および音声認識装置５０が本開示の主要な構成要素であり、音声認識装置５０の構成は第１実施形態で述べた図３の構成と同様であるため、以下、図７、図８を参照して、制御端末６０および試験端末７０の構成を説明する。なお、図６には、１台の試験端末７０を示したが、複数の試験端末７０（例えば基地局２０のセルごとに配置された試験端末７０）により構成してもよい。

図７に示すように、制御端末６０は、選択部６１、指示送信部６２、試験音声データベース（試験音声ＤＢ）６３、音声認識結果受信部６４、比較部６５、品質評価部６６、および音声認識精度ＭＯＳ値対応表６７を備える。

これらのうち、試験音声データベース（試験音声ＤＢ）６３、音声認識結果受信部６４、比較部６５、品質評価部６６、および音声認識精度ＭＯＳ値対応表６７については、第１実施形態で説明した図２の試験音声ＤＢ１３、音声認識結果受信部１４、比較部１５、品質評価部１６、および音声認識精度ＭＯＳ値対応表１７とそれぞれ同様の機能を有するため、以下では重複した説明は省略する。

選択部６１は、所定の試験シナリオに基づいて、試験音声、音声認識装置、および、試験端末（上記音声認識装置へ試験音声を音声通信網経由で送信させる試験端末）を選択する機能部であり、例えば、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択し、試験シナリオに基づき試験端末７０を選択する。ここでの試験端末７０の選択について、選択部６１は、試験シナリオに記載された端末識別情報（端末ＩＤ）に対応する端末を試験端末として選択してもよいし、予め記憶された基地局配置情報とさまざまな試験端末が在圏するセルの基地局情報とを照合することで、試験シナリオに記載された試験対象エリア内に位置している端末を特定し、当該特定された端末を試験端末として選択してもよい。

指示送信部６２は、選択部６１により選択された試験端末７０へ、試験音声の選択情報（試験音声の音声ＩＤ）および音声認識装置の選択情報を含む指示を送信する機能部である。

図８に示すように、試験端末７０は、指示受信部７１、試験音声送信部７２、および試験音声データベース（試験音声ＤＢ）７３を備える。このうち、指示受信部７１は、制御端末６０の指示送信部６２からの指示を受信する機能部であり、試験音声ＤＢ７３は、第１実施形態の試験音声ＤＢ１３と同様に、さまざまな言語の試験音声データ、および対応するテキストデータを、所定の識別情報（音声ＩＤ）に紐づけて記憶したデータベースである。試験音声送信部７２は、指示受信部７１により受信された指示に含まれた「試験音声の音声ＩＤおよび音声認識装置の選択情報」に基づいて、試験音声ＤＢ１３から試験音声データを取得し、選択情報により特定される音声認識装置５０へ、上記取得した試験音声データおよび試験に関する指示（例えば、音声認識結果としてのテキストデータを制御端末６０へ送信することなど）を音声通信網経由で送信する機能部である。

（第２実施形態における処理）
以下、図９を用いて、第２実施形態において実行される処理の一例を説明する。制御端末６０において選択部６１が予め定められた試験シナリオに基づき試験音声、試験端末７０および音声認識装置５０を選択する（図９のステップＳ１１）。このとき、選択部１１は、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択するとともに、試験シナリオに基づく試験端末７０の選択処理、例えば、試験シナリオに記載された端末識別情報（端末ＩＤ）に対応する端末を試験端末として選択する、又は、予め記憶された基地局配置情報とさまざまな試験端末が在圏するセルの基地局情報とを照合することで、試験シナリオに記載された試験対象エリア内に位置している端末を特定し当該特定された端末を試験端末として選択するといった処理を行う。

次に、指示送信部６２が、選択された試験端末７０へ、試験音声の選択情報（試験音声の音声ＩＤ）および音声認識装置の選択情報を含む指示を送信する（ステップＳ１２）。これにより、上記指示が図６の矢印Ｂ１に沿って、制御端末６０から、選択された試験端末７０へ送信される。

試験端末７０では、指示受信部７１が、試験音声の選択情報および音声認識装置の選択内容を含む指示を受信し（ステップＳ１３）、試験音声送信部７２が、受信された指示に含まれた試験音声の音声ＩＤに基づいて、試験音声ＤＢ１３から試験音声データを取得し、上記指示に含まれた音声認識装置の選択情報により特定される音声認識装置５０へ、上記取得された試験音声データおよび試験に関する指示（例えば、音声認識結果としてのテキストデータを制御端末６０へ送信することなど）を音声通信網経由で送信する（ステップＳ１４）。これにより、試験音声および上記指示が図６の矢印Ｂ２に沿って、ネットワークの上流に位置する音声認識装置５０へ送信される。

音声認識装置５０では、試験音声受信部５１が、送信されてきた試験音声および指示を受信し（ステップＳ１５）、音声認識部５２が上記指示に基づき試験音声を対象として音声認識を実行し（ステップＳ１６）、そして、音声認識結果としてのテキストデータを端末１０へ送信する旨の指示に基づき、音声認識結果送信部５３が、音声認識結果としてのテキストデータを制御端末６０へ送信する（ステップＳ１７）。これにより、音声認識結果としてのテキストデータが図６の矢印Ｂ３に沿って、音声認識装置５０からネットワークの下流に位置する制御端末６０へ送信される。

制御端末６０では、音声認識結果受信部６４が、送信されてきた音声認識結果としてのテキストデータを受信し（ステップＳ１８）、比較部６５が、試験音声に対応するテキストデータ（元のテキストデータ）と、上記受信された音声認識結果としてのテキストデータとを比較する（ステップＳ１９）。このとき比較部６５は、試験音声の音声ＩＤを指示送信部６２又は選択部６１から取得し、該音声ＩＤをキーとして試験音声ＤＢ６３から元のテキストデータを取得してもよい。また、ステップＳ１９の比較処理において比較部６５は、「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を求める。そして、品質評価部６６は、音声認識精度ＭＯＳ値対応表６７を参照して品質評価を実行する（ステップＳ２０）。具体的には、品質評価部６６は、比較部６５による比較結果から得られた音声認識精度対応するＭＯＳ値を、音声通話品質評価値として取得する。

以上説明した第２実施形態では、制御端末６０は、さまざまなエリアに位置する複数の試験端末から対象の試験端末７０を選択して、該試験端末７０へ指示を送信することで、試験端末７０の在圏エリアにおける音声通話品質を評価することができる。このようにさまざまなエリアに位置する複数の試験端末７０を利用することで、さまざまなエリアにおける音声通話品質を効率的に評価することができる。

また、第１実施形態と同様に、図９のステップＳ１９の比較処理にて、音声データ同士の比較ではなく、テキスト同士の比較を行うため、従来のように比較モジュールなどの特別な構成要素を必要とせず、簡易に実施できる。また、別のさまざまな従来技術のように、(1)大きいサイズの試験用音声パケットデータの収集を必要とする、(2)ネットワーク側で試験用の無線パラメータの設定を必要とする、(3)試験において上記無線パラメータの収集を必要とする、といった多くの処理負荷を必要とする従来の課題を解消して、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。これに伴い、多くの言語の音声を対象とすることが容易となり、また、スマートフォン等の携帯型端末への実装が容易となるという利点もある。

また、音声認識精度ＭＯＳ値対応表６７にて用いる「音声認識精度」および比較部１５による比較処理で求める「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を採用することで、さまざまな視点からの音声認識精度を用いることができ、結果的に、精度の良い音声通話品質評価値を取得することができる。

なお、第２実施形態では、端末の機能を「制御端末」と「試験端末」とに分けた例を説明したが、制御端末の機能と試験端末の機能の両方を備えた端末が存在してもよく、このような端末は、ある時点では「制御端末」として動作し、別の時点（例えば制御端末として動作する他の端末から試験に係る指示を受信した時点等）では「試験端末」として動作してもよい。

［第３実施形態］
第３実施形態は、音声認識結果に基づいて音声通話品質評価を行う際に参照される音声通話品質基準データベースの一例として、「音声認識精度ＭＯＳ値対応表」を生成する品質基準生成システムに関する実施形態である。以下では、事前に用意されたさまざまな言語の試験音声（試験音声データおよび対応するテキストデータ）を用いる例を説明し、その後、変形例として、事前に用意すべき試験音声をより適切に選択するための工夫について説明する。

図１０には、第３実施形態に係る品質基準生成システム１００の構成図を示しており、品質基準生成システム１００は、品質劣化装置１１０、様々な言語の音声認識装置１２０、ＭＯＳ品質評価装置１３０、および品質基準生成装置１４０を備え、品質基準生成装置１４０は、内部のメモリ又は外部の記憶装置に音声認識精度ＭＯＳ値対応表１５０を記憶する。

これらのうち、品質劣化装置１１０は、所定の品質劣化パラメータに基づいて、試験音声を対象として疑似的に品質劣化させる処理を実行する機能部であり、その処理の一例は後述する。音声認識装置１２０は、品質劣化装置１１０により品質劣化させた試験音声を対象として音声認識処理を実行する機能部であり、例えば、日本語の試験音声を対象として音声認識処理を実行する日本語音声認識装置１２０Ｊ、英語の試験音声を対象として音声認識処理を実行する英語音声認識装置１２０Ｅ、中国語の試験音声を対象として音声認識処理を実行する中国語音声認識装置１２０Ｃなどを含む。もちろん、上記以外の言語の試験音声を対象として音声認識処理を実行する別の音声認識装置を含んでもよい。

ＭＯＳ品質評価装置１３０は、品質劣化装置１１０により品質劣化させた試験音声を対象として、所定の音声通話品質評価（ここでは標準（ITU-T勧告P800）で定められた手法に基づくＭＯＳ品質評価）を実行する機能部である。品質基準生成装置１４０は、音声認識装置１２０による音声認識処理で得られた音声認識精度と、ＭＯＳ品質評価装置１３０による音声通話品質評価で得られた音声通話品質評価値とを対応付けて音声認識精度ＭＯＳ値対応表１５０を生成する機能部である。

（第３実施形態における処理）
以下、図１１と図１２を用いて、第３実施形態において実行される処理の一例を説明する。まず、品質劣化装置１１０に、対象言語の試験音声データおよびそのテキストデータ、並びに、所定の品質劣化パラメータが入力され、品質劣化装置１１０は、品質劣化パラメータに基づいて、対象言語の試験音声データを対象として疑似的に品質劣化させる処理を実行する（図１２のステップＳ１１０）。一例として、品質劣化装置１１０は、対象言語の試験音声データをＲＴＰ（Realtime Transport Protocol）に基づく音声パケット群に変換し、パケットロス等を再現する機器により変換後の音声パケット群を劣化させ、そして、ＲＴＰを解くことで劣化後の音声パケット群を音声データに戻して劣化済み試験音声データを得ることができる。

次に、対象言語の試験音声のテキストデータおよび劣化済みの試験音声データが、品質劣化装置１１０から出力されて、対象言語の音声認識装置１２０へ入力され、当該音声認識装置１２０は、劣化済みの試験音声データを対象として音声認識を実行し（ステップＳ１２１）、音声認識結果としてのテキストデータと、入力された試験音声のテキストデータ（元のテキストデータ）とを比較する（ステップＳ１２２）。そして、音声認識装置１２０は、比較結果から音声認識精度を導出する（ステップＳ１２３）。ここでは、音声認識装置１２０は、例えば、第１、第２実施形態と同様に、音声認識精度として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を求める。このようにして得られた音声認識結果および音声認識精度は品質基準生成装置１４０へ出力される。

一方、品質劣化装置１１０から出力された対象言語の劣化済みの試験音声データは、ＭＯＳ品質評価装置１３０にも入力され、ＭＯＳ品質評価装置１３０は、所定の音声通話品質評価（ここでは標準（ITU-T勧告P800）で定められた手法に基づくＭＯＳ品質評価）を実行して、対象言語の劣化済みの試験音声データに関するＭＯＳ値を取得し（ステップＳ１３０）、品質基準生成装置１４０へ出力する。

品質基準生成装置１４０は、音声認識装置１２０による音声認識処理で得られた音声認識精度と、ＭＯＳ品質評価装置１３０による音声通話品質評価で得られた音声通話品質評価値とを対応付けて、これらの対応付けた情報を記憶した音声認識精度ＭＯＳ値対応表１５０を生成する（ステップＳ１４０）。

以上のような第３実施形態により、品質劣化パラメータに基づいて疑似的に品質劣化させた劣化済み試験音声データを対象として、音声認識処理と音声通話品質評価（ＭＯＳ品質評価）の両方を円滑に実行し、音声認識精度とＭＯＳ値とを対応付けた音声認識精度ＭＯＳ値対応表を比較的簡易に生成することができる。

［第３実施形態の変形例］
次に、第３実施形態の変形例として、試験音声をより適切に選択するための工夫について説明する。図１３には、この変形例に係る品質基準生成システム１００Ｓの構成図を示しており、品質基準生成システム１００Ｓは、前述した図１０の品質基準生成システム１００に対し、試験音声を選択する試験音声選択装置１６０を追加した構成とされている。以下では、試験音声をより適切に選択するための工夫として、
(1)聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように試験音声を選択する
(2)言語毎の頻繁に使用される語句（例えば慣用句など）から試験音声を選択する
(3)音声認識精度ＭＯＳ対応表の結果がポアソン分布するような試験音声を選択する
の３点を説明する。

上記(1)については、聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように試験音声を選択し、当該試験音声を対象として音声品質評価を行うことで、以下に示すように音声品質評価を細かくすることができる。

例えば、聞き取りやすい試験音声だけを対象として音声品質評価を行う場合、ＭＯＳ値２〜ＭＯＳ値４において同じ音声認識結果になりやすい傾向があるところ、聞き取りやすい試験音声と聞き取りにくい試験音声とを併用することで、例えば、
ＭＯＳ値２：聞き取りやすい試験音声の認識精度＝低
ＭＯＳ値３：聞き取りやすい試験音声の認識精度＝高、聞き取りにくい試験音声の認識精度＝低
ＭＯＳ値４：聞き取りやすい試験音声の認識精度＝高、聞き取りにくい試験音声の認識精度＝高
といった音声認識結果になり、ＭＯＳ値２〜ＭＯＳ値４に関し、より精度良く区別できるようになり、音声品質評価を細かくすることができる。

また、上記(2)については、試験音声選択装置１６０は、言語毎の頻繁に使用される語句（例えば、慣用句など）から試験音声を選択してもよい。このように言語毎の頻繁に使用される語句（慣用句など）から試験音声を選択することで、サンプル収集が容易という実益があるとともに、音声認識装置で誤って認識される可能性をより低くして、「音声認識精度」への「音声認識装置による認識精度」の影響をより小さくすることができ、音声通話品質の評価精度をより高くすることができる。

次に、上記(3)「音声認識精度ＭＯＳ対応表の結果がポアソン分布するような試験音声を選択する」について説明する。まず、図１４（ａ）〜図１４（ｄ）に示すさまざまな音声認識精度ＭＯＳ対応表の例を概説する。図１４（ａ）には理想的な音声認識精度ＭＯＳ対応表の一例を示し、音声認識精度とＭＯＳ値とが一対一で対応しており、音声認識精度に対しＭＯＳ値が一意に定まる。ここで、図中の矢印Ｃで示す「10/10」とは、試験音声を聞いた１０人（分母）が、分子に示す１０人ともＭＯＳ値２と回答したことを示す。なお、実際には質問は複数あり、各質問への回答の平均値を取ることになるが、ここでは簡便のため質問は１件として記載している。

図１４（ｂ）には実用上の目標とされる音声認識精度ＭＯＳ対応表の一例を示す。音声認識精度を算出すると、ＭＯＳ値にばらつき（分布）があり、異なる音声認識精度に対しＭＯＳ値同士の一部重複があるものの、各音声認識精度に係るＭＯＳ値の平均値を取ると、音声認識精度とＭＯＳ値とが一対一で対応し、以下に述べる「順序関係」と「比例関係」の両方が成立する。
順序関係：大小の関係が成立する（言い換えると、有意差がある）。
比例関係：音声認識精度が良いほど、対応するＭＯＳ値も良くなる。

上記のような分布として「ポアソン分布」が良く用いられ、ピークが１つのみといったいくつかの便利な特性があり、t検定が使えるという利点もある。即ち、計算によってポアソン分布かどうか判定する方法が確立しており（t検定により有意差が無い事を確認）、また、計算によって順序関係の有無を確認する方法が確立しており（t検定により有意差があることを確認した後、平均値同士を比較）、これらの理由により自動判定に使いやすいという利点がある。一方、図１４（ｃ）および図１４（ｄ）には、単体では実用上望ましくないとされる音声認識精度ＭＯＳ対応表の例を示しており、これらの組合せが選択されるケースについて後述する。

以下、音声認識精度ＭＯＳ対応表の結果がポアソン分布するような試験音声を選択するための処理の具体例を述べる。試験音声選択装置１６０は、まず、今回得られた試験音声それぞれについての音声認識精度ＭＯＳ対応表の結果から分かる音声認識精度とＭＯＳ値の分布についてt検定を行い、上述した「順序関係」の有無と「比例関係」の有無を確認する。

ここで、「順序関係」と「比例関係」の両方が有るとの結果が得られた試験音声（図１４（ａ）、（ｂ）の例）は、ポアソン分布すると解されるため、試験音声選択装置１６０は、次回用いる試験音声として適していると判断する。

一方、「順序関係」と「比例関係」の両方が有るとの結果が得られなかった試験音声については、以下のように複数の試験音声の組合せを試みる。例えば、図１４（ｃ）の試験音声２は、音声認識精度を算出すると、対応するＭＯＳ値にばらつき（分布）があり、ＭＯＳ値の平均値を取るとＭＯＳ値が音声認識精度に対し一対一で定まるものの、ピークが複数ありＭＯＳ値判定の正しさが疑われる例である。具体的には、音声認識精度「90-80％」の区分において、ＭＯＳ値＝５とＭＯＳ値＝３とで山が二つあり、ＭＯＳ値＝４の場合にＭＯＳ値＝５とＭＯＳ値＝３の可能性が残るため使いにくく、ＭＯＳ値を特定できず、試験音声として「単体では」適切ではない。図１４（ｄ）の試験音声３は、音声認識精度を算出すると、対応するＭＯＳ値にばらつき（分布）があり、ＭＯＳ値の平均値を取っても、ＭＯＳ値の平均値も重複する例である。具体的には、ＭＯＳ値＝５の場合とＭＯＳ値＝４の場合が同じ分布で有意差が無く、また、ＭＯＳ値＝３の場合とＭＯＳ値＝２の場合が同じ分布で有意差が無い。この例では、「ＭＯＳ値４以上」と「ＭＯＳ値３以下」のどちらであるかの判定には利用できるものの、ＭＯＳ値＝５とＭＯＳ値＝４とを判別する用途、および、ＭＯＳ値＝３とＭＯＳ値＝２とを判別する用途には利用できないため、試験音声として「単体では」適切ではない。

上記のように、図１４（ｃ）の試験音声２は、ＭＯＳ値＝４の場合にＭＯＳ値＝５とＭＯＳ値＝３の可能性が残るため使いにくいが、図１４（ｄ）の試験音声３を併用すれば、「ＭＯＳ値４以上」と「ＭＯＳ値３以下」のどちらであるかは判定可能となるため、試験音声選択装置１６０は、次回用いる試験音声として、「基本は試験音声２を用いて、ＭＯＳ値＝４の場合のみ試験音声３を併用する」といった選択を行う。

以上のように音声認識精度ＭＯＳ対応表の結果がポアソン分布するような試験音声を選択することで、誤った音声品質評価がなされる可能性を極力減らせる適切な試験音声を選択することができ、結果的に音声品質評価の精度を向上させることができる。

なお、上記第１〜第３実施形態では、対応付けられた音声認識精度および音声通話品質評価値を記憶した「音声通話品質基準データベース」として、音声認識精度ＭＯＳ値対応表を用いる又は生成する例を示したが、音声通話品質評価値は、ＭＯＳ値に限定されるものではなく、ＭＯＳ値以外の指標を使用してもよい。

［用語、変形態様などについて］
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）、送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

例えば、一実施の形態における端末は、本実施形態における処理を行うコンピュータとして機能してもよい。図１５は、端末１０のハードウェア構成例を示す図である。上述の端末１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。なお、端末１０以外の図１、図６、図１０に示す各装置についても、以下で説明する端末１０の構成と同様の構成を有してもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。端末１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

端末１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ−ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１、１Ｓ…音声通話品質評価システム、１０…端末、１１…選択部、１２…試験音声送信部、１３…試験音声ＤＢ、１４…音声認識結果受信部、１５…比較部、１６…品質評価部、１７…音声認識精度ＭＯＳ値対応表、２０…基地局、３０…無線制御装置、４０…ネットワーク制御装置、５０…音声認識装置、５１…試験音声受信部、５２…音声認識部、５３…音声認識結果送信部、６０…制御端末、６１…選択部、６２…指示送信部、６３…試験音声ＤＢ、６４…音声認識結果受信部、６５…比較部、６６…品質評価部、６７…音声認識精度ＭＯＳ値対応表、７０…試験端末、７１…指示受信部、７２…試験音声送信部、７３…試験音声ＤＢ、１００、１００Ｓ…品質基準生成システム、１１０…品質劣化装置、１２０…音声認識装置、１２０Ｃ…中国語音声認識装置、１２０Ｅ…英語音声認識装置、１２０Ｊ…日本語音声認識装置、１３０…ＭＯＳ品質評価装置、１４０…品質基準生成装置、１５０…音声認識精度ＭＯＳ値対応表、１６０…試験音声選択装置、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス。

Claims

所定の試験シナリオに基づいて試験音声および音声認識装置を選択する選択部と、
前記選択部により選択された試験音声を取得し、前記選択部により選択された音声認識装置へ前記試験音声を音声通信網経由で送信する試験音声送信部と、
前記音声認識装置による音声認識により得られた認識結果テキストを前記音声認識装置から音声通信網経由で受信する音声認識結果受信部と、
前記音声認識結果受信部により受信された認識結果テキストと元の試験音声テキストとを比較する比較部と、
予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースと、
前記音声通話品質基準データベースを参照して、前記比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する品質評価部と、
を備える端末。
請求項１に記載の端末と、
音声認識機能を有する１つ以上の音声認識装置と、
を備える音声通話品質評価システム。
制御端末と、音声認識機能を有する１つ以上の音声認識装置と、試験音声を音声通信網経由で前記音声認識装置へ送信する１つ以上の試験端末と、を備える音声通話品質評価システムであって、
前記制御端末は、
所定の試験シナリオに基づいて、試験音声、音声認識装置、および、前記音声認識装置へ前記試験音声を音声通信網経由で送信する試験端末、を選択する選択部と、
前記選択部により選択された試験端末へ、前記試験音声および前記音声認識装置の選択情報を含む指示を送信する指示送信部と、
前記音声認識装置による音声認識により得られた認識結果テキストを前記音声認識装置から音声通信網経由で受信する音声認識結果受信部と、
前記音声認識結果受信部により受信された認識結果テキストと元の試験音声テキストとを比較する比較部と、
予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースと、
前記音声通話品質基準データベースを参照して、前記比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する品質評価部と、
を含み、
前記試験端末は、
前記指示送信部からの前記指示を受信する指示受信部と、
前記指示受信部により受信された前記指示に含まれた前記試験音声および前記音声認識装置の選択情報に基づいて、前記試験音声を取得し、前記音声認識装置へ前記試験音声を音声通信網経由で送信する試験音声送信部と、
を含む、
音声通話品質評価システム。
前記選択部は、
前記試験シナリオに記載された端末識別情報に基づいて前記試験端末を選択するか、又は、
予め記憶された基地局配置情報、および前記試験端末が在圏するセルの基地局情報に基づいて、前記試験シナリオに記載された試験対象エリアに位置する試験端末を選択する、
請求項３に記載の音声通話品質評価システム。
前記選択部は、前記試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択する、
請求項２〜４の何れか一項に記載の音声通話品質評価システム。
前記音声認識精度は、
音声認識精度指標である、単語認識率、単語正解率、単語誤り率、および文字誤り率、のうち、いずれか１つの指標、又は、所定の重みを付けて複数の指標を組み合わせた値である、
請求項２〜５の何れか一項に記載の音声通話品質評価システム。
所定の品質劣化パラメータに基づいて、試験音声を対象として、疑似的に品質劣化させる処理を実行する品質劣化装置と、
前記品質劣化装置により品質劣化させた試験音声を対象として、音声認識処理を実行する音声認識装置と、
前記品質劣化装置により品質劣化させた試験音声を対象として、所定の音声通話品質評価を実行する品質評価装置と、
前記音声認識装置による音声認識処理で得られた音声認識精度と、前記品質評価装置による音声通話品質評価で得られた音声通話品質評価値とが対応付けられた音声通話品質基準データベースを生成する品質基準生成装置と、
を備える品質基準生成システム。
前記品質基準生成システムは、前記試験音声を選択する試験音声選択装置、をさらに備え、
前記試験音声選択装置は、聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように、前記試験音声を選択する、
請求項７に記載の品質基準生成システム。
前記品質基準生成システムは、前記試験音声を選択する試験音声選択装置、をさらに備え、
前記試験音声選択装置は、言語毎の頻繁に使用される語句から試験音声を選択する、
請求項７に記載の品質基準生成システム。
前記品質基準生成システムは、前記試験音声を選択する試験音声選択装置、をさらに備え、
前記試験音声選択装置は、前記音声通話品質基準データベースにおける前記音声認識精度および前記音声通話品質評価値がポアソン分布するような前記試験音声を選択する、
請求項７に記載の品質基準生成システム。