JP2021135396A - 端末、音声通話品質評価システムおよび品質基準生成システム - Google Patents
端末、音声通話品質評価システムおよび品質基準生成システム Download PDFInfo
- Publication number
- JP2021135396A JP2021135396A JP2020031709A JP2020031709A JP2021135396A JP 2021135396 A JP2021135396 A JP 2021135396A JP 2020031709 A JP2020031709 A JP 2020031709A JP 2020031709 A JP2020031709 A JP 2020031709A JP 2021135396 A JP2021135396 A JP 2021135396A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- test
- voice recognition
- quality evaluation
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
【課題】多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施する。【解決手段】端末10は、所定の試験シナリオに基づいて試験音声および音声認識装置を選択し、選択された試験音声を、上記選択された音声認識装置50へ音声通信網経由で送信し(矢印A1)、そして、音声認識により得られた認識結果テキストを音声認識装置50から受信する(矢印A2)。さらに、端末10は、受信された認識結果テキストと元の試験音声テキストとを比較し、予め対応付けられた音声認識精度および音声通話品質評価値(MOS値)を記憶した音声認識精度MOS値対応表を参照して、上記比較結果から得られる音声認識精度に対応する音声通話品質評価値(MOS値)を取得する。【選択図】図1
Description
本開示は、端末、音声通話品質評価システムおよび品質基準生成システムに関する。
音声通信網をユーザに提供する事業者にとって、さまざまな場所における音声通話の品質評価を定常的に実施することは非常に重要であり、従来より、さまざまな音声通話の品質評価方法が実施されてきた。例えば、従来の品質評価方法として、予め生成された評価用の音声データを音声通信網経由で送受信し、送受信された後の音声データと元の音声データとの比較結果に基づいて、音声通話の品質評価を行う方法が知られている(特許文献1参照)。
上記のような従来技術では、音声データ同士を比較する処理が必要となり、このような比較処理を実行する比較モジュールなどの特別な構成要素を要する点が課題であった。また、別のさまざまな従来技術では、(1)大きいサイズの試験用音声パケットデータの収集を必要とする、(2)ネットワーク側で試験用の無線パラメータの設定を必要とする、(3)試験において上記無線パラメータの収集を必要とするなど、多くの処理負荷を要する点が課題であった。
本開示は、上記を考慮し、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することを目的とする。
本開示に係る端末は、所定の試験シナリオに基づいて試験音声および音声認識装置を選択する選択部と、前記選択部により選択された試験音声を取得し、前記選択部により選択された音声認識装置へ前記試験音声を音声通信網経由で送信する試験音声送信部と、前記音声認識装置による音声認識により得られた認識結果テキストを前記音声認識装置から受信する音声認識結果受信部と、前記音声認識結果受信部により受信された認識結果テキストと元の試験音声テキストとを比較する比較部と、予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースと、前記音声通話品質基準データベースを参照して、前記比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する品質評価部と、を備える。
上記の端末では、選択部が所定の試験シナリオに基づいて試験音声および音声認識装置を選択し、試験音声送信部が、選択された試験音声を取得し、選択された音声認識装置へ試験音声を音声通信網経由で送信する。そして、音声認識結果受信部が、音声認識装置による音声認識によって得られた認識結果テキストを音声認識装置から受信すると、比較部が、受信された認識結果テキストと元の試験音声テキストとを比較し、品質評価部が、予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースを参照して、比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する。以上のようにして、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。
本開示によれば、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。これに伴い、多くの言語の音声を対象とすることが容易となり、また、スマートフォン等の携帯型端末への実装が容易となるという利点もある。
図面を参照しながら、本開示に係る第1〜第3実施形態を順に説明する。
以下では、第1実施形態として、ある端末が音声通信網経由で音声認識装置へ試験音声を送信して音声認識装置からの音声認識結果を受信し、当該音声認識結果に基づいて音声通話品質評価を行う基本型の実施形態を説明する。次に、第2実施形態として、端末の機能を「制御端末」と「試験端末」とに分けて、制御端末が、選択した試験端末に対し、選択した音声認識装置へ試験音声を送信するように指示し、試験端末が当該指示に基づき音声認識装置へ音声通信網経由で試験音声を送信し、制御端末が音声認識装置からの音声認識結果を受信して当該音声認識結果に基づいて音声通話品質評価を行う発展型の実施形態を説明する。さらに、第3実施形態として、音声認識結果に基づいて音声通話品質評価を行う際に参照される音声通話品質基準データベースの一例として、音声認識精度MOS(Mean Opinion Score)値対応表を生成する品質基準生成システムを説明する。
[第1実施形態]
図1には、第1実施形態に係る音声通話品質評価システム1の構成図を示しており、端末10と、移動通信ネットワーク(音声通信網)内に存在する音声認識装置50とを含む。移動通信ネットワークには、例えば、基地局20、基地局20を制御する無線制御装置30、および、無線制御装置30を制御するネットワーク制御装置40がさらに含まれ、音声認識装置50はネットワーク制御装置40の上位に配置される。図1に示す端末10および音声認識装置50が本開示の主要な構成要素であるため、以下、図2、図3を参照して、端末10および音声認識装置50の構成を説明する。
図1には、第1実施形態に係る音声通話品質評価システム1の構成図を示しており、端末10と、移動通信ネットワーク(音声通信網)内に存在する音声認識装置50とを含む。移動通信ネットワークには、例えば、基地局20、基地局20を制御する無線制御装置30、および、無線制御装置30を制御するネットワーク制御装置40がさらに含まれ、音声認識装置50はネットワーク制御装置40の上位に配置される。図1に示す端末10および音声認識装置50が本開示の主要な構成要素であるため、以下、図2、図3を参照して、端末10および音声認識装置50の構成を説明する。
図2に示すように、端末10は、選択部11、試験音声送信部12、試験音声データベース(試験音声DB)13、音声認識結果受信部14、比較部15、品質評価部16、および音声認識精度MOS値対応表17を備える。
このうち、選択部11は、試験対象となる言語などの試験方法に関する情報を規定した試験シナリオに基づいて、試験音声および音声認識装置を選択する機能部であり、例えば、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択する。試験音声データベース(試験音声DB)13は、さまざまな言語の試験音声データ、および該試験音声データに対応するテキストデータを、所定の識別情報(音声ID)に紐づけて記憶したデータベースである。試験音声送信部12は、選択部11により選択された試験音声に対応する試験音声データおよびテキストデータを、上記選択された試験音声の音声IDをキーとして試験音声DB13から取得し、選択部11により選択された音声認識装置50へ試験音声データを移動通信ネットワーク(音声通信網)経由で送信する機能部である。なお、ここでは、端末10が試験音声DB13を内蔵した構成例を示すが、端末10が試験音声DB13を内蔵することは必須ではなく、試験音声DB13は、端末10の外部に設けられ、端末10からの要求に応じて試験音声データおよび対応するテキストデータを端末10に提供する構成であってもよい。
音声認識結果受信部14は、音声認識により得られた認識結果テキストを音声認識装置50から受信する機能部である。比較部15は、音声認識結果受信部14により受信された認識結果テキストと、試験音声DB13に記憶された元の試験音声テキストとを比較し、比較結果を品質評価部16へ出力する機能部である。品質評価部16は、音声認識精度MOS値対応表17を参照して、比較部15による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する機能部である。
音声認識精度MOS値対応表17は、予め対応付けられた音声認識精度および音声通話品質評価値を記憶した「音声通話品質基準データベース」の一例であり、図4(a)〜図4(c)に示すように、言語ごとに、音声通話品質評価値の一例であるMOS値と音声認識精度とを記憶している。MOS値は、移動通信ネットワークにおける音声の主観的品質(QoE:Quality of Experience)の評価指標として広く知られた指標である。図4(a)に示す日本語の音声認識精度MOS値対応表の一例では、1から5までの5段階のMOS値それぞれに対し、音声認識精度として「J1未満」、「J1以上J2未満」、「J2以上J3未満」、「J3以上J4未満」、「J4以上」が対応付けられている。なお、J1〜J4は、J1<J2<J3<J4を満たす規定値である。図4(b)に示す英語版および図4(c)に示す中国語版についても同様の構成である。
また、音声認識精度MOS値対応表17における音声認識精度は、下記に挙げる音声認識精度指標(A)〜(D)のいずれかを採用してもよいし、下記の音声認識指標(A)〜(D)のうち複数の音声認識指標に所定の重みを付けて組み合わせた値を採用してもよい。
(A)単語認識率(Word Correct)
これは、全単語に対する正解単語数の比率により求められ、正解がどの程度得られたかが評価される。例えば、以下の式(1)により求められる。なお、以降の式中の「正解単語数」とは原音に含まれる単語数、「置換単語数」とは原音から置き換えられた単語数、「削除単語数」とは原音から削除された単語数、「挿入単語数」とは原音に挿入された単語数を、それぞれ意味する。
単語認識率=正解単語数/(正解単語数+置換単語数+削除単語数) ・・(1)
(B)単語正解率(Word Accuracy)
これは、上記の単語認識率に対し、さらに挿入誤りも考慮された指標であり、認識結果の確からしさの評価となる。例えば、以下の式(2)により求められる。
単語正解率=
(正解単語数−挿入単語数)/(正解単語数+置換単語数+削除単語数) ・・(2)
(C)単語誤り率(WER:Word Error Rate)
これは、正解単語に比べ、挿入、置換、削除の誤りがどれほど少ないかを評価する指標であり、近年よく用いられている。例えば、以下の式(3)により求められる。
単語誤り率=(置換単語数+削除単語数+挿入単語数)/正解単語数 ・・(3)
(D)文字誤り率(CER:Character Error Rate)
これは、単語毎の誤りではなく、文字に起こした際の総文字数に対する誤り文字数の比率であり、日本語に対してはよく利用される。
(A)単語認識率(Word Correct)
これは、全単語に対する正解単語数の比率により求められ、正解がどの程度得られたかが評価される。例えば、以下の式(1)により求められる。なお、以降の式中の「正解単語数」とは原音に含まれる単語数、「置換単語数」とは原音から置き換えられた単語数、「削除単語数」とは原音から削除された単語数、「挿入単語数」とは原音に挿入された単語数を、それぞれ意味する。
単語認識率=正解単語数/(正解単語数+置換単語数+削除単語数) ・・(1)
(B)単語正解率(Word Accuracy)
これは、上記の単語認識率に対し、さらに挿入誤りも考慮された指標であり、認識結果の確からしさの評価となる。例えば、以下の式(2)により求められる。
単語正解率=
(正解単語数−挿入単語数)/(正解単語数+置換単語数+削除単語数) ・・(2)
(C)単語誤り率(WER:Word Error Rate)
これは、正解単語に比べ、挿入、置換、削除の誤りがどれほど少ないかを評価する指標であり、近年よく用いられている。例えば、以下の式(3)により求められる。
単語誤り率=(置換単語数+削除単語数+挿入単語数)/正解単語数 ・・(3)
(D)文字誤り率(CER:Character Error Rate)
これは、単語毎の誤りではなく、文字に起こした際の総文字数に対する誤り文字数の比率であり、日本語に対してはよく利用される。
次に、図3に示すように、音声認識装置50は、試験音声受信部51、音声認識部52、および音声認識結果送信部53を備える。このうち、試験音声受信部51は、所定の試験シナリオに記載された言語の試験音声データを移動通信ネットワーク(音声通信網)経由で端末10から受信する機能部である。音声認識部52は、受信された試験音声データに対し音声認識処理を実行し、音声認識結果としてテキストデータを出力する機能部であり、日本語の試験音声データに対し音声認識処理を実行する日本語音声認識部、英語の試験音声データに対し音声認識処理を実行する英語音声認識部、中国語の試験音声データに対し音声認識処理を実行する中国語音声認識部、といったさまざまな言語ごとの音声認識部を含んで構成される。音声認識結果送信部53は、音声認識部52から出力された音声認識結果としてのテキストデータを端末10へ送信する機能部である。
(第1実施形態における処理)
以下、図5を用いて、第1実施形態において実行される処理の一例を説明する。端末10において選択部11が予め定められた試験シナリオに基づき試験音声および音声認識装置を選択する(図5のステップS1)。例えば、選択部11は、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置50を選択する。次に、試験音声送信部12が、選択された試験音声の音声IDをキーとして、試験音声データおよび対応するテキストデータを試験音声DB13から取得し、取得した試験音声データおよび試験に関する指示(例えば、音声認識結果としてのテキストデータを端末10へ送信する旨の指示、端末10のIPアドレスなど)を上記選択された音声認識装置50へ送信する(ステップS2)。これにより、試験音声が図1の矢印A1に沿って、ネットワークの上流に位置する音声認識装置50へ送信される。
以下、図5を用いて、第1実施形態において実行される処理の一例を説明する。端末10において選択部11が予め定められた試験シナリオに基づき試験音声および音声認識装置を選択する(図5のステップS1)。例えば、選択部11は、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置50を選択する。次に、試験音声送信部12が、選択された試験音声の音声IDをキーとして、試験音声データおよび対応するテキストデータを試験音声DB13から取得し、取得した試験音声データおよび試験に関する指示(例えば、音声認識結果としてのテキストデータを端末10へ送信する旨の指示、端末10のIPアドレスなど)を上記選択された音声認識装置50へ送信する(ステップS2)。これにより、試験音声が図1の矢印A1に沿って、ネットワークの上流に位置する音声認識装置50へ送信される。
音声認識装置50では、試験音声受信部51が、送信されてきた試験音声および指示を受信し(ステップS3)、音声認識部52が上記指示に基づき試験音声を対象として音声認識を実行し(ステップS4)、そして、音声認識結果としてのテキストデータを端末10へ送信する旨の指示に基づき、音声認識結果送信部53が、音声認識結果としてのテキストデータを端末10へ送信する(ステップS5)。これにより、音声認識結果としてのテキストデータが図1の矢印A2に沿って、音声認識装置50からネットワークの下流に位置する端末10へ送信される。
端末10では、音声認識結果受信部14が、送信されてきた音声認識結果としてのテキストデータを受信し(ステップS6)、比較部15が、試験音声に対応するテキストデータ(元のテキストデータ)と、上記受信された音声認識結果としてのテキストデータとを比較する(ステップS7)。このとき比較部15は、元のテキストデータを試験音声送信部12から取得してもよいし、試験音声の音声IDを試験音声送信部12又は選択部11から取得し、該音声IDをキーとして試験音声DB13から元のテキストデータを取得してもよい。また、ステップS7の比較処理において比較部15は、「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を求める。そして、品質評価部16は、音声認識精度MOS値対応表17を参照して品質評価を実行する(ステップS8)。具体的には、品質評価部16は、比較部15による比較結果から得られた音声認識精度対応するMOS値を、音声通話品質評価値として取得する。
以上説明した第1実施形態では、図5のステップS7の比較処理にて、音声データ同士の比較ではなく、テキスト同士の比較を行うため、従来のように比較モジュールなどの特別な構成要素を必要とせず、簡易に実施できる。また、別のさまざまな従来技術のように、(1)大きいサイズの試験用音声パケットデータの収集を必要とする、(2)ネットワーク側で試験用の無線パラメータの設定を必要とする、(3)試験において上記無線パラメータの収集を必要とする、といった多くの処理負荷を必要とする従来の課題を解消して、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。これに伴い、多くの言語の音声を対象とすることが容易となり、また、スマートフォン等の携帯型端末への実装が容易となるという利点もある。
また、音声認識精度MOS値対応表17にて用いる「音声認識精度」および比較部15による比較処理で求める「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を採用することで、さまざまな視点からの音声認識精度を用いることができ、結果的に、精度の良い音声通話品質評価値を取得することができる。
[第2実施形態]
第2実施形態では、端末の機能を「制御端末」と「試験端末」とに分けた発展型の実施形態として、制御端末が、選択された試験端末に対し、選択された音声認識装置へ試験音声を送信するように指示し、試験端末が当該指示に基づき音声認識装置へ音声通信網経由で試験音声を送信し、そして、制御端末が音声認識装置からの音声認識結果を受信して当該音声認識結果に基づいて音声通話品質評価を行う実施形態を説明する。
第2実施形態では、端末の機能を「制御端末」と「試験端末」とに分けた発展型の実施形態として、制御端末が、選択された試験端末に対し、選択された音声認識装置へ試験音声を送信するように指示し、試験端末が当該指示に基づき音声認識装置へ音声通信網経由で試験音声を送信し、そして、制御端末が音声認識装置からの音声認識結果を受信して当該音声認識結果に基づいて音声通話品質評価を行う実施形態を説明する。
図6には、第2実施形態に係る音声通話品質評価システム1Sの構成図を示しており、制御端末60と、試験端末70と、移動通信ネットワーク(音声通信網)内に存在する音声認識装置50とを含む。移動通信ネットワークには、例えば、基地局20、基地局20を制御する無線制御装置30、および、無線制御装置30を制御するネットワーク制御装置40がさらに含まれ、音声認識装置50はネットワーク制御装置40の上位に配置される。図6に示す制御端末60、試験端末70および音声認識装置50が本開示の主要な構成要素であり、音声認識装置50の構成は第1実施形態で述べた図3の構成と同様であるため、以下、図7、図8を参照して、制御端末60および試験端末70の構成を説明する。なお、図6には、1台の試験端末70を示したが、複数の試験端末70(例えば基地局20のセルごとに配置された試験端末70)により構成してもよい。
図7に示すように、制御端末60は、選択部61、指示送信部62、試験音声データベース(試験音声DB)63、音声認識結果受信部64、比較部65、品質評価部66、および音声認識精度MOS値対応表67を備える。
これらのうち、試験音声データベース(試験音声DB)63、音声認識結果受信部64、比較部65、品質評価部66、および音声認識精度MOS値対応表67については、第1実施形態で説明した図2の試験音声DB13、音声認識結果受信部14、比較部15、品質評価部16、および音声認識精度MOS値対応表17とそれぞれ同様の機能を有するため、以下では重複した説明は省略する。
選択部61は、所定の試験シナリオに基づいて、試験音声、音声認識装置、および、試験端末(上記音声認識装置へ試験音声を音声通信網経由で送信させる試験端末)を選択する機能部であり、例えば、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択し、試験シナリオに基づき試験端末70を選択する。ここでの試験端末70の選択について、選択部61は、試験シナリオに記載された端末識別情報(端末ID)に対応する端末を試験端末として選択してもよいし、予め記憶された基地局配置情報とさまざまな試験端末が在圏するセルの基地局情報とを照合することで、試験シナリオに記載された試験対象エリア内に位置している端末を特定し、当該特定された端末を試験端末として選択してもよい。
指示送信部62は、選択部61により選択された試験端末70へ、試験音声の選択情報(試験音声の音声ID)および音声認識装置の選択情報を含む指示を送信する機能部である。
図8に示すように、試験端末70は、指示受信部71、試験音声送信部72、および試験音声データベース(試験音声DB)73を備える。このうち、指示受信部71は、制御端末60の指示送信部62からの指示を受信する機能部であり、試験音声DB73は、第1実施形態の試験音声DB13と同様に、さまざまな言語の試験音声データ、および対応するテキストデータを、所定の識別情報(音声ID)に紐づけて記憶したデータベースである。試験音声送信部72は、指示受信部71により受信された指示に含まれた「試験音声の音声IDおよび音声認識装置の選択情報」に基づいて、試験音声DB13から試験音声データを取得し、選択情報により特定される音声認識装置50へ、上記取得した試験音声データおよび試験に関する指示(例えば、音声認識結果としてのテキストデータを制御端末60へ送信することなど)を音声通信網経由で送信する機能部である。
(第2実施形態における処理)
以下、図9を用いて、第2実施形態において実行される処理の一例を説明する。制御端末60において選択部61が予め定められた試験シナリオに基づき試験音声、試験端末70および音声認識装置50を選択する(図9のステップS11)。このとき、選択部11は、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択するとともに、試験シナリオに基づく試験端末70の選択処理、例えば、試験シナリオに記載された端末識別情報(端末ID)に対応する端末を試験端末として選択する、又は、予め記憶された基地局配置情報とさまざまな試験端末が在圏するセルの基地局情報とを照合することで、試験シナリオに記載された試験対象エリア内に位置している端末を特定し当該特定された端末を試験端末として選択するといった処理を行う。
以下、図9を用いて、第2実施形態において実行される処理の一例を説明する。制御端末60において選択部61が予め定められた試験シナリオに基づき試験音声、試験端末70および音声認識装置50を選択する(図9のステップS11)。このとき、選択部11は、試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択するとともに、試験シナリオに基づく試験端末70の選択処理、例えば、試験シナリオに記載された端末識別情報(端末ID)に対応する端末を試験端末として選択する、又は、予め記憶された基地局配置情報とさまざまな試験端末が在圏するセルの基地局情報とを照合することで、試験シナリオに記載された試験対象エリア内に位置している端末を特定し当該特定された端末を試験端末として選択するといった処理を行う。
次に、指示送信部62が、選択された試験端末70へ、試験音声の選択情報(試験音声の音声ID)および音声認識装置の選択情報を含む指示を送信する(ステップS12)。これにより、上記指示が図6の矢印B1に沿って、制御端末60から、選択された試験端末70へ送信される。
試験端末70では、指示受信部71が、試験音声の選択情報および音声認識装置の選択内容を含む指示を受信し(ステップS13)、試験音声送信部72が、受信された指示に含まれた試験音声の音声IDに基づいて、試験音声DB13から試験音声データを取得し、上記指示に含まれた音声認識装置の選択情報により特定される音声認識装置50へ、上記取得された試験音声データおよび試験に関する指示(例えば、音声認識結果としてのテキストデータを制御端末60へ送信することなど)を音声通信網経由で送信する(ステップS14)。これにより、試験音声および上記指示が図6の矢印B2に沿って、ネットワークの上流に位置する音声認識装置50へ送信される。
音声認識装置50では、試験音声受信部51が、送信されてきた試験音声および指示を受信し(ステップS15)、音声認識部52が上記指示に基づき試験音声を対象として音声認識を実行し(ステップS16)、そして、音声認識結果としてのテキストデータを端末10へ送信する旨の指示に基づき、音声認識結果送信部53が、音声認識結果としてのテキストデータを制御端末60へ送信する(ステップS17)。これにより、音声認識結果としてのテキストデータが図6の矢印B3に沿って、音声認識装置50からネットワークの下流に位置する制御端末60へ送信される。
制御端末60では、音声認識結果受信部64が、送信されてきた音声認識結果としてのテキストデータを受信し(ステップS18)、比較部65が、試験音声に対応するテキストデータ(元のテキストデータ)と、上記受信された音声認識結果としてのテキストデータとを比較する(ステップS19)。このとき比較部65は、試験音声の音声IDを指示送信部62又は選択部61から取得し、該音声IDをキーとして試験音声DB63から元のテキストデータを取得してもよい。また、ステップS19の比較処理において比較部65は、「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を求める。そして、品質評価部66は、音声認識精度MOS値対応表67を参照して品質評価を実行する(ステップS20)。具体的には、品質評価部66は、比較部65による比較結果から得られた音声認識精度対応するMOS値を、音声通話品質評価値として取得する。
以上説明した第2実施形態では、制御端末60は、さまざまなエリアに位置する複数の試験端末から対象の試験端末70を選択して、該試験端末70へ指示を送信することで、試験端末70の在圏エリアにおける音声通話品質を評価することができる。このようにさまざまなエリアに位置する複数の試験端末70を利用することで、さまざまなエリアにおける音声通話品質を効率的に評価することができる。
また、第1実施形態と同様に、図9のステップS19の比較処理にて、音声データ同士の比較ではなく、テキスト同士の比較を行うため、従来のように比較モジュールなどの特別な構成要素を必要とせず、簡易に実施できる。また、別のさまざまな従来技術のように、(1)大きいサイズの試験用音声パケットデータの収集を必要とする、(2)ネットワーク側で試験用の無線パラメータの設定を必要とする、(3)試験において上記無線パラメータの収集を必要とする、といった多くの処理負荷を必要とする従来の課題を解消して、多くの処理負荷を要することなく、簡易な構成で音声通話の品質評価を実施することができる。これに伴い、多くの言語の音声を対象とすることが容易となり、また、スマートフォン等の携帯型端末への実装が容易となるという利点もある。
また、音声認識精度MOS値対応表67にて用いる「音声認識精度」および比較部15による比較処理で求める「音声認識精度」として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を採用することで、さまざまな視点からの音声認識精度を用いることができ、結果的に、精度の良い音声通話品質評価値を取得することができる。
なお、第2実施形態では、端末の機能を「制御端末」と「試験端末」とに分けた例を説明したが、制御端末の機能と試験端末の機能の両方を備えた端末が存在してもよく、このような端末は、ある時点では「制御端末」として動作し、別の時点(例えば制御端末として動作する他の端末から試験に係る指示を受信した時点等)では「試験端末」として動作してもよい。
[第3実施形態]
第3実施形態は、音声認識結果に基づいて音声通話品質評価を行う際に参照される音声通話品質基準データベースの一例として、「音声認識精度MOS値対応表」を生成する品質基準生成システムに関する実施形態である。以下では、事前に用意されたさまざまな言語の試験音声(試験音声データおよび対応するテキストデータ)を用いる例を説明し、その後、変形例として、事前に用意すべき試験音声をより適切に選択するための工夫について説明する。
第3実施形態は、音声認識結果に基づいて音声通話品質評価を行う際に参照される音声通話品質基準データベースの一例として、「音声認識精度MOS値対応表」を生成する品質基準生成システムに関する実施形態である。以下では、事前に用意されたさまざまな言語の試験音声(試験音声データおよび対応するテキストデータ)を用いる例を説明し、その後、変形例として、事前に用意すべき試験音声をより適切に選択するための工夫について説明する。
図10には、第3実施形態に係る品質基準生成システム100の構成図を示しており、品質基準生成システム100は、品質劣化装置110、様々な言語の音声認識装置120、MOS品質評価装置130、および品質基準生成装置140を備え、品質基準生成装置140は、内部のメモリ又は外部の記憶装置に音声認識精度MOS値対応表150を記憶する。
これらのうち、品質劣化装置110は、所定の品質劣化パラメータに基づいて、試験音声を対象として疑似的に品質劣化させる処理を実行する機能部であり、その処理の一例は後述する。音声認識装置120は、品質劣化装置110により品質劣化させた試験音声を対象として音声認識処理を実行する機能部であり、例えば、日本語の試験音声を対象として音声認識処理を実行する日本語音声認識装置120J、英語の試験音声を対象として音声認識処理を実行する英語音声認識装置120E、中国語の試験音声を対象として音声認識処理を実行する中国語音声認識装置120Cなどを含む。もちろん、上記以外の言語の試験音声を対象として音声認識処理を実行する別の音声認識装置を含んでもよい。
MOS品質評価装置130は、品質劣化装置110により品質劣化させた試験音声を対象として、所定の音声通話品質評価(ここでは標準(ITU-T勧告P800)で定められた手法に基づくMOS品質評価)を実行する機能部である。品質基準生成装置140は、音声認識装置120による音声認識処理で得られた音声認識精度と、MOS品質評価装置130による音声通話品質評価で得られた音声通話品質評価値とを対応付けて音声認識精度MOS値対応表150を生成する機能部である。
(第3実施形態における処理)
以下、図11と図12を用いて、第3実施形態において実行される処理の一例を説明する。まず、品質劣化装置110に、対象言語の試験音声データおよびそのテキストデータ、並びに、所定の品質劣化パラメータが入力され、品質劣化装置110は、品質劣化パラメータに基づいて、対象言語の試験音声データを対象として疑似的に品質劣化させる処理を実行する(図12のステップS110)。一例として、品質劣化装置110は、対象言語の試験音声データをRTP(Realtime Transport Protocol)に基づく音声パケット群に変換し、パケットロス等を再現する機器により変換後の音声パケット群を劣化させ、そして、RTPを解くことで劣化後の音声パケット群を音声データに戻して劣化済み試験音声データを得ることができる。
以下、図11と図12を用いて、第3実施形態において実行される処理の一例を説明する。まず、品質劣化装置110に、対象言語の試験音声データおよびそのテキストデータ、並びに、所定の品質劣化パラメータが入力され、品質劣化装置110は、品質劣化パラメータに基づいて、対象言語の試験音声データを対象として疑似的に品質劣化させる処理を実行する(図12のステップS110)。一例として、品質劣化装置110は、対象言語の試験音声データをRTP(Realtime Transport Protocol)に基づく音声パケット群に変換し、パケットロス等を再現する機器により変換後の音声パケット群を劣化させ、そして、RTPを解くことで劣化後の音声パケット群を音声データに戻して劣化済み試験音声データを得ることができる。
次に、対象言語の試験音声のテキストデータおよび劣化済みの試験音声データが、品質劣化装置110から出力されて、対象言語の音声認識装置120へ入力され、当該音声認識装置120は、劣化済みの試験音声データを対象として音声認識を実行し(ステップS121)、音声認識結果としてのテキストデータと、入力された試験音声のテキストデータ(元のテキストデータ)とを比較する(ステップS122)。そして、音声認識装置120は、比較結果から音声認識精度を導出する(ステップS123)。ここでは、音声認識装置120は、例えば、第1、第2実施形態と同様に、音声認識精度として、前述した(A)単語認識率、(B)単語正解率、(C)単語誤り率、(D)文字誤り率のうちのいずれか、又は、これらのうち複数の指標に所定の重みを付けて組み合わせた値を求める。このようにして得られた音声認識結果および音声認識精度は品質基準生成装置140へ出力される。
一方、品質劣化装置110から出力された対象言語の劣化済みの試験音声データは、MOS品質評価装置130にも入力され、MOS品質評価装置130は、所定の音声通話品質評価(ここでは標準(ITU-T勧告P800)で定められた手法に基づくMOS品質評価)を実行して、対象言語の劣化済みの試験音声データに関するMOS値を取得し(ステップS130)、品質基準生成装置140へ出力する。
品質基準生成装置140は、音声認識装置120による音声認識処理で得られた音声認識精度と、MOS品質評価装置130による音声通話品質評価で得られた音声通話品質評価値とを対応付けて、これらの対応付けた情報を記憶した音声認識精度MOS値対応表150を生成する(ステップS140)。
以上のような第3実施形態により、品質劣化パラメータに基づいて疑似的に品質劣化させた劣化済み試験音声データを対象として、音声認識処理と音声通話品質評価(MOS品質評価)の両方を円滑に実行し、音声認識精度とMOS値とを対応付けた音声認識精度MOS値対応表を比較的簡易に生成することができる。
[第3実施形態の変形例]
次に、第3実施形態の変形例として、試験音声をより適切に選択するための工夫について説明する。図13には、この変形例に係る品質基準生成システム100Sの構成図を示しており、品質基準生成システム100Sは、前述した図10の品質基準生成システム100に対し、試験音声を選択する試験音声選択装置160を追加した構成とされている。以下では、試験音声をより適切に選択するための工夫として、
(1)聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように試験音声を選択する
(2)言語毎の頻繁に使用される語句(例えば慣用句など)から試験音声を選択する
(3)音声認識精度MOS対応表の結果がポアソン分布するような試験音声を選択する
の3点を説明する。
次に、第3実施形態の変形例として、試験音声をより適切に選択するための工夫について説明する。図13には、この変形例に係る品質基準生成システム100Sの構成図を示しており、品質基準生成システム100Sは、前述した図10の品質基準生成システム100に対し、試験音声を選択する試験音声選択装置160を追加した構成とされている。以下では、試験音声をより適切に選択するための工夫として、
(1)聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように試験音声を選択する
(2)言語毎の頻繁に使用される語句(例えば慣用句など)から試験音声を選択する
(3)音声認識精度MOS対応表の結果がポアソン分布するような試験音声を選択する
の3点を説明する。
上記(1)については、聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように試験音声を選択し、当該試験音声を対象として音声品質評価を行うことで、以下に示すように音声品質評価を細かくすることができる。
例えば、聞き取りやすい試験音声だけを対象として音声品質評価を行う場合、MOS値2〜MOS値4において同じ音声認識結果になりやすい傾向があるところ、聞き取りやすい試験音声と聞き取りにくい試験音声とを併用することで、例えば、
MOS値2:聞き取りやすい試験音声の認識精度=低
MOS値3:聞き取りやすい試験音声の認識精度=高、聞き取りにくい試験音声の認識精度=低
MOS値4:聞き取りやすい試験音声の認識精度=高、聞き取りにくい試験音声の認識精度=高
といった音声認識結果になり、MOS値2〜MOS値4に関し、より精度良く区別できるようになり、音声品質評価を細かくすることができる。
MOS値2:聞き取りやすい試験音声の認識精度=低
MOS値3:聞き取りやすい試験音声の認識精度=高、聞き取りにくい試験音声の認識精度=低
MOS値4:聞き取りやすい試験音声の認識精度=高、聞き取りにくい試験音声の認識精度=高
といった音声認識結果になり、MOS値2〜MOS値4に関し、より精度良く区別できるようになり、音声品質評価を細かくすることができる。
また、上記(2)については、試験音声選択装置160は、言語毎の頻繁に使用される語句(例えば、慣用句など)から試験音声を選択してもよい。このように言語毎の頻繁に使用される語句(慣用句など)から試験音声を選択することで、サンプル収集が容易という実益があるとともに、音声認識装置で誤って認識される可能性をより低くして、「音声認識精度」への「音声認識装置による認識精度」の影響をより小さくすることができ、音声通話品質の評価精度をより高くすることができる。
次に、上記(3)「音声認識精度MOS対応表の結果がポアソン分布するような試験音声を選択する」について説明する。まず、図14(a)〜図14(d)に示すさまざまな音声認識精度MOS対応表の例を概説する。図14(a)には理想的な音声認識精度MOS対応表の一例を示し、音声認識精度とMOS値とが一対一で対応しており、音声認識精度に対しMOS値が一意に定まる。ここで、図中の矢印Cで示す「10/10」とは、試験音声を聞いた10人(分母)が、分子に示す10人ともMOS値2と回答したことを示す。なお、実際には質問は複数あり、各質問への回答の平均値を取ることになるが、ここでは簡便のため質問は1件として記載している。
図14(b)には実用上の目標とされる音声認識精度MOS対応表の一例を示す。音声認識精度を算出すると、MOS値にばらつき(分布)があり、異なる音声認識精度に対しMOS値同士の一部重複があるものの、各音声認識精度に係るMOS値の平均値を取ると、音声認識精度とMOS値とが一対一で対応し、以下に述べる「順序関係」と「比例関係」の両方が成立する。
順序関係:大小の関係が成立する(言い換えると、有意差がある)。
比例関係:音声認識精度が良いほど、対応するMOS値も良くなる。
順序関係:大小の関係が成立する(言い換えると、有意差がある)。
比例関係:音声認識精度が良いほど、対応するMOS値も良くなる。
上記のような分布として「ポアソン分布」が良く用いられ、ピークが1つのみといったいくつかの便利な特性があり、t検定が使えるという利点もある。即ち、計算によってポアソン分布かどうか判定する方法が確立しており(t検定により有意差が無い事を確認)、また、計算によって順序関係の有無を確認する方法が確立しており(t検定により有意差があることを確認した後、平均値同士を比較)、これらの理由により自動判定に使いやすいという利点がある。一方、図14(c)および図14(d)には、単体では実用上望ましくないとされる音声認識精度MOS対応表の例を示しており、これらの組合せが選択されるケースについて後述する。
以下、音声認識精度MOS対応表の結果がポアソン分布するような試験音声を選択するための処理の具体例を述べる。試験音声選択装置160は、まず、今回得られた試験音声それぞれについての音声認識精度MOS対応表の結果から分かる音声認識精度とMOS値の分布についてt検定を行い、上述した「順序関係」の有無と「比例関係」の有無を確認する。
ここで、「順序関係」と「比例関係」の両方が有るとの結果が得られた試験音声(図14(a)、(b)の例)は、ポアソン分布すると解されるため、試験音声選択装置160は、次回用いる試験音声として適していると判断する。
一方、「順序関係」と「比例関係」の両方が有るとの結果が得られなかった試験音声については、以下のように複数の試験音声の組合せを試みる。例えば、図14(c)の試験音声2は、音声認識精度を算出すると、対応するMOS値にばらつき(分布)があり、MOS値の平均値を取るとMOS値が音声認識精度に対し一対一で定まるものの、ピークが複数ありMOS値判定の正しさが疑われる例である。具体的には、音声認識精度「90-80%」の区分において、MOS値=5とMOS値=3とで山が二つあり、MOS値=4の場合にMOS値=5とMOS値=3の可能性が残るため使いにくく、MOS値を特定できず、試験音声として「単体では」適切ではない。図14(d)の試験音声3は、音声認識精度を算出すると、対応するMOS値にばらつき(分布)があり、MOS値の平均値を取っても、MOS値の平均値も重複する例である。具体的には、MOS値=5の場合とMOS値=4の場合が同じ分布で有意差が無く、また、MOS値=3の場合とMOS値=2の場合が同じ分布で有意差が無い。この例では、「MOS値4以上」と「MOS値3以下」のどちらであるかの判定には利用できるものの、MOS値=5とMOS値=4とを判別する用途、および、MOS値=3とMOS値=2とを判別する用途には利用できないため、試験音声として「単体では」適切ではない。
上記のように、図14(c)の試験音声2は、MOS値=4の場合にMOS値=5とMOS値=3の可能性が残るため使いにくいが、図14(d)の試験音声3を併用すれば、「MOS値4以上」と「MOS値3以下」のどちらであるかは判定可能となるため、試験音声選択装置160は、次回用いる試験音声として、「基本は試験音声2を用いて、MOS値=4の場合のみ試験音声3を併用する」といった選択を行う。
以上のように音声認識精度MOS対応表の結果がポアソン分布するような試験音声を選択することで、誤った音声品質評価がなされる可能性を極力減らせる適切な試験音声を選択することができ、結果的に音声品質評価の精度を向上させることができる。
なお、上記第1〜第3実施形態では、対応付けられた音声認識精度および音声通話品質評価値を記憶した「音声通話品質基準データベース」として、音声認識精度MOS値対応表を用いる又は生成する例を示したが、音声通話品質評価値は、MOS値に限定されるものではなく、MOS値以外の指標を使用してもよい。
[用語、変形態様などについて]
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)、送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
例えば、一実施の形態における端末は、本実施形態における処理を行うコンピュータとして機能してもよい。図15は、端末10のハードウェア構成例を示す図である。上述の端末10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。なお、端末10以外の図1、図6、図10に示す各装置についても、以下で説明する端末10の構成と同様の構成を有してもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。端末10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
端末10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。 また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
1、1S…音声通話品質評価システム、10…端末、11…選択部、12…試験音声送信部、13…試験音声DB、14…音声認識結果受信部、15…比較部、16…品質評価部、17…音声認識精度MOS値対応表、20…基地局、30…無線制御装置、40…ネットワーク制御装置、50…音声認識装置、51…試験音声受信部、52…音声認識部、53…音声認識結果送信部、60…制御端末、61…選択部、62…指示送信部、63…試験音声DB、64…音声認識結果受信部、65…比較部、66…品質評価部、67…音声認識精度MOS値対応表、70…試験端末、71…指示受信部、72…試験音声送信部、73…試験音声DB、100、100S…品質基準生成システム、110…品質劣化装置、120…音声認識装置、120C…中国語音声認識装置、120E…英語音声認識装置、120J…日本語音声認識装置、130…MOS品質評価装置、140…品質基準生成装置、150…音声認識精度MOS値対応表、160…試験音声選択装置、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。
Claims (10)
- 所定の試験シナリオに基づいて試験音声および音声認識装置を選択する選択部と、
前記選択部により選択された試験音声を取得し、前記選択部により選択された音声認識装置へ前記試験音声を音声通信網経由で送信する試験音声送信部と、
前記音声認識装置による音声認識により得られた認識結果テキストを前記音声認識装置から音声通信網経由で受信する音声認識結果受信部と、
前記音声認識結果受信部により受信された認識結果テキストと元の試験音声テキストとを比較する比較部と、
予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースと、
前記音声通話品質基準データベースを参照して、前記比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する品質評価部と、
を備える端末。 - 請求項1に記載の端末と、
音声認識機能を有する1つ以上の音声認識装置と、
を備える音声通話品質評価システム。 - 制御端末と、音声認識機能を有する1つ以上の音声認識装置と、試験音声を音声通信網経由で前記音声認識装置へ送信する1つ以上の試験端末と、を備える音声通話品質評価システムであって、
前記制御端末は、
所定の試験シナリオに基づいて、試験音声、音声認識装置、および、前記音声認識装置へ前記試験音声を音声通信網経由で送信する試験端末、を選択する選択部と、
前記選択部により選択された試験端末へ、前記試験音声および前記音声認識装置の選択情報を含む指示を送信する指示送信部と、
前記音声認識装置による音声認識により得られた認識結果テキストを前記音声認識装置から音声通信網経由で受信する音声認識結果受信部と、
前記音声認識結果受信部により受信された認識結果テキストと元の試験音声テキストとを比較する比較部と、
予め対応付けられた音声認識精度および音声通話品質評価値を記憶した音声通話品質基準データベースと、
前記音声通話品質基準データベースを参照して、前記比較部による比較結果から得られる音声認識精度に対応する音声通話品質評価値を取得する品質評価部と、
を含み、
前記試験端末は、
前記指示送信部からの前記指示を受信する指示受信部と、
前記指示受信部により受信された前記指示に含まれた前記試験音声および前記音声認識装置の選択情報に基づいて、前記試験音声を取得し、前記音声認識装置へ前記試験音声を音声通信網経由で送信する試験音声送信部と、
を含む、
音声通話品質評価システム。 - 前記選択部は、
前記試験シナリオに記載された端末識別情報に基づいて前記試験端末を選択するか、又は、
予め記憶された基地局配置情報、および前記試験端末が在圏するセルの基地局情報に基づいて、前記試験シナリオに記載された試験対象エリアに位置する試験端末を選択する、
請求項3に記載の音声通話品質評価システム。 - 前記選択部は、前記試験シナリオに記載された言語の試験音声および当該言語の音声を認識するための音声認識装置を選択する、
請求項2〜4の何れか一項に記載の音声通話品質評価システム。 - 前記音声認識精度は、
音声認識精度指標である、単語認識率、単語正解率、単語誤り率、および文字誤り率、のうち、いずれか1つの指標、又は、所定の重みを付けて複数の指標を組み合わせた値である、
請求項2〜5の何れか一項に記載の音声通話品質評価システム。 - 所定の品質劣化パラメータに基づいて、試験音声を対象として、疑似的に品質劣化させる処理を実行する品質劣化装置と、
前記品質劣化装置により品質劣化させた試験音声を対象として、音声認識処理を実行する音声認識装置と、
前記品質劣化装置により品質劣化させた試験音声を対象として、所定の音声通話品質評価を実行する品質評価装置と、
前記音声認識装置による音声認識処理で得られた音声認識精度と、前記品質評価装置による音声通話品質評価で得られた音声通話品質評価値とが対応付けられた音声通話品質基準データベースを生成する品質基準生成装置と、
を備える品質基準生成システム。 - 前記品質基準生成システムは、前記試験音声を選択する試験音声選択装置、をさらに備え、
前記試験音声選択装置は、聞き取りやすい試験音声と聞き取りにくい試験音声とを併用するように、前記試験音声を選択する、
請求項7に記載の品質基準生成システム。 - 前記品質基準生成システムは、前記試験音声を選択する試験音声選択装置、をさらに備え、
前記試験音声選択装置は、言語毎の頻繁に使用される語句から試験音声を選択する、
請求項7に記載の品質基準生成システム。 - 前記品質基準生成システムは、前記試験音声を選択する試験音声選択装置、をさらに備え、
前記試験音声選択装置は、前記音声通話品質基準データベースにおける前記音声認識精度および前記音声通話品質評価値がポアソン分布するような前記試験音声を選択する、
請求項7に記載の品質基準生成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020031709A JP2021135396A (ja) | 2020-02-27 | 2020-02-27 | 端末、音声通話品質評価システムおよび品質基準生成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020031709A JP2021135396A (ja) | 2020-02-27 | 2020-02-27 | 端末、音声通話品質評価システムおよび品質基準生成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135396A true JP2021135396A (ja) | 2021-09-13 |
Family
ID=77661083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020031709A Pending JP2021135396A (ja) | 2020-02-27 | 2020-02-27 | 端末、音声通話品質評価システムおよび品質基準生成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021135396A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113923704A (zh) * | 2021-09-18 | 2022-01-11 | 广州瀚信通信科技股份有限公司 | 一种基于5G话统指标的VoNR质量评价方法和装置 |
-
2020
- 2020-02-27 JP JP2020031709A patent/JP2021135396A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113923704A (zh) * | 2021-09-18 | 2022-01-11 | 广州瀚信通信科技股份有限公司 | 一种基于5G话统指标的VoNR质量评价方法和装置 |
CN113923704B (zh) * | 2021-09-18 | 2024-02-06 | 广州瀚信通信科技股份有限公司 | 一种基于5G话统指标的VoNR质量评价方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6604836B2 (ja) | 対話テキスト要約装置及び方法 | |
CN107798052B (zh) | 词典更新装置及词典更新方法 | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
JP2001273283A (ja) | 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス | |
CN108519998B (zh) | 基于知识图谱的问题引导方法及装置 | |
CN110109824B (zh) | 大数据自动回归测试方法、装置、计算机设备和存储介质 | |
CN112542236A (zh) | 在线任务派发方法、装置、电子设备及存储介质 | |
CN110543550B (zh) | 自动生成试题的方法和装置 | |
CN110289015B (zh) | 一种音频处理方法、装置、服务器、存储介质及系统 | |
CN110798380A (zh) | 一种数据获取方法、系统、装置、测试设备及测试服务器 | |
CN110956016A (zh) | 一种文档内容格式的调整方法、装置及电子设备 | |
JP2019191975A (ja) | 人材選定装置、人材選定システム、人材選定方法及びプログラム | |
CN112579891A (zh) | 一种云资源的推荐方法、装置、电子终端及存储介质 | |
CN111198936A (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
JP2021135396A (ja) | 端末、音声通話品質評価システムおよび品質基準生成システム | |
CN111507698A (zh) | 用于转账的处理方法和装置、计算设备及介质 | |
CN111046393B (zh) | 漏洞信息上传方法、装置、终端设备及存储介质 | |
US11283929B2 (en) | Identifying unreported issues through customer service interactions and website analytics | |
CN110335628B (zh) | 智能设备的语音测试方法、装置及电子设备 | |
CN108961071B (zh) | 自动预测组合业务收益的方法及终端设备 | |
US10558507B1 (en) | Inbound testing tool | |
CN110751227A (zh) | 数据处理方法、装置、设备及存储介质 | |
JP2020060846A (ja) | 質問生成装置および質問生成方法 | |
JP2009098740A (ja) | 討議評価支援方法及びそのプログラム並びにシステム | |
CN114490390A (zh) | 测试数据生成方法、装置、设备及存储介质 |