JP2022152466A

JP2022152466A - 学習装置、音声認識装置、学習方法、音声認識方法、プログラム

Info

Publication number: JP2022152466A
Application number: JP2021055251A
Authority: JP
Inventors: 亜紗美中島; Asami Nakajima; 遼也鈴木; Ryoya Suzuki
Original assignee: Iwatsu Electric Co Ltd
Current assignee: Iwatsu Electric Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-10-12

Abstract

【課題】あらかじめ用意した２つ以上の前処理パターンと音声認識エンジンの組合せを利用者の環境に合わせて選択するための学習データ（最適な組合せ）を低コストで取得できる学習装置を提供する。【解決手段】通話音声データとこれに対応する正解テキストデータとを組合せてなる組合せ選択用データセットを用いる学習装置であって、通話音声データをＳ通り（Ｓは２以上の自然数）の前処理パターンで前処理する前処理部と、前処理された通話音声データをｍ（ｍは２以上の自然数）種類の音声認識エンジンで音声認識して、Ｓ×ｍ個の音声認識結果を取得する音声認識部と、正解テキストデータに基づいてＳ×ｍ個の音声認識結果の認識精度を算出し、最も認識精度が高い音声認識結果を出力した前処理パターンと音声認識エンジンの組合せを最適な組合せとして出力する認識精度算出部を含む。【選択図】図１

Description

本発明は、学習装置、音声認識装置、学習方法、音声認識方法、プログラムに関する。

音声認識の分野において、認識結果をより良くするために機械学習やディープラーニングといった多くのデータを必要とする仕組みを取り入れることが一般的になっている。多くのデータを集めることは個人情報などの観点からも容易ではないが、コールセンターなどでは「カスタマーサービス向上のため」と録音の同意を求めるアナウンスを流し、データを集めることが増えてきている。

さらに精度を上げるために機械学習やディープラーニングを行おうとした場合、その膨大なデータを処理するために相応のスペックを持つ計算機が必要になる。高精度な音声認識実現の先行文献として特許文献１のように音響特徴量を用いて機械学習を行い、認識結果を向上させる認識システムは多く存在する。

特許第４７５８９１９号公報

認識結果を向上させる認識システムは多く存在するが、これらの仕組みは相応の計算環境を用意しなければならない状況にありコストが嵩むことが課題であった。

そこで本発明では、あらかじめ用意した２つ以上の前処理パターンと音声認識エンジンの組合せを利用者の環境に合わせて選択するための学習データ（最適な組合せ）を低コストで取得できる学習装置を提供することを目的とする。

本発明の学習装置は、通話音声データとこれに対応する正解テキストデータとを組合せてなる組合せ選択用データセットを用いる。本発明の学習装置は、前処理部と、音声認識部と、認識精度算出部を含む。

前処理部は、通話音声データをＳ通り（Ｓは２以上の自然数）の前処理パターンで前処理する。音声認識部は、前処理された通話音声データをｍ（ｍは２以上の自然数）種類の音声認識エンジンで音声認識して、Ｓ×ｍ個の音声認識結果を取得する。認識精度算出部は、正解テキストデータに基づいてＳ×ｍ個の音声認識結果の認識精度を算出し、最も認識精度が高い音声認識結果を出力した前処理パターンと音声認識エンジンの組合せを最適な組合せとして出力する。

本発明の学習装置によれば、あらかじめ用意した２つ以上の前処理パターンと音声認識エンジンの組合せを利用者の環境に合わせて選択するための学習データ（最適な組合せ）を低コストで取得できる。

実施例１の音声認識・学習装置の機能構成を示すブロック図。実施例１の音声認識・学習装置の動作を示すフローチャート。実施例１の音声認識・学習装置のＳ１００の詳細を示すフローチャート。実施例１の音声認識・学習装置の学習動作の実行例を示す図。前処理パターンを例示する図。認識精度算出の具体例を示す図。実施例１の音声認識・学習装置のＳ２００の詳細を示すフローチャート。選択タイミング通知部の機能構成を示すブロック図。選択タイミング通知部の動作を示すフローチャート。第２の期間以降の外れ値の算出例を示す図。コンピュータの機能構成例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施例１の音声認識・学習装置は、あらかじめ用意した２つ以上の前処理パターンと音声認識エンジンの組合せを利用者の環境に合わせて選択するための学習データ（最適な組合せ）を低コストで取得し、最適な組合せを再選択するタイミングを自動で算出することにより、その環境で得られる最良の通話音声データのテキスト化を実現する。その環境とは例えばオフィス、工場、量販店など、ある特定の範囲で限られた人間が利用する環境などを指す。運用中は１通りの組合せだけを実行することでコストを最低限に抑えつつ、音声認識エンジンの更新により認識精度が悪くなってしまった場合には、組合せ再選択のタイミングを計ることで用意した環境で得られる最良のテキスト化を実現することができる。

＜音声認識・学習装置＞
以下、図１を参照して本実施例の音声認識・学習装置の機能構成を説明する。同図に示すように本実施例の音声認識・学習装置は、通話音声データ取得部１と、モード切替部２と、ユーザ設定取得部３と、発話区間検出部４と、前処理部５と、音声認識部６と、テキスト合成部７と、音声認識結果出力部８と、認識精度算出部９と、データ記憶部１３と、選択タイミング通知部１４と、組合せ選択用通話音声データ抽出部１８を含む。ユーザ設定取得部３は、自動更新設定部３１と、算出手段設定部３２と、算出期間設定部３３と、時間幅設定部３４と、データ数上限設定部３５を含む。自動更新設定部３１、算出手段設定部３２、算出期間設定部３３、時間幅設定部３４、データ数上限設定部３５は、ユーザが入力した各種のパラメータを取得し、保持・記録するものとする（詳細は後述）。

本実施例の音声認識・学習装置は、ユーザ設定取得部３が取得したモード切替設定に基づいて、モード切替部２が、組合せ選択モード（学習モードともいう）と運用モード（認識モードともいう）のうちの何れかのモードに切り替えて、１つの装置により２パターンの動作を実現できる。なお、図１の装置が組合せ選択モード（学習モード）を実行する場合、この装置を単に学習装置と呼称してもよいし、同図の装置が運用モード（認識モードともいう）を実行する場合、この装置を単に音声認識装置と呼称してもよい。以下では、音声認識・学習装置という称呼に統一する。

図２を参照して、実施例１の音声認識・学習装置の動作の概略を説明する。まず、音声認識・学習装置は、現在のモードを取得する。現在のモードが、組合せ選択モード（学習モード）であった場合、音声認識・学習装置はステップＳ１００の前処理と音声認識エンジンの最適な組合せ選択処理（詳細は後述）を実行する。ステップＳ１００実行後、音声認識・学習装置のモード切替部２はモードを運用モード（認識モード）に切り替える（Ｓ２－１）。

現在のモードが、運用モード（認識モード）であった場合、音声認識・学習装置はステップＳ１００で選択された最適な組合せを用いて、ステップＳ２００の通話音声データの音声認識処理（テキスト化処理、詳細は後述）を実行する。

運用モード中、組合せ選択用通話音声データ抽出部１８は、次の組合せ選択モード実行に備えて、条件を満たす通話音声データをデータ記憶部１３に蓄積していく（Ｓ３００）。蓄積された通話音声データは次の組合せ選択モード時に、組合せ選択用データセットの通話音声データとして利用が可能である。ステップＳ３００の処理の詳細については後述する。

運用モードで音声認識（テキスト化）を実行し続ける期間は、例えば算出期間Ｐまたはデータ数Ｑにより決定すればよい。Ｐ，Ｑはユーザが任意に設定した値をユーザ設定取得部３が取得すればよい。これに対して運用開始からの期間、データ数をそれぞれカウンター変数ｐ，ｑとおく。Ｐ≦ｐ、またはＱ≦ｑとなったとき、音声認識・学習装置は、組合せ選択タイミング処理（Ｓ４００、詳細は後述）を実行する。音声認識・学習装置は、ステップＳ４００の結果に基づいて、モード切替設定の更新を行う。

＜ステップＳ１００＞
ステップＳ１００の動作の詳細について、図３を参照して説明する。まず事前準備として、図１の通話音声データ２１と、たとえば文字起こしなどで取得した対応する正解テキストデータ２２（同図）とを組合せてなる組合せ選択用データセットを用意する。組合せ選択用データセットに含まれるデータの数をＤ、そのカウンター変数をｄとする。ここで用いる通話音声データ２１はたとえばオフィスや工場などの利用シーンで録音した通話音声データとすることができる。

通話音声データ取得部１は、用意された組合せ選択用データセットのうちの１つ、通話音声データ（ｄ）を取得する（Ｓ１－１）。発話区間検出部４は、通話音声データ（ｄ）から発話区間の検出を行い、発話区間毎に通話音声データを分割する（Ｓ４－１）。このときの分割数をｗ個（ｗ＞０、ｗは整数）とする。

前処理部５は、分割された通話音声データをＳ通り（後述、Ｓは２以上の自然数）の前処理パターンで前処理する（Ｓ５－１）。前処理とは、たとえば話速変換や正規化などの音声信号に対する処理である。一切の前処理を行わないパターンも前処理パターンの一つとして数えられる。また、複数の前処理を組み合せた前処理パターンと、その順序のみを入れ替えた前処理パターンとは互いに別の前処理パターンとして数えられる。前処理の種類をｎとすると、前処理の単純な組合せパターン数は順列組合せの総和は、Σ^ｎ _ｒ＝１｛_ｎＰ_ｒ｝個になる。これに前処理を行わないパターンを加えると前処理パターンの総数Ｓは下記の通りになる。

Ｓ＝Σ^ｎ _ｒ＝１｛_ｎＰ_ｒ｝＋１・・・（式１）
次に、音声認識部６は、Ｓ個の前処理パターンを実行して出力された通話音声データそれぞれに対して、用意したｍ種類（ｍは２以上の自然数）の音声認識エンジンでそれぞれ音声認識（テキスト化）を実行して音声認識結果を得る（Ｓ６－１）。例えば本実施例の音声認識・学習装置は、ｗ個に分割された通話音声データをＳ通りの前処理パターンを実行し、これらをｍ個の音声認識エンジンのそれぞれに基づいて音声認識（テキスト化）することにより、ｗ×Ｓ×ｍ個の音声認識結果（テキスト）を取得する。テキスト合成部７は、ｗ個に分割されて出力された音声認識結果（テキスト）を１通話分に合成し、Ｓ×ｍ個の音声認識結果（テキスト）を取得する（Ｓ７－１）。

例えばファイル名に１通話に戻すためのラベリングを施すことで、１通話分のテキスト合成を行うことができる。合成を行うことにより、１つの組合せ選択用データセットに対して、出力されるテキストデータはＳ×ｍ個になる。上述の処理（Ｓ１－１、Ｓ４－１、Ｓ５－１、Ｓ６－１、Ｓ７－１）を通話音声データの数だけ、すなわちＤ回繰り返す。

なお、発話区間毎に通話音声データを分割する処理（Ｓ４－１）、１通話分に合成する処理（Ｓ７－１）は場合により省略可能であり、この場合、発話区間検出部４、テキスト合成部７を省略できる。この場合、音声認識部６は、前処理されたＳ個の通話音声データをｍ種類の音声認識エンジンで音声認識して、Ｓ×ｍ個の音声認識結果を取得する。

音声認識結果出力部８は、Ｓ×ｍ個の音声認識結果２３を出力する（Ｓ８－１）。認識精度算出部９は、Ｓ×ｍ個の音声認識結果の認識精度を算出する（Ｓ９－１）。認識精度の算出には単語誤り率（ＷＥＲ）や文字誤り率（ＣＥＲ）、ＢＬＥＵ（BiLingual Evaluation Understudy）などいくつか種類があるが、本実施例では一例としてＷＥＲを利用する。認識精度算出部９は、組合せ選択用データセットから正解テキストデータ２２を参照し、正解テキストデータ２２に基づいて、認識精度（この例ではＷＥＲ値）を算出する。認識精度算出部９は、最も認識精度が高い音声認識結果（この例では最も低いＷＥＲ値となった音声認識結果）を出力した前処理パターンと音声認識エンジンの組合せを最適な組合せとして出力する。ＷＥＲ値は一般的に以下の式で算出される。

ＷＥＲ＝（挿入語数＋置換単語数＋削除単語数）／正解単語数・・・（式２）
もし、組合せ選択用データセットに複数のデータが存在する場合には、認識精度算出部９は、各組合せのＷＥＲ値の平均値を取り、順位付けした上で最も良いものを選択する。認識精度が同等の組合せが複数生じた場合、いずれを選んでも問題ないものと判断し、いずれか１つを選び運用を開始する。

図４に組合せ選択処理の実行例を示す。発話区間検出部４が切り出した音声区間に対して、前処理部５がセットされた前処理を施す。図５に前処理（Ａ）、前処理（Ｂ）の２種類が存在する場合の前処理パターンを例示する。同図に示すように、前処理（Ａ）、前処理（Ｂ）が存在する場合、前処理を全く行わないパターン（Ｐ０）、それぞれの前処理（Ａ）のみを行うパターン（Ｐ１）、前処理（Ｂ）のみを行うパターン（Ｐ２）、前処理（Ａ）と前処理（Ｂ）を組合せたパターン（Ｐ３）、前処理の順序を入れ替えたパターン（Ｐ４）、計５パターンの前処理パターンが存在する。同図の例は、式１においてｎ＝２を代入したパターンであり、Ｓ＝５が求まる。

例えば、話速変換とＢＰＦの２種類の前処理を用意したとき、前処理を施さない場合を１通りとし、話速変換とＢＰＦの各前処理をそれぞれ施す場合を各１通り、重ねて２種類の前処理の順列を入れ替えて施す場合を各１通り実施し、５通りの通話音声データが得られる。この場合であって、音声認識エンジンが２種類（Ａ、Ｂ）用意されている場合、音声認識部６は、前処理部５から出力された５通りの通話音声データを２種類の音声認識エンジンにかけ、５×２＝１０通りの音声認識結果を取得する。この場合であって、通話音声データから発話区間検出されたデータが１つだけだった場合、テキスト合成部７は、音声認識結果を１通話分の通話テキストに合成し、１０通りの音声認識結果を得る。認識精度算出部９は、これら１０通りの音声認識結果（例えば図６の音声認識結果のように１通話分になったテキストデータ）に対して、それぞれＷＥＲを算出する。認識精度算出部９は、ＷＥＲ値が最も低かった前処理と認識エンジンの組合せが、最もその通話環境に適した組合せ（最適な組合せ）であると判断する。図６の例では、ＢＰＦ＋話速変換＋音声認識エンジンＢの組合せが最もＷＥＲ値が低いため、最適な組合せといえる。音声認識・学習装置は、この結果から得られた組合せを用いて、運用モードを実行する。

なお図４の例において、前処理部５は、話速変換を行う際の話速の閾値などを複数用意し、それを個別の前処理として用意することも考えられる。話速の閾値とは、話速変換を行う基準となる値でその値を下回ると早すぎると判定し、話速変換を行うなどの処理に利用する値である。

＜ステップＳ２００＞
図７に本実施例の音声認識・学習装置の運用モード時の動作を示す。運用モード開始後、音声認識・学習装置に通話音声データ１７（図１）が入力された場合、組合せ選択時同様に通話音声データ取得処理（Ｓ１－２）、発話区間検出処理（Ｓ４－２）、前処理（Ｓ５－２）、音声認識処理（Ｓ６－２）、テキスト合成処理（Ｓ７－２）が通話音声データの数だけ、すなわちＤ回繰り返し実行される。

ただし、ステップＳ４－２に関しては、組合せ選択モードで選択された最適な前処理パターンが使用される。ステップＳ５－２についても同様に、組合せ選択モードで選択された最適な音声認識エンジンが使用される。

＜ステップＳ４００＞
本実施例の音声認識・学習装置の運用中に音声認識エンジンの更新などにより、認識精度が変動することも考えられる。そのため、本実施例の音声認識・学習装置は定期的に組合せ選択モードに切り替えて、改めて認識精度が高い組合せを導き出す処理を実行する。

図８に組合せ選択モードに切り替えるタイミングを知る手段である選択タイミング通知部１４の機能構成を、図９に選択タイミング通知部１４の詳細な動作（図２のステップＳ４００の動作を詳述したもの）を示す。図８に示すように、選択タイミング通知部１４は外れ値割合算出部１４１と、トリム平均算出部１４２と、通知部１４３と、データ更新催促通知部１４４を含む。図８の破線で示した構成要件の動作は、算出手段設定部３２に記憶されている設定により切り替わるものとする。外れ値割合算出部１４１が動作するか、トリム平均算出部１４２が動作するかの設定は、ユーザ設定入力部３の算出手段設定部３２に記録されているものとする。

選択タイミング通知部１４が、外れ値の割合に基づいて選択タイミングを決定する場合（「外れ値の割合で比較？」→Ｙ）、外れ値割合算出部１４１は、次式で求められるＡの値の外れ値の割合Ｙを算出する（Ｓ１４１）。

Ａ＝Ｔ／Ｘ・・・（式３）
Ｔを所定の発話区間の時間長とし、Ｘを対応する音声認識結果の文字数とする。従ってＡは、おおよそ１文字あたりの発話長に相当する。

≪外れ値≫
外れ値とは、データ全体から見た分布に対して極端に離れた値のことである。本実施例ではユーザが定めたある算出期間、あるいはユーザが定めたデータ数を蓄積し、そのデータを昇順に並べた際の上位下位の数％を外れ値という。外れ値の算出期間については、ユーザ設定入力部３の算出期間設定部３３に記録されているものとし、外れ値を定義する上位下位の割合は、ユーザ設定入力部３の算出手段設定部３２に記録されているものとする。

例えば算出期間設定部３３に記憶された算出期間が１週間だった場合、外れ値割合算出部１４１は、運用開始直後１週間分（第１の期間とも呼称する）の所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値Ａの外れ値の割合（上位ｘ％
または下位ｘ％に属する値の割合、図１０参照）を第１の期間における外れ値の割合Ｙ_１とする。さらに、外れ値割合算出部１４１は、第１の期間において外れ値を除外して残存したＡの値が分布する範囲を値域（図１０）とし、予め定めた第Ｎ（Ｎは２以上の自然数）の期間内の値Ａのうち、第１の期間における値域の外にある値を全て外れ値として、第Ｎの期間の外れ値の割合Ｙ_Ｎを算出する（図１０）。すなわち外れ値割合算出部１４１は、２週目以降、１週目の値域を基に最新１週間毎のデータとの比較を続けていく。ここでユーザが定めたものが期間ではなく、データ数だった場合も同様に運用開始直後のデータ数（第１の期間）と、それ以降のユーザによって定められたデータ数（第Ｎの期間）で比較するものとする。外れ値の割合を算出することにより、本システムで出力されるテキスト量の極端な増減が分かり、認識エンジン更新、あるいは録音環境の大きな変化などが予想される。テキスト量が減る状況として、例えばオフィスの席替えなどで周囲の雑音が増えた場合などが考えられる。通話音声と周囲雑音のバランスが変わってしまい、音声がノイズ除去の作用を受けて大きく削られてしまう状況が考えられる。逆にテキスト量が増える状況としては、例えば静かな環境に大きな機械音などが混ざってしまい、それを人の声としてテキストに誤変換してしまう状況などが考えられる。

フローチャートの分岐「Ｙ＞閾値」で用いられる閾値は、ユーザ設定取得部３の算出手段設定部３２に記憶されているものとする。例えば運用中の１週間で発話区間の存在が認められた通話数Ｌ回に対して、Ａが外れ値となる通話数がｉ回存在したとするとＡの外れ値の割合Ｙは次式で求められる。

Ｙ＝ｉ／Ｌ・・・（式４）
フローチャートの分岐「Ｙ＞閾値」において、外れ値の割合Ｙの値が所定の閾値を超えたと判定された場合（「Ｙ＞閾値」→Ｙ）、通知部１４３は、選択タイミング通知２４を生成し、選択タイミング通知２４をユーザに通知・呈示する（Ｓ１４３）。外れ値割合の算出を行うか否かの設定は、ユーザ設定入力部３の算出手段設定部３２に記録されているものとする。通知に伴い組合せが再選択された場合、再選択後の初週（第１の期間）に再度外れ値を除外して残存したＡの値が分布する範囲（値域）を求め、その翌週（第２の期間以降）から、値域に基づいて外れ値の割合を求める。外れ値の割合Ｙが所定の閾値を超えなかった場合（「Ｙ＞閾値」→Ｎ）、トリム平均算出部１４２は、フローチャートの分岐「トリム平均で比較？」を判断して、「トリム平均で比較」→Ｙの場合、トリム平均Ａ￣_Ｎ０、Ａ￣_Ｎ１を算出する（Ｓ１４２）。トリム平均算出を行うか否かの設定は、ユーザ設定入力部３の算出手段設定部３２に記録されているものとする。

≪トリム平均≫
トリム平均とはデータを昇順に並べた場合の上位下位数％を除外した残りの値の平均値のことである。除外する上位下位の割合がＭ％である場合そのトリム平均は、２Ｍ％トリム平均と表現される。例えば上位下位それぞれ２０％を除外した場合は、４０％トリム平均と表現される。除外する割合をＭ％としたとき、両端からｋ個のデータを除くとすると、ｋの値は次の通りである。

ｋ＝ＭＬ／１００・・・（式５）
昇順に並んだデータの端からｋ個除いたＡのトリム平均値は次式で求められる。

Ａのトリム平均値＝Σ^Ｌ－ｋ _{ｊ＝ｋ＋１}Ａ_ｊ／（Ｌ－２ｋ）・・・（式６）
外れ値割合の算出、またはトリム平均算出、あるいはその両方を行うか否かの設定は、ユーザ設定入力部３の算出手段設定部３２に記録されているものとする。

最初から外れ値を求めない設定とした場合（分岐「外れ値の割合で比較」→Ｎ）、他に再選択タイミングの通知処理の基準がない為、ステップＳ１４２が実行される。図９のフローはこの２つの基準（外れ値、トリム平均）のうち、いずれか一方を必ず算出するように設定されている。

例えばステップＳ１４２においてトリム平均算出部１４２は、運用開始直後の１週間（第１の期間）のトリム平均をＡ￣_Ｎ０として、２週目（第２の期間）のトリム平均をＡ￣_Ｎ１として算出する。トリム平均算出部１４２は、分岐「｜Ａ￣_Ｎ０－Ａ￣_Ｎ１｜＞閾値」において、トリム平均値Ａ￣_Ｎ０とトリム平均値Ａ￣_Ｎ１の差分の絶対値が所定の閾値を越えたか判定し、超えた場合には、通知部１４３が、選択タイミング通知２４を生成し、選択タイミング通知２４をユーザに通知・呈示する（Ｓ１４３）。

３週目以降、Ａ￣_Ｎ０を算出した際の除外する上位下位の割合に基づいたトリム平均の値Ａ￣_Ｎ２、Ａ￣_Ｎ３…と、Ａ￣_Ｎ０との差分の絶対値を求め、分岐「｜Ａ￣_Ｎ０－Ａ￣_{Ｎ（）}｜＞閾値」の比較を実行する。

組合せ選択タイミング通知に伴い、組合せが再選択された場合には運用開始直後の１週間で、再度Ａ￣_Ｎ０を求めて２週目からトリム平均値の差分の絶対値を閾値と比較する。この判定に用いる絶対値の閾値は算出手段設定部３２に対するユーザ入力により、変更が可能であるものとする。

トリム平均を用いることにより、一時的な環境の変化に左右されない平均値が求められ、無闇に組合せ再選択通知を行わないシステムとなる。例えば、一時的に工事などで騒がしくなった期間に合わせて組合せが再選択を促されることは好ましくない。トリム平均をとることにより、そういった突発的で一時的な事象を取り除くことができる。

トリム平均を求める際の、除外する上位下位の割合の設定によっては、組合せ選択タイミングに大きく影響が出る可能性がある。この除外する割合は算出手段設定部３２に対するユーザ入力により、変更が可能であるものとする。頻繁に組合せ選択を促される場合にはこの割合を変更するなど、運用状況から割合を定めることが望ましい。

ステップＳ１４３の通知を実行した後、分岐「通話音声データ更新済？」の判断を行い、通話音声データが未更新である場合（「通話音声データ更新済？」→Ｎ）、データ更新催促通知部１４４は、データ更新催促通知を生成して、当該データ更新催促通知をユーザに通知・呈示する（Ｓ１４４）。選択タイミング通知部１４は、ユーザからデータ更新指示を取得して、組合せ選択用データセットを直近の通話音声データとそれを文字起こししたテキストデータに更新する。これにより、音声認識の環境の変化などに対応できる。

次に、音声認識・学習装置は、組合せ再選択処理（Ｓ１００）を手動で行う場合と自動で行う場合の分岐「自動更新？」を処理する。

これに関し、ユーザが任意で組合せ選択を手動でするか、自動でするかの設定切り替えを行えるようにしてもよい。この設定切り替えに関する情報は、自動更新設定部３１において設定、記憶されるものとする。

ステップＳ１００を自動更新で行う場合（分岐「自動更新？」→Ｙ）、処理はステップＳ１００に移行する。自動で組合せ選択する場合、組合せ選択を開始するタイミングも運用する時間帯を避けた夜間に行うなど、ユーザが任意に設定できるものとする。ユーザが入力した設定は、自動更新設定部３１によって取得され、記憶されるものとする。一方、ステップＳ１００を手動で行う場合（分岐「自動更新？」→Ｎ）、ユーザによりステップＳ１００が実行され、処理はステップＳ２００に移行する。

＜ステップＳ３００＞
本実施例の音声認識・学習装置は、環境の変化や利用者の変化などにも対応するため、組合せ選択用データセットを更新する場合を考慮し、運用中の通話音声データを蓄積していく仕組みを持つ。ユーザはこの通話音声データを利用して、組合せ選択用データセットの内容を更新することが可能である。

以下、図２のステップＳ３００の通話音声データを蓄積する処理について説明する。算出期間設定部３３に記憶され、設定されている期間中、データ記憶部１３に記憶済みの通話音声データを、組合せ選択用データセットの通話音声データとして使用できる。

組合せ選択用通話音声データ抽出部１８は、算出期間設定部３３に記憶され、設定されている期間中に記録した通話音声データのうち、時間幅設定部３４に記憶され、設定された時間幅（発話区間長）の通話音声データを、蓄積するデータとして選定する。

時間幅設定部３４は、蓄積する通話音声データの発話区間長の最大値・最小値の設定をユーザ入力などから取得し、当該設定を予め記憶しておく。

例えば、ユーザが発話区間長の最大値を２分、最小値を１分とした場合、データ記憶部１３は、発話区間長が１～２分の通話音声データを蓄積する。通話時間の長さはユーザが任意で選択できるシステムにすることで、様々な利用シーンに対応できる。例えば、業務連絡などの話す内容が決まっている場合には１分未満で通話が終了することもあるが、カスタマーサービスなど話す内容が不確定な場合には通話時間が長くなる可能性が考えられる。

データ数上限設定部３５は、データ数上限の設定値をユーザ入力などから取得し、当該設定を予め記憶しておく。データ数上限設定部３５が予め記憶するデータ数上限を超えるデータ数になった場合、データ記憶部１３は、蓄積されているデータを古いものから順に削除し、新しい通話音声データを残す処理を行う。ユーザはこの仕組みを利用することにより、次の組合せ選択用の通話音声データ候補を入手することができる。ここで入手した通話音声データとそれを文字起こししたデータを運用モード中に組合せ選択用データセットの更新に利用することで、次の組合せ選択モードでは円滑に最適な組合せ選択が行われる。

本実施例の音声認識・学習装置は単に音声認識エンジンそのものの認識精度比較にも利用できるため、音声認識エンジン開発者自身も認識精度の確認に利用できる。

＜効果＞
本実施例の音声認識・学習装置によれば、組合せ選択用データセットを用いて最適な前処理パターンと音声認識エンジンの組合せを見つけ出すことにより、ユーザの望むシーンに即した認識結果を出力することができるため、最低限のコストで運用することが可能である。

また、運用中に音声認識エンジンのアップデートなどで認識精度が落ち、組合せを再選択する必要が生じる場合も考えられる。そこで組合せ再選択のタイミングを運用中に通知する仕組みを導入することで、ユーザの運用中の負担を減らすことができる。さらに、再選択のタイミング通知の仕組みとしてトリム平均を用いることにより、一時的な異常値に左右されないシステムを実現する。再選択時には運用中に記録した通話音声データを保持することで、改めて組合せ選択用データセットを作成する際の負担を減らす。

再選択の際には、運用中に蓄積した通話音声データの中から適当な長さの通話音声データを選択して文字起こしを行い、新たに組合せ選択用データセットとして使用することによって、利用シーンに適した前処理パターンと音声認識エンジンの組合せを再選択できる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

上述の各種の処理は、図１１に示すコンピュータの記録部１００２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部１００１０、入力部１００３０、出力部１００４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electrically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

通話音声データとこれに対応する正解テキストデータとを組合せてなる組合せ選択用データセットを用いる学習装置であって、
前記通話音声データをＳ通り（Ｓは２以上の自然数）の前処理パターンで前処理する前処理部と、
前処理された前記通話音声データをｍ（ｍは２以上の自然数）種類の音声認識エンジンで音声認識して、Ｓ×ｍ個の音声認識結果を取得する音声認識部と、
前記正解テキストデータに基づいてＳ×ｍ個の前記音声認識結果の認識精度を算出し、最も認識精度が高い前記音声認識結果を出力した前記前処理パターンと前記音声認識エンジンの組合せを最適な組合せとして出力する認識精度算出部を含む
学習装置。
請求項１に記載の学習装置であって、
所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値をＡとし、Ａの外れ値の割合Ｙを算出する外れ値割合算出部を含み、
前記外れ値の割合Ｙが所定の閾値を超える場合に前記前処理パターンと前記音声認識エンジンの最適な組合せを再学習する
学習装置。
請求項２に記載の学習装置であって、
前記外れ値割合算出部は、
予め定めた第１の期間内の所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値Ａの外れ値の割合を第１の期間における外れ値の割合Ｙ_１とし、前記第１の期間において外れ値を除外して残存したＡの値が分布する範囲を値域とし、予め定めた第Ｎ（Ｎは２以上の自然数）の期間内の値Ａのうち、前記値域の外にある値を全て外れ値として、第Ｎの期間の外れ値の割合Ｙ_Ｎを算出する
学習装置。
請求項１に記載の学習装置であって、
所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値をＡとし、Ａのトリム平均値を算出するトリム平均算出部を含み、
予め定めた第１の期間内のＡのトリム平均値と予め定めた第Ｎ（Ｎは２以上の自然数）の期間内のＡのトリム平均値の差分の絶対値が所定の閾値を超える場合に前記前処理パターンと前記音声認識エンジンの最適な組合せを再学習する
学習装置。
Ｓ通り（Ｓは２以上の自然数）の前処理パターンで前処理した結果をｍ（ｍは２以上の自然数）種類の音声認識エンジンで音声認識して取得したＳ×ｍ個の音声認識結果のうち、最も認識精度が高い前記音声認識結果を出力した前記前処理パターンと前記音声認識エンジンの組合せを最適な組合せとして記憶するデータ記憶部と、
通話音声データを取得する通話音声データ取得部と、
前記最適な組合せとして選ばれている前処理パターンを用いて取得した前記音声データを前処理する前処理部と、
前処理された前記通話音声データを前記最適な組合せとして選ばれている音声認識エンジンで音声認識して、音声認識結果を取得する音声認識部を含む
音声認識装置。
請求項５に記載の音声認識装置であって、
所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値をＡとし、Ａの外れ値の割合Ｙを算出する外れ値割合算出部を含み、
前記外れ値の割合Ｙが所定の閾値を超える場合に前記前処理パターンと前記音声認識エンジンの最適な組合せを再学習する
音声認識装置。
請求項６に記載の音声認識装置であって、
前記外れ値割合算出部は、
予め定めた第１の期間内の所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値Ａの外れ値の割合を第１の期間における外れ値の割合Ｙ_１とし、前記第１の期間において外れ値を除外して残存したＡの値が分布する範囲を値域とし、予め定めた第Ｎ（Ｎは２以上の自然数）の期間内の値Ａのうち、前記値域の外にある値を全て外れ値として、第Ｎの期間の外れ値の割合Ｙ_Ｎを算出する
音声認識装置。
請求項５に記載の音声認識装置であって、
所定の発話区間の時間長Ｔとこれに対応する音声認識結果の文字数Ｘの比の値をＡとし、Ａのトリム平均値を算出するトリム平均算出部を含み、
予め定めた第１の期間内のＡのトリム平均値と予め定めた第Ｎ（Ｎは２以上の自然数）の期間内のＡのトリム平均値の差分の絶対値が所定の閾値を超える場合に前記前処理パターンと前記音声認識エンジンの最適な組合せを再学習する
音声認識装置。
通話音声データとこれに対応する正解テキストデータとを組合せてなる組合せ選択用データセットを用いる学習装置が各ステップを実行する学習方法であって、
前記通話音声データをＳ通り（Ｓは２以上の自然数）の前処理パターンで前処理するステップと、
前処理された前記通話音声データをｍ（ｍは２以上の自然数）種類の音声認識エンジンで音声認識して、Ｓ×ｍ個の音声認識結果を取得するステップと、
前記正解テキストデータに基づいてＳ×ｍ個の前記音声認識結果の認識精度を算出し、最も認識精度が高い前記音声認識結果を出力した前記前処理パターンと前記音声認識エンジンの組合せを最適な組合せとして出力するステップを含む
学習方法。
音声認識装置が各ステップを実行する音声認識方法であって、
Ｓ通り（Ｓは２以上の自然数）の前処理パターンで前処理した結果をｍ（ｍは２以上の自然数）種類の音声認識エンジンで音声認識して取得したＳ×ｍ個の音声認識結果のうち、最も認識精度が高い前記音声認識結果を出力した前記前処理パターンと前記音声認識エンジンの組合せを最適な組合せとして記憶するステップと、
通話音声データを取得するステップと、
前記最適な組合せとして選ばれている前処理パターンを用いて取得した前記音声データを前処理するステップと、
前処理された前記通話音声データを前記最適な組合せとして選ばれている音声認識エンジンで音声認識して、音声認識結果を取得するステップを含む
音声認識方法。
コンピュータを請求項１から４の何れかに記載の学習装置として機能させるプログラム。
コンピュータを請求項５から８の何れかに記載の音声認識装置として機能させるプログラム。