JP7435740B2

JP7435740B2 - 音声認識装置、制御方法、及びプログラム

Info

Publication number: JP7435740B2
Application number: JP2022508617A
Authority: JP
Inventors: 秀治古明地; 仁山本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2024-02-21
Anticipated expiration: 2040-03-16
Also published as: JPWO2021186501A1; US20230076709A1; WO2021186501A1

Description

本発明は音声認識に関する。

音声認識技術が開発されている。音声認識により、例えば、人の発話が含まれる音声信号が、その発話の内容を表すテキストに変換される。

音声認識に関する先行技術文献には、例えば、特許文献１がある。特許文献１は、音声認識によって音声データから文章を得る際に、隣接する２単語間の連鎖確率を考慮して文章を特定する技術を開示している。

特開平８－２４８９８８号公報

本発明者は、音声信号から複数の文章が得られる場合、それら複数の文章の内容は互いに関連している蓋然性が高いことを見出した。この点、特許文献１の発明では、連続する単語間の連鎖確率が考慮されているものの、文章間の関連については考慮されていない。

本発明は上述した課題に鑑みてなされたものであり、その目的の一つは、音声認識の精度を向上させる技術を提供することである。

本発明の音声認識装置は、発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成部と、複数の候補テキスト群の間の比較結果に基づいて、各音声データについて、その音声データについて生成された候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択部と、を有する。候補テキストは文章を表す。

本発明の制御方法はコンピュータによって実行される。当該制御方法は、発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、複数の候補テキスト群の間の比較結果に基づいて、各音声データについて、その音声データについて生成された候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有する。候補テキストは文章を表す。

本発明のプログラムは、本発明の制御方法をコンピュータに実行させる。

本発明によれば、音声認識の精度を向上させる技術が提供される。

実施形態１に係る音声認識装置の動作を概念的に例示する図である。音声認識装置の機能構成を例示するブロック図である。音声認識装置を実現するための計算機を例示する図である。実施形態１の音声認識装置によって実行される処理の流れを例示するフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。以下の説明において、特に説明しない限り、各種所定の値（閾値など）は、その値を利用する機能構成部からアクセス可能な記憶装置に予め記憶させておく。

［実施形態１］
＜概要＞
図１は、実施形態１に係る音声認識装置２０００の動作を概念的に例示する図である。ここで、図１を用いて説明する音声認識装置２０００の動作は、音声認識装置２０００の理解を容易にするための例示であり、音声認識装置２０００の動作を限定するものではない。音声認識装置２０００の動作の詳細やバリエーションについては後述する。

音声認識装置２０００は、発話を表す音声を、その発話の内容を表すテキストに変換するために利用される。そのために、音声認識装置２０００は以下のように動作する。

音声認識装置２０００は、ソースデータ１０を取得する。ソースデータ１０は、人の発話が記録された音声データであり、例えば会話やスピーチの録音データなどである。音声データは、例えば、音声信号の波形を表すベクトルデータなどである。以下、ソースデータ１０によって表される音声信号を、ソース音声信号とも呼ぶ。

音声認識装置２０００は、ソースデータ１０から得られる複数の音声データ２０を取得する。音声データ２０は、１つの文章に対応する音声信号を表す。ソースデータ１０によって表される発話は、複数の文章で構成されている。そのため、ソースデータ１０から、複数の文章それぞれについての音声データ２０が得られる。

音声認識装置２０００は、各音声データ２０について、その音声データによって表される文章を表すテキストの候補を複数生成する。以下、この候補のことを「候補テキスト」と呼ぶ。また、１つの音声データ２０について生成された複数の候補テキストのまとまりを、候補テキスト群３０と呼ぶ。

音声認識装置２０００は、文章間の関連度合いを考慮して、各音声データ２０について、その音声データ２０に対応する文章を表すテキストを特定する。そのために、音声認識装置２０００は、各音声データ２０について生成された候補テキスト群３０の間で比較を行い、その比較結果に基づいて、各音声データ２０について、その音声データ２０について生成された候補テキスト群３０の中から、その音声データ２０によって表される文章を表す候補テキスト３２を特定する。

例えばソースデータ１０から、音声データＡと音声データＢという２つの音声データが得られたとする。そして、音声データＡの候補テキスト群３０には２つの候補テキスト T1 及び T2 が含まれており、音声データＢの候補テキスト群３０には２つの候補テキスト T3 及び T4 が含まれているとする。この場合、ソースデータ１０によって表される発話の内容を表す候補テキスト３２のペア（文章のペア）として、「T1, T3」、「T1, T4」、「T2, T3」、及び「T2, T4」という４つが考えられる。音声認識装置２０００は、音声データＡの候補テキスト群３０と、音声データＢの候補テキスト群３０とを比較することにより、これら４つのペアの中から、ソースデータ１０によって表される発話の内容を表す候補テキスト３２のペアを特定する。例えば、特定されたペアが「T1, T3」である場合、音声データＡによって表される発話の内容を表すテキストとして T1 が特定され、音声データＢによって表される発話の内容を表すテキストとして T3 が特定されたこととなる。

＜作用効果の一例＞
本実施形態の音声認識装置２０００によれば、音声認識によってソースデータ１０から複数の文章が得られる場合において、文章ごとに複数の候補（候補テキスト群３０）が生成される。そして、候補間の比較（候補テキスト群３０間の比較）に基づいて、文章ごとに、複数の候補の中から認識結果とする１つの文章が特定される。よって、候補間の比較を行わない場合と比較し、高い精度で音声認識を行うことができる。言い換えれば、ソースデータ１０によって表される発話の内容が、より高い精度でテキスト化される。

以下、音声認識装置２０００についてより詳細に説明する。

＜機能構成の例＞
図２は、音声認識装置２０００の機能構成を例示するブロック図である。候補生成部２０２０は、ソースデータ１０から得られた複数の音声データ２０それぞれについて、候補テキスト群３０を生成する。選択部２０４０は、各音声データ２０について得られた候補テキスト群３０を比較し、その比較結果に基づいて、各音声データ２０に対応する発話の内容を表すテキストを、その音声データ２０について生成された候補テキスト３２の中から選択する。

＜ハードウエア構成の例＞
音声認識装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、音声認識装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

図３は、音声認識装置２０００を実現するための計算機１０００を例示する図である。計算機１０００は、任意の計算機である。例えば計算機１０００は、PC（Personal Computer）やサーバマシンなどといった、据え置き型の計算機である。その他にも例えば、計算機１０００は、スマートフォンやタブレット端末などといった可搬型の計算機である。

計算機１０００は、音声認識装置２０００を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。後者の場合、例えば、計算機１０００に対して所定のアプリケーションをインストールすることにより、計算機１０００で、音声認識装置２０００の各機能が実現される。上記アプリケーションは、音声認識装置２０００の機能構成部を実現するためのプログラムで構成される。

計算機１０００は、バス１０２０、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０を有する。バス１０２０は、プロセッサ１０４０、メモリ１０６０、ストレージデバイス１０８０、入出力インタフェース１１００、及びネットワークインタフェース１１２０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０４０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０４０は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ１０６０は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス１０８０は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

入出力インタフェース１１００は、計算機１０００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース１１００には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

ネットワークインタフェース１１２０は、計算機１０００を通信網に接続するためのインタフェースである。この通信網は、例えば LAN（Local Area Network）や WAN（Wide Area Network）である。

ストレージデバイス１０８０は、音声認識装置２０００の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ１０４０は、このプログラムをメモリ１０６０に読み出して実行することで、音声認識装置２０００の各機能構成部を実現する。

ここで、音声認識装置２０００は、１つの計算機１０００で実現されてもよいし、複数の計算機１０００で実現されてもよい。後者の場合、例えば音声認識装置２０００は、候補生成部２０２０を実現する１つ以上の計算機１０００と、連結部２０４０を実現する１つ以上の計算機１０００とを有する分散システムとして実現される。

＜処理の流れ＞
図４は、実施形態１の音声認識装置２０００によって実行される処理の流れを例示するフローチャートである。候補生成部２０２０はソースデータ１０を取得する（Ｓ１０２）。候補生成部２０２０はソースデータ１０から複数の音声データ２０を生成する（Ｓ１０４）。候補生成部２０２０は各音声データ２０について候補テキスト群３０を生成する（Ｓ１０６）。選択部２０４０は、候補テキスト群３０の比較結果に基づいて、各音声データ２０に対応する発話の内容を表すテキストを、各音声データ２０について生成された候補テキスト３２の中から選択する（Ｓ１０８）。

＜ソースデータ１０の取得：Ｓ１０２＞
候補生成部２０２０はソースデータ１０を取得する（Ｓ１０２）。候補生成部２０２０がソースデータ１０を取得する方法は任意である。例えば候補生成部２０２０は、ユーザが操作するユーザ端末から送信されるソースデータ１０を受信することで、ソースデータ１０を取得する。その他にも例えば、候補生成部２０２０は、候補生成部２０２０からアクセス可能な記憶装置に格納されているソースデータ１０を取得してもよい。この場合、例えば音声認識装置２０００は、ユーザ端末から、取得すべきソースデータ１０の指定（ファイル名などの指定）を受け付ける。その他にも例えば、候補生成部２０２０は、上記記憶装置に格納されている１つ以上のデータをそれぞれソースデータ１０として取得してもよい。すなわちこの場合、記憶装置に予め格納しておいた複数のソースデータ１０についてバッチ処理が行われる。

＜音声データ２０の生成：Ｓ１０４＞
候補生成部２０２０は、ソースデータ１０から複数の音声データ２０を生成する（Ｓ１０４）。ここで、複数の文章が含まれる音声データ（本発明ではソースデータ１０）を、文章ごとの音声データ（本発明では音声データ２０）に分割する技術には、既存の技術を利用できる。例えば候補生成部２０２０は、ソースデータ１０について音声区間検出を行うことで、ソースデータ１０を音声区間ごとに分割する。そして、この分割により得られた複数の音声データそれぞれを、音声データ２０として扱う。すなわち、１つの音声データ２０は、ソースデータ１０から得られる１つの音声区間に対応する。

＜候補テキスト群３０の生成：Ｓ１０６＞
候補生成部２０２０は、音声データ２０ごとに候補テキスト群３０を生成する（Ｓ１０６）。候補テキスト群３０は、音声データ２０に対して音声認識処理を行うことで生成される。例えば候補生成部２０２０は、音声データ２０に対して音声認識処理を行うことで、その音声データ２０に対応する発話の内容を表す可能性があるテキストと、そのテキストが音声データ２０に対応する発話の内容を表す確率（以下、確度とも表記する）とのペアを示す情報を生成する。そして候補生成部２０２０は、生成した複数のテキストの中から、確度の大きさで上位 N 個のテキストを抽出し、当該抽出されたテキストで構成される候補テキスト群３０を生成する。言い換えれば、音声データ２０に対して音声認識処理を行うことで得られる N-best の認識結果が、候補テキスト群３０として扱われる。なお、発話が含まれる音声データに対して音声認識処理を行うことで、その発話の内容を表す可能性があるテキストを複数生成する技術、及び各テキストがその発話の内容を表す確率を算出する技術には、既存の技術を利用することができる。

候補テキスト群３０の要素数（上記の N の値）は、予め固定で定められていてもよいし、定められていなくてもよい。後者の場合、例えば、候補テキスト３２が音声データ２０に対応する発話の内容を表す確率の大きさ（すなわち、候補テキスト３２の確度の大きさ）について、下限値を定めておく。この場合、候補生成部２０２０は、前述したテキストと確度のペアを複数生成し、生成した複数のテキストの中から、確度が前述した下限値以上であるテキストのみを抽出して、抽出されたテキストで構成される候補テキスト群３０を生成する。

＜テキストの特定：Ｓ１０８＞
選択部２０４０は、候補テキスト群３０の比較を行うことで、各候補テキスト群３０から選択する候補テキスト３２を特定する（Ｓ１０８）。具体的には、選択部２０４０は、比較する２つの候補テキスト群３０について、各候補テキスト群３０に含まれる候補テキスト３２の間の関連度を表す指標値（以下、関連度指標値）を算出する。このように候補テキスト３２間の関連度合いを考慮することにより、各候補テキスト群３０から選択される候補テキスト３２の間の関連度合いが高くなるようにする。

例えばソースデータ１０から、時系列順で音声データＡ、Ｂ、及びＣが得られたとする。また、音声データＡの候補テキスト群３０に候補テキスト T1 と T2 が含まれており、音声データＢの候補テキスト群３０に候補テキスト T3 と T4 が含まれており、音声データＣの候補テキスト群３０に候補テキスト T5、T6、及び T7 が含まれているとする。この場合、選択部２０４０は、音声データＡの候補テキスト群３０と音声データＢの候補テキスト群３０との比較として、「T1, T3」、「T1, T4」、「T2, T3」、「T2, T4」という４つのペアそれぞれについて、関連度指標値を算出する。同様に、選択部２０４０は、音声データＡの候補テキスト群３０と音声データＣの候補テキスト群３０との比較として、「T1, T5」、「T1, T6」、「T1, T7」、「T2, T5」、「T2, T6」、「T2, T7」という６つのペアそれぞれについて、関連度指標値を算出する。さらに、選択部２０４０は、音声データＢの候補テキスト群３０と音声データＣの候補テキスト群３０との比較として、「T3, T5」、「T3, T6」、「T3, T7」、「T4, T5」、「T4, T6」、「T4, T7」という６つのペアそれぞれについて、関連度指標値を算出する。

関連度指標値には、文章間の関連度合いを定量化できる任意の指標値を利用することができる。例えば関連度指標値には、文章間距離が利用される。２つの文章の文章間距離は、例えば、各文章を表すベクトル（以下、文章ベクトル）の間の距離として算出することができる。文章ベクトルとしては、Bag of Words や TF-IDF などといった種々のものを利用することができる。また、ベクトル間の距離としては、ユークリッド距離、コサイン距離、又は Word Move's Distance などを利用することができる。なお、ユークリッド距離と Word Move's Distance は、値が小さいほど文章間の類似度が高いことを表す。一方、コサイン距離では、値が大きいほど文章間の類似度が高いことを表す。

例えば選択部２０４０は、全ての候補テキスト群３０から１つずつ候補テキスト３２を選択した場合に、選択された候補テキスト３２から得られる候補テキスト３２の各ペアについて算出される関連度指標値の和に基づいて、各候補テキスト群３０から選択する候補テキスト３２を特定する。値が小さいほど文章間の類似度が高いことを表す関連度指標値を利用する場合、関連度指標値の和が最小となるようにする。一方、値が大きいほど文章間の類似度が高いことを表す関連度指標値を利用する場合、関連度指標値の和が最大となるようにする。この処理は、例えば以下のように定式化できる。

まず、インデックスベクトルを以下の式（１）のように定める。

ここで、M は音声データ２０の総数である。また、m は音声データ２０のインデックスであり、その音声データ２０が時系列順で先頭から何番目に位置するかを表す。Nm は、m 番目の音声データ２０の候補テキスト群３０に含まれる候補テキスト３２の総数である。cm は、先頭から m 番目の音声データ２０の候補テキスト群３０から選択される候補テキスト３２のインデックスである。

インデックスベクトル A は、各候補テキスト群３０から選択される候補テキスト３２のインデックスを表す。例えば、A=(2,3,1) であれば、１番目の音声データ２０の候補テキスト群３０からは２番目の候補テキスト３２が選択され、２番目の音声データ２０の候補テキスト群３０からは３番目の候補テキスト３２が選択され、３番目の音声データ２０の候補テキスト群３０からは１番目の候補テキスト３２が選択されることを意味する。そのため、各候補テキスト群３０から選択される候補テキスト３２を決定する処理は、インデックスベクトルを決定する処理として定式化できる。選択部２０４０は、前述した関連度指標値に基づいてインデックスベクトルを決定することで、各音声データ２０の候補テキスト群３０から選択する候補テキスト３２を決める。

ユークリッド距離など、値が小さいほど類似度が高いことを表す文章間距離を利用する場合、例えば選択部２０４０は、インデックスベクトルを以下の式（２）のように決定する。

一方、コサイン距離など、値が大きいほど類似度が高いことを表す文章間距離を利用する場合、例えば選択部２０４０は、インデックスベクトルを以下の式（３）のように決定する。

なお、各音声データ２０に対して重みを与え、その重みを考慮してインデックスベクトルを決定するようにしてもよい。重みを考慮する場合、例えば、前述した式（２）と（３）はそれぞれ、以下の式（４）と（５）のようにすることができる。

ここで、wi は i 番目の音声データ２０に対して与えられる重みを表す。

音声データ２０に対して重みを与える方法は任意である。例えば、「ええと」や「うーん」などというフィラーワードのみが含まれる音声データ２０の重みは、他の音声データ２０の重みより小さくする（例えば、前者を０にし、後者を１とする）。その他にも例えば、所定の単語を含む音声データ２０の重みを、他の音声データ２０の重みよりも大きくする（例えば、前者を２とし、後者を１とする）。また、機械学習によって最適な重みを決めてもよい。

前述した式（２）から（５）では、任意の候補テキスト群３０のペアそれぞれについて、選択された候補テキスト３２の文章間距離が算出されている。そのため、時系列で隣接していない文章間の関連度合いも考慮して、ソースデータ１０によって表される発言の内容を特定することができる。

ただし、選択部２０４０は、時系列で隣接する候補テキスト群３０のペアについてのみ、選択された候補テキスト３２の文章間距離を算出するようにしてもよい。この場合、例えば式（２）と（３）に代え、以下の式（６）と（７）を用いることができる。

なお、これら式（６）と（７）についても、式（４）や（５）と同様に、重みを付加するようにしてもよい。

＜処理結果の利用方法＞
音声認識装置２０００によれば、ソースデータ１０から得られた音声データ２０それぞれについて、その内容を表す文章（テキスト）が特定される。すなわち、ソースデータ１０によって表される発話の内容を表す文章列が得られる。このようにして得られた文章列の利用方法は任意である。例えば音声認識装置２０００は、生成された文章列を出力する。文章列の出力先は任意である。例えば音声認識装置２０００は、文章列を記憶装置に格納したり、文章列をディスプレイ装置に表示させたり、文章列を他の任意の装置（例えば、ソースデータ１０の送信元）へ送信したりする。

文章列はソースデータ１０によって表される発話の内容を表すテキストであるため、このようにして出力された文章列を閲覧することにより、音声認識装置２０００のユーザは、ソースデータ１０によって表される発話の内容を視覚的に把握することができるようになる。例えばソースデータ１０が会議の録音データであれば、音声認識装置２０００から得られる文章列は、その会議における発話がテキスト化された議事録データとして扱うことができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
１．発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成部と、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択部と、を有し、
前記候補テキストは文章を表す、音声認識装置。
２．前記選択部は、少なくとも、時系列上で互いに隣接していない２つの音声データそれぞれについて生成された前記候補テキスト群の間の比較を行う、１．に記載の音声認識装置。
３．前記選択部は、互いに異なる前記候補テキスト群から得られる前記候補テキストの間の関連度合いを算出し、算出される前記関連度合いの和が最大になるように、各候補テキスト群から前記候補テキストを選択する、１．又は２．に記載の音声認識装置。
４．前記選択部は、前記候補テキストの間の関連度合いを表す指標値として、前記候補テキストの間の文章間距離を算出する、３．に記載の音声認識装置。
５．前記選択部は、
前記指標値として、値が小さいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最大となるように、各候補テキスト群から前記候補テキストを選択するか、又は、
前記指標値として、値が大きいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最小となるように、各候補テキスト群から前記候補テキストを選択する、４．に記載の音声認識装置。
６．前記選択部は、文章間距離の和として、各文章間距離に重みを付した重み付き和を算出する、５．に記載の音声認識装置。
７．前記選択部は、生成された複数の前記候補テキスト群から得られる前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、３．から６いずれか一つに記載の音声認識装置。
８．前記選択部は、生成された複数の前記候補テキスト群のうち、時系列順で隣接する前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、３．から６いずれか一つに記載の音声認識装置。
９．コンピュータによって実行される制御方法であって、
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有し、
前記候補テキストは文章を表す、制御方法。
１０．前記選択ステップにおいて、少なくとも、時系列上で互いに隣接していない２つの音声データそれぞれについて生成された前記候補テキスト群の間の比較を行う、９．に記載の音声認識装置。
１１．前記選択ステップにおいて、互いに異なる前記候補テキスト群から得られる前記候補テキストの間の関連度合いを算出し、算出される前記関連度合いの和が最大になるように、各候補テキスト群から前記候補テキストを選択する、９．又は１０．に記載の制御方法。
１２．前記選択ステップにおいて、前記候補テキストの間の関連度合いを表す指標値として、前記候補テキストの間の文章間距離を算出する、１１．に記載の制御方法。
１３．前記選択ステップにおいて、
前記指標値として、値が小さいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最大となるように、各候補テキスト群から前記候補テキストを選択するか、又は、
前記指標値として、値が大きいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最小となるように、各候補テキスト群から前記候補テキストを選択する、１２．に記載の制御方法。
１４．前記選択ステップにおいて、文章間距離の和として、各文章間距離に重みを付した重み付き和を算出する、１３．に記載の制御方法。
１５．前記選択ステップにおいて、生成された複数の前記候補テキスト群から得られる前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、１１．から１４いずれか一つに記載の制御方法。
１６．前記選択ステップにおいて、生成された複数の前記候補テキスト群のうち、時系列順で隣接する前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、１１．から１４いずれか一つに記載の制御方法。
１７．９．から１６いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。

１０ソースデータ
２０音声データ
３０候補テキスト群
３２候補テキスト
１０００計算機
１０２０バス
１０４０プロセッサ
１０６０メモリ
１０８０ストレージデバイス
１１００入出力インタフェース
１１２０ネットワークインタフェース
２０００音声認識装置
２０２０候補生成部
２０４０選択部

Claims

発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成部と、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択部と、を有し、
前記候補テキストは文章を表し、
前記複数の候補テキスト群は、互いに異なる第１の前記候補テキスト群および第２の前記候補テキスト群を含み、
前記第１の候補テキスト群は、互いに異なる第１の前記候補テキストおよび第２の前記候補テキストを含み、
前記第２の候補テキスト群は、互いに異なる第３の前記候補テキストおよび第４の前記候補テキストを含み、
前記選択部は、前記第１の候補テキストと前記第３の候補テキストとの候補テキストペア、前記第１の候補テキストと前記第４の候補テキストとの候補テキストペア、前記第２の候補テキストと前記第３の候補テキストとの候補テキストペア、および前記第２の候補テキストと前記第４の候補テキストとの候補テキストペアを少なくとも含む、４つ以上の候補テキストペアのそれぞれに対し、互いに同じ候補テキストペアに属する前記候補テキストの間の関連度合いを表す指標値を算出することで、前記比較結果を得る
音声認識装置。
前記選択部は、少なくとも、時系列上で互いに隣接していない２つの音声データそれぞれについて生成された前記候補テキスト群の間の比較を行う、請求項１に記載の音声認識装置。
前記選択部は、互いに異なる前記候補テキスト群から得られる前記４つ以上の候補テキストペアについて算出される前記関連度合いの和が最大になるように、各前記候補テキスト群から前記候補テキストを選択する、請求項１又は２に記載の音声認識装置。
前記選択部は、前記関連度合いを表す前記指標値として、互いに同じ候補テキストペアに属する前記候補テキストの間の文章間距離を算出する、請求項３に記載の音声認識装置。
前記選択部は、
前記関連度合いを表す前記指標値として、値が小さいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最小となるように、各前記候補テキスト群から前記候補テキストを選択するか、又は、
前記関連度合いを表す前記指標値として、値が大きいほど前記候補テキストの間の関連度合いが大きいことを表す文章間距離を算出し、算出される前記文章間距離の和が最大となるように、各前記候補テキスト群から前記候補テキストを選択する、請求項４に記載の音声認識装置。
前記選択部は、文章間距離の和として、各文章間距離に重みを付した重み付き和を算出する、請求項５に記載の音声認識装置。
前記選択部は、生成された複数の前記候補テキスト群から得られる前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、請求項３から６いずれか一項に記載の音声認識装置。
前記選択部は、生成された複数の前記候補テキスト群のうち、時系列順で隣接する前記候補テキスト群のペア全てについて、前記候補テキスト間の関連度合いを算出する、請求項３から６いずれか一項に記載の音声認識装置。
コンピュータによって実行される制御方法であって、
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有し、
前記候補テキストは文章を表し、
前記複数の候補テキスト群は、互いに異なる第１の前記候補テキスト群および第２の前記候補テキスト群を含み、
前記第１の候補テキスト群は、互いに異なる第１の前記候補テキストおよび第２の前記候補テキストを含み、
前記第２の候補テキスト群は、互いに異なる第３の前記候補テキストおよび第４の前記候補テキストを含み、
前記選択ステップでは、前記第１の候補テキストと前記第３の候補テキストとの候補テキストペア、前記第１の候補テキストと前記第４の候補テキストとの候補テキストペア、前記第２の候補テキストと前記第３の候補テキストとの候補テキストペア、および前記第２の候補テキストと前記第４の候補テキストとの候補テキストペアを少なくとも含む、４つ以上の候補テキストペアのそれぞれに対し、互いに同じ候補テキストペアに属する前記候補テキストの間の関連度合いを表す指標値を算出することで、前記比較結果を得る
制御方法。
制御方法をコンピュータに実行させるプログラムであって、
前記制御方法は、
発話が含まれるソース音声信号から得られた複数の音声データそれぞれについて、その音声データに対応する発話の内容を表すテキストの候補である候補テキストを複数含む候補テキスト群を生成する候補生成ステップと、
複数の前記候補テキスト群の間の比較結果に基づいて、各前記音声データについて、その音声データについて生成された前記候補テキスト群の中から、その音声データによって表される発話の内容を表す候補テキストを選択する選択ステップと、を有し、
前記候補テキストは文章を表し、
前記複数の候補テキスト群は、互いに異なる第１の前記候補テキスト群および第２の前記候補テキスト群を含み、
前記第１の候補テキスト群は、互いに異なる第１の前記候補テキストおよび第２の前記候補テキストを含み、
前記第２の候補テキスト群は、互いに異なる第３の前記候補テキストおよび第４の前記候補テキストを含み、
前記選択ステップでは、前記第１の候補テキストと前記第３の候補テキストとの候補テキストペア、前記第１の候補テキストと前記第４の候補テキストとの候補テキストペア、前記第２の候補テキストと前記第３の候補テキストとの候補テキストペア、および前記第２の候補テキストと前記第４の候補テキストとの候補テキストペアを少なくとも含む、４つ以上の候補テキストペアのそれぞれに対し、互いに同じ候補テキストペアに属する前記候補テキストの間の関連度合いを表す指標値を算出することで、前記比較結果を得る
プログラム。