JP6495792B2

JP6495792B2 - 音声認識装置、音声認識方法、プログラム

Info

Publication number: JP6495792B2
Application number: JP2015182917A
Authority: JP
Inventors: 太一浅見; 厚志安藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2019-04-03
Anticipated expiration: 2035-09-16
Also published as: JP2017058507A

Description

入力された音声信号を音声認識して、音声認識結果を文ごとに分割して出力する音声認識装置、音声認識方法、およびプログラムに関する。

入力された音声信号を音声認識によってテキスト化する際、音声認識結果が文ごとに分割されていれば、文を単位にした自然言語処理（例えば文書要約など）を音声認識結果に適用したときに正しい結果を得やすくなる。

文ごとに分割された音声認識結果（以下、文境界付き音声認識結果という）を出力する従来技術が非特許文献１に開示されている。以下、図１〜図３を参照して、非特許文献１の音声認識装置について説明する。図１は、非特許文献１の音声認識装置９の構成を示すブロック図である。図２、図３は、非特許文献１の音声認識装置９の動作を示すフローチャートであって、図２は、識別器学習動作を示すフローチャート、図３は、音声認識動作を示すフローチャートである。

図１に示すように非特許文献１の音声認識装置９は、文境界ラベル付きテキストコーパス記憶部９０と、文境界識別器学習部９１と、音声区間検出部９２と、音声認識部９３と、文境界識別部９４を含む構成である。文境界ラベル付きテキストコーパス記憶部９０は、正しい文境界位置（文境界ラベル）が付与された大量のテキストコーパス（以下、文境界ラベル付きテキストコーパスという）が記憶されている。図２に示すように、文境界識別器学習部９１は、文境界ラベル付きテキストコーパスから文境界の識別に用いる文境界識別器を学習する（Ｓ９１）。文境界識別器としては、Support Vector Machine（ＳＶＭ）やニューラルネットワークなど、２値分類が可能な既存の識別器が利用可能である。文境界識別器学習部９１は、識別器の種類に応じた既存のアルゴリズムを用いて文境界識別器を学習する。ステップＳ９１は後述するステップＳ９２〜Ｓ９４に先立ち、予め実行されているものとする。

音声区間検出部９２は、所定のポーズ長Ｌ１（例えば５００ｍｓ程度）以上のポーズ（以下では、ポーズ区間ともいう）に挟まれた発声区間である発話を音声信号から検出して、発話検出済み音声信号を出力する（Ｓ９２）。音声区間検出部９２は既存のＶＡＤ技術によって音声信号中のポーズおよび発話を検出する。音声認識部９３は、発話検出済み音声信号を音声認識して、各発話に対する音声認識結果を出力する（Ｓ９３）。

最も単純な方法では、ステップＳ９３で得られた音声認識結果をそのまま文境界付き音声認識結果と見なす。つまり発話＝文と見なす。現実には、複数の文が一呼吸で発声され、一つの発話に複数の文が含まれるケースや、文の途中に呼吸（所定のポーズ長Ｌ１以上の長さのポーズ）が置かれ、一つの文が複数の発話に分割されるケースが存在するため、後述の文境界識別部９４によって文境界をあらためて検出する必要がある。

文境界識別部９４は、ステップＳ９１において事前に学習された文境界識別器を用いて、音声認識結果中の各単語境界の直前／直後の単語の表記や品詞を特徴量として、当該単語境界が文境界であるか否かを識別し、文境界付き音声認識結果を出力する（Ｓ９４）。

祖父江翔、山本けい子、田村哲嗣、速水悟、「音声認識結果の文境界推定における識別モデルの評価」、言語処理学会第15回年次大会発表論文集、一般社団法人言語処理学会、平成21年3月、pp.582-585

従来技術では事前に学習した文境界識別器を利用するため、学習に用いたテキストコーパス中の文境界の特徴（直前／直後の単語の表記や品詞）とは異なる特徴を持つ文境界は正しく識別することができない。特に人間同士の会話音声においては文境界の特徴には様々なバリエーションがある。例えば、会話相手との親しさの度合い、発言する場がフォーマルな場であるか否か、話者ごとの文末表現の癖などによって文境界での表現が多様に変化する。このようなバリエーションを事前に網羅しておくことは難しく、例えば特定の利用者の音声ではほとんど文境界が検出されなくなるなど、文境界識別の精度が低下し、システムの利便性が落ちる場合がある。

また、文境界識別器の学習には、音声認識結果テキストの各単語境界に人手で文境界か否かを表すラベル（文境界ラベル）を付与したデータを用いるのが一般的だが、音声認識結果には認識誤りが含まれるため、正しい文境界ラベルを付与するには元の音声を聴取しながら作業を行う必要があり、作業量が大きいためシステム構築コストの増加の要因となる。

そこで本発明は、文境界識別器を用いずに、音声認識結果を文ごとに分割することができる音声認識装置を提供することを目的とする。

本発明の音声認識装置は、文境界検出部を含む。所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、文境界検出部は、発話を検出済みの音声信号である発話検出済み音声信号と、発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、発話検出済み音声信号の発話またはポーズの始端および終端時刻とを用いる。文境界検出部は、発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、文境界候補の特徴量に基づいて文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する。

本発明の音声認識装置によれば、文境界識別器を用いずに、音声認識結果を文ごとに分割することができる。

非特許文献１の音声認識装置の構成を示すブロック図。非特許文献１の音声認識装置の識別器学習動作を示すフローチャート。非特許文献１の音声認識装置の音声認識動作を示すフローャート。実施例１の音声認識装置の構成を示すブロック図。実施例１の音声認識装置の動作を示すフローチャート。実施例１の音声認識装置の音声区間検出部の出力例を示す図。実施例１の音声認識装置の音声認識部の出力例を示す図。実施例１の音声認識装置の文境界検出部の構成を示すブロック図。実施例１の音声認識装置の文境界検出部の動作を示すフローチャート。実施例１の音声認識装置の文境界特徴抽出部の出力例を示す図。実施例１の音声認識装置の文境界フラグ付与部の出力例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図４、図５を参照して実施例１の音声認識装置の構成、および動作を説明する。図４は、本実施例の音声認識装置１０の構成を示すブロック図である。図５は、本実施例の音声認識装置１０の動作を示すフローチャートである。図４に示すように音声認識装置１０は、音声区間検出部１０２と、音声認識部１０３と、文境界検出部１０４を含む。本実施例の音声認識装置１０は、文境界識別器を利用しないため、前述した文境界ラベル付きテキストコーパス記憶部９０、文境界識別器学習部９１は不要である。

音声区間検出部１０２は、既存のＶＡＤ技術により、発話を音声信号から検出して、発話検出済み音声信号を出力する（Ｓ１０２）。音声区間検出部１０２は、発話検出済み音声信号とともに、発話またはポーズの始端および終端時刻（音声信号の冒頭を時刻０とする）を出力する。発話の始端時刻は当該発話の直前のポーズの終端時刻と等しく、発話の終端時刻は当該発話の直後のポーズの始端時刻と等しいから、発話の始端および終端時刻、またはポーズの始端および終端時刻の少なくともいずれかがあれば十分である。発話またはポーズの始端／終端時刻は、例えば図６に示すテーブル形式のデータ構造で、音声認識装置１０の何れかの記憶領域に格納される。図６は、音声区間検出部１０２の出力例を示す図である。

次に、音声認識部１０３は、発話検出済み音声信号を音声認識して、発話またはポーズの始端および終端時刻と、表記と品詞を含む音声認識結果を出力する（Ｓ１０３）。音声認識結果は、後述する文境界候補のクラスタリングにおいて話者の傾向などを十分に把握するために、一定量以上（例えば約１００発話以上）あることが望ましい。

なお、音声認識部１０３は、音声区間検出部１０２が出力する始端および終端時刻に加え、音声区間検出部１０２が検出しなかった短いポーズによる始端および終端時刻を出力することに注意する。

図７に、音声認識部１０３の出力例を示す。図７の出力例における始端時刻が８．６６秒、終端時刻が９．０３秒のポーズは、図６の出力例に含まれない短いポーズ（ステップＳ１０２で検出対象となっていない、所定のポーズ長Ｌ１以下のポーズ）である。

一般的なＶＡＤ技術では、通常５００ｍｓ程度に設定される所定のポーズ長Ｌ１以上のポーズ（およびポーズに挟まれた発話）を検出する。従って、一般的なＶＡＤ技術を用いて音声区間検出部１０２を構成した場合、所定のポーズ長Ｌ１未満の短いポーズは音声区間検出部１０２では検出されない。このため、所定のポーズ長Ｌ１未満の短いポーズは、音声認識部１０３が検出する。

次に、文境界検出部１０４は、発話検出済み音声信号内の予め定めた最短ポーズ長Ｔ１以上の長さとなるポーズの一部または全部を文境界候補とし、文境界候補の特徴量に基づいて文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値Ｔ２以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する（Ｓ１０４）。

以下、図８、図９を参照して文境界検出部１０４の詳細な構成例および動作例について説明する。図８は、本実施例の音声認識装置１０の文境界検出部１０４の構成を示すブロック図である。図９は、本実施例の音声認識装置１０の文境界検出部１０４の動作を示すフローチャートである。図８に示すように、文境界検出部１０４は、文境界候補特定部１０４１と、文境界特徴抽出部１０４２と、文境界候補クラスタリング部１０４３と、文境界フラグ付与部１０４４を含む構成である。

文境界候補特定部１０４１は、予め定めた最短ポーズ長Ｔ１以上の全てのポーズ（ただし、冒頭のポーズを除く）を文境界候補とし、文境界候補に文境界候補フラグを付与して、文境界候補フラグ付き音声認識結果を出力する（Ｓ１０４１）。Ｔ１は文境界に置かれるポーズの長さの最短値を規定するパラメータであり、通常はＴ１＝２００ｍｓ程度の値に予め設定される。Ｔ１＝２００ｍｓとして、図７の音声認識結果に文境界候補フラグを付与した例を図１０の右から二番目のカラムに示す。図１０は、後述する文境界特徴抽出部１０４２の出力例を示す図である。文境界候補特定部１０４１は、抽出した文境界候補毎に、文境界候補を特定する識別情報を付与することとしても良い。

最短ポーズ長Ｔ１を音声区間検出部１０２における所定のポーズ長Ｌ１よりも短い値に設定した場合（すなわちＴ１＜Ｌ１）、音声区間検出部１０２で検出された全てのポーズが文境界候補となる。一方、音声認識部１０３で検出された短いポーズについては、その一部または全部が文境界候補となる。

文境界特徴抽出部１０４２は、予め定めた値Ｎ、Ｍ（Ｎ、Ｍは１以上の整数、Ｎ＝Ｍであってもよい）に基づいて、文境界候補の直前Ｎ単語および直後Ｍ単語の表記および品詞の集合を、当該文境界候補の文境界特徴として抽出し、出力する（Ｓ１０４２）。値Ｎ、Ｍは文境界の特徴が表れる範囲を指定するパラメータであり、例えば、Ｎ＝Ｍ＝２と設定する。なお、音声認識結果の冒頭では直前の単語、末尾では直後の単語が存在しない。この場合には、存在しない単語の表記と品詞は取得されない。Ｎ＝Ｍ＝２として各文境界候補から抽出した文境界特徴の例を図１０の右端のカラムに示す。

文境界特徴抽出部１０４２は、文境界候補を特定する識別情報と、求めた文境界特徴とを対応付けて記憶することとしても良い。たとえば、図１０のテーブルの右端に「文境界候補識別情報」のカラムをさらに追加し、文境界候補フラグのカラムにフラグが立っている（図中○印で表記）各文境界候補について、各文境界候補を特定する識別情報として連番（たとえば、文境界候補番号）が付与されることとしても良い。あるいは、文境界候補フラグのカラムに識別情報を付与し、識別情報自体にフラグとしての機能を持たせてもよい。

文境界候補クラスタリング部１０４３は、文境界特徴間の類似度に基づいて文境界候補を分類して、分類結果である文境界候補クラスタ（以下、単にクラスタともいう）を出力する（Ｓ１０４３）。

文境界候補クラスタリング部１０４３は、まず、全ての文境界候補のペアの間で類似度を計算する。文境界候補間の類似度としては対応する文境界特徴間のコサイン類似度を用いることができる。例えば第１の文境界候補の文境界特徴をＦ１、第２の文境界候補の文境界特徴をＦ２としたとき、第１の文境界候補と第２の文境界候補の類似度Ｓを以下の式で計算することができる（ただし、｜Ｆ｜は集合Ｆの要素数を表す）。

文境界候補クラスタリング部１０４３は、計算した文境界候補間の類似度と、類似度算出に用いた２つの文境界候補を特定する識別情報とを対応付け、既存のクラスタリング技術を実行して、文境界候補クラスタを得る。文境界候補クラスタリング部１０４３は、データ間の類似度を入力とし、クラスタ数を設定する必要のない（クラスタ数が自動決定される）クラスタリング手法であればどの手法を用いてもよく、例えば参考非特許文献１に記載のChinese Whispers法などを用いることができる。ステップＳ１０４３で取得される文境界候補クラスタの例を図１１の右から二番目のカラムに示す。図１１は、後述する文境界フラグ付与部１０４４の出力例を示す図である。
（参考非特許文献１：Chris Biemann, “Chinese Whispers - an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems,” in Proceedings of the first workshop on graph based methods for natural language processing, pp.73-80, 2006.）
図１１の例では、各文境界候補に対して、どのクラスタに所属するかを示す番号が付与される。図１１の例では、クラスタ番号１が付与されている２つの文境界候補は同じクラスタに所属している。クラスタリング手法により、各クラスタを特定する識別情報毎に、そのクラスタに含まれる「文境界候補を特定する識別情報」が対応付けて記憶される。

次に、文境界フラグ付与部１０４４は、文境界候補クラスタのうち予め定めたポーズ長閾値Ｔ２以上のポーズ長となる文境界候補を含むクラスタを文境界クラスタとし、文境界クラスタに含まれる文境界候補の一部または全部を文境界として検出し、文境界付き音声認識結果を出力する（Ｓ１０４４）。

具体的には、文境界フラグ付与部１０４４は、各クラスタ毎に、クラスタに含まれる文境界候補を特定する識別情報から、文境界候補となったポーズの長さを特定し、ポーズの長さがポーズ長閾値Ｔ２以上であるか否かを判定する。文境界フラグ付与部１０４４は、ポーズ長がＴ２以上のポーズが１つでもあれば、そのクラスタは文境界クラスタであると判断する。ポーズ長閾値Ｔ２は高い確率で文境界とみなせるポーズ長を規定するパラメータであり、例えば、Ｔ２＝１０００ｍｓ程度と設定することができる。図１１の例では、Ｔ２＝１０００ｍｓとした場合、クラスタ番号２が付与されているポーズの長さがＴ２（１０００ｍｓ）以上となっているため、文境界フラグ付与部１０４４は、クラスタ番号２のクラスタを文境界クラスタとする。なお通常は、ポーズ長閾値Ｔ２は音声区間検出部１０２（９２）で検出するポーズ長Ｌ１よりも長い値に設定する。例えば、Ｌ１＝５００ｍｓとし、Ｔ２＝１０００ｍｓなどと設定すればよい。

文境界フラグ付与部１０４４は、文境界クラスタに含まれる文境界候補を、文境界として検出し、文境界フラグを付与する。図１１の例では、クラスタ番号２に属する文境界候補全てに文境界フラグが付与される。文境界フラグ付与部１０４４は、文境界付き音声認識結果を最終的な結果として出力する。

上述したように、文境界検出部１０４によって、文境界識別器を用いずに文境界が付与された音声認識結果が出力される。文境界検出部１０４が対象の音声認識結果そのものを分析して文境界検出を行うため、当該音声認識結果における会話相手や発言の場、話者ごとの表現のクセを考慮して正しく文境界を検出することができる。

＜実施例１の音声認識装置１０が奏する効果＞
本実施例の音声認識装置１０によれば、事前に学習した文境界識別器を用いずに音声認識結果を正しく文ごとに分割できるようになり、前述した特定の利用者の音声で文境界精度が大きく低下する等のケースが減るため、利用者にとってのシステムの利便性が向上する。また、文境界識別器の学習に用いる、人手で正しい文境界ラベルを付与した音声認識結果を作成する必要がなくなるため、システム運用者のコストを低減させることができる。

＜実施例１の音声認識装置１０の技術的要点＞
本実施例の音声認識装置１０の技術的要点は、「予め設定したポーズ長閾値Ｔ２（例えば、１０００ｍｓ）以上のポーズは文境界である可能性が高い」という傾向と、「一つの音声認識結果の中では（つまり会話相手／発言の場／話者が同一であれば）同じ文境界特徴が繰り返し現れる」という傾向を活用して文境界を検出する点である。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、
前記発話を検出済みの音声信号である発話検出済み音声信号と、前記発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、前記発話検出済み音声信号の前記発話または前記ポーズの始端および終端時刻とを用いて、
前記発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、前記文境界候補の直前及び直後の所定の数の単語の表記および品詞の集合である文境界特徴に基づいて前記文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出する文境界検出部
を含む音声認識装置。
請求項１に記載の音声認識装置であって、
前記文境界検出部は、
前記文境界を前記音声認識結果に付与した文境界付き音声認識結果を出力する
音声認識装置。
請求項１または２に記載の音声認識装置であって、
音声信号から前記発話を検出して前記発話検出済み音声信号を出力する音声区間検出部と、
前記発話検出済み音声信号を音声認識して、前記始端および終端時刻と、前記音声認識結果とを出力する音声認識部
を含む音声認識装置。
所定のポーズ長以上のポーズに挟まれた発声区間を発話というものとし、
前記発話を検出済みの音声信号である発話検出済み音声信号と、前記発話検出済み音声信号を音声認識して生成した表記と品詞とを含む音声認識結果と、前記発話検出済み音声信号の前記発話または前記ポーズの始端および終端時刻とを用いて、
前記発話検出済み音声信号内の予め定めた最短ポーズ長以上の長さとなるポーズの一部または全部を文境界候補とし、前記文境界候補の直前及び直後の所定の数の単語の表記および品詞の集合である文境界特徴に基づいて前記文境界候補を複数のクラスタに分類し、予め定めたポーズ長閾値以上のポーズ長となる文境界候補を含むクラスタ内に含まれる文境界候補の一部または全部を文境界として検出するステップ
を音声認識装置が実行する音声認識方法。
コンピュータを請求項１から３の何れかに記載の音声認識装置として機能させるプログラム。