JP7028198B2

JP7028198B2 - 要約生成装置、方法、プログラム、及び記憶媒体

Info

Publication number: JP7028198B2
Application number: JP2019012210A
Authority: JP
Inventors: 努平尾; 厚徳小川; 智広中谷; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2022-03-02
Anticipated expiration: 2039-01-28
Also published as: US11869491B2; WO2020158409A1; JP2020118929A; US20220189468A1

Description

本発明は、要約生成装置、方法、プログラム、及び記憶媒体に係り、特に、音声認識結果を自動的に要約する要約生成装置、方法、プログラム、及び記憶媒体に関する。

従来の音声認識結果の要約技術は、１－ｂｅｓｔの音声認識結果を対象として、文抽出あるいは単語抽出によって要約を生成する。例えば、１－ｂｅｓｔの音声認識結果に対して、ある長さの制約の下、単語重要度、音声認識信頼度、言語尤度の和を最大化する部分単語列を要約として生成する手法が提案されている（非特許文献１参照）。

C. Hori and S. Furui, "Speech summarization: Anapproach through word extraction and a method for evaluation," IEICETrans. on Inf. & Syst., vol. E87-D, no. 1, pp. 1525, Jan. 2004.

しかしながら、現状での音声認識技術の性能は高いものの１００％ではないため、１－ｂｅｓｔの音声認識結果だけを利用して要約を生成すると、要約に認識誤りが含まれる可能性が高くなる。また、従来の音声認識結果の要約技術には、従来のテキスト要約技術によく用いられ、その有効性が実証されている重要単語の被覆という概念が利用されていない。このため、講演のように長く内容に重複があるような発話系列を要約しようとした際、冗長な要約になる可能性が高い。

本発明は、上記の事情に鑑みてなされたもので、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる要約生成装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る要約生成装置は、入力された発話系列を、音声認識結果の候補単語のｋ－ｂｅｓｔで構成されるコンフュージョンネットワーク系列に変換する音声認識部と、前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するｋ個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成するラティス生成部と、前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成する整数計画問題生成部と、生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する要約生成部と、を含んで構成される。

本発明に係る要約生成装置によれば、音声認識部が、入力された発話系列を、音声認識結果の候補単語のｋ－ｂｅｓｔで構成されるコンフュージョンネットワーク系列に変換し、ラティス生成部が、コンフュージョンネットワーク系列から、候補単語を内部ノード、同じ音声に対するｋ個の候補単語をまとめたものを外部ノードとし、同一の外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、整数計画問題生成部が、ラティス系列において、エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、要約生成部が、生成される要約の長さに関する制約の下、整数計画問題を解くことにより選択される経路に含まれる内部ノードが示す候補単語を用いて、発話系列の要約を生成する。

このように、１－ｂｅｓｔの音声認識結果の候補単語ではなく、ｋ－ｂｅｓｔの音声認識結果の候補単語を用いることで、音声認識誤りを低減することができる。また、重要単語を多く被覆することで冗長性の低い要約が生成できる。すなわち、本発明に係る要約生成装置によれば、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる。

また、前記重要単語の被覆スコアは、前記ラティス系列に含まれる自立語である候補単語のうち、生成される要約に含まれる候補単語の数が多いほど高くなるスコアとすることができる。これにより、目的関数を最大化することで、重要単語としての自立語を多く被覆する要約を生成することができる。

また、前記目的関数は、さらに、生成される要約に含まれる候補単語の重要度で表される前記内部ノードのスコアと、生成される要約に含まれるエッジの両端の候補単語間のつながりの良さを示す前記エッジのスコアとを含むことができる。また、前記内部ノードのスコアは、前記候補単語の出現頻度及び逆文書頻度と、前記候補単語についての音声認識の信頼度とを含むことができる。また、前記エッジのスコアは、前記エッジの両端の候補単語のバイグラム出現率を含むことができる。これにより、目的関数を最大化することで、重要な単語及び単語間のつながりを含む要約を生成することができる。

また、本発明に係る要約生成方法は、音声認識部と、ラティス生成部と、整数計画問題生成部と、要約生成部とを含む要約生成装置において実行される要約生成方法であって、前記音声認識部が、入力された発話系列を、音声認識結果の候補単語のｋ－ｂｅｓｔで構成されるコンフュージョンネットワーク系列に変換し、前記ラティス生成部が、前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するｋ個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、前記整数計画問題生成部が、前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、前記要約生成部が、生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する方法である。

また、本発明に係る要約生成プログラムは、コンピュータを、上記の要約生成装置を構成する各部として機能させるためのプログラムである。

また、本発明に係る記憶媒体は、コンピュータを、上記の要約生成装置を構成する各部として機能させるためのプログラムを記憶した記憶媒体である。

以上説明したように、本発明に係る要約生成装置、方法、プログラム、及び記憶媒体によれば、ｋ－ｂｅｓｔの音声認識結果の候補単語を用い、重要単語の被覆スコアを含む目的関数を最大化するように要約を生成することで、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる。

本実施形態に係る要約生成装置の機能ブロック図であるコンフュージョンネットワーク系列を説明するための図である。ラティス系列を説明するための図である。内部ノード及びエッジの選択を説明するための図である。本実施形態に係る要約生成プログラムによる処理の流れの一例を示すフローチャートである。

以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。

本実施形態に係る要約生成装置は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、及びＨＤＤ（Hard Disk Drive）等を備えたコンピュータとして構成される。ＲＯＭには、本実施形態に係る要約生成プログラムが記憶される。なお、要約生成プログラムは、ＨＤＤに記憶されてもよい。

また、要約生成プログラムは、例えば、要約生成装置に予めインストールされていてもよい。この要約生成プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、要約生成装置に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、光磁気ディスク、ＤＶＤ-ＲＯＭ（Digital Versatile Disc Read Only Memory）、フラッシュメモリ、メモリカード等が挙げられる。

ＣＰＵは、ＲＯＭに記憶された要約生成プログラムを読み込んで実行することにより、後述する要約生成装置の各機能部として機能する。

図１に示すように、本実施形態に係る要約生成装置１０には、例えば、講演などの発話系列であって、Ｕ個の発話を含む、すなわち長さＵの発話系列（音声データ）が入力される。そして、各機能部により要約生成の処理が実行されて、入力された発話系列の要約（テキストデータ）が出力される。

要約生成装置１０は、機能的には、図１に示すように、音声認識部１２と、ラティス生成部１４と、整数計画問題生成部１６と、要約生成部１８とを含む。また、要約生成装置１０の所定の記憶領域、又は、要約生成装置１０と通信可能な外部の記憶装置には、言語モデルデータベース（ＤＢ）２０と、ＩＤＦ＿ＤＢ２２とが記憶される。言語モデルＤＢ２０には、大量のコーパスを用いて予め計算された単語のバイグラム出現率が記憶されている。ＩＤＦ＿ＤＢ２２には、大量のコーパスを用いて予め計算された単語のｉｄｆ（Inverse Document Frequency）が記憶されている。

音声認識部１２は、入力された発話系列をｋ－ｂｅｓｔのコンフュージョンネットワーク系列に変換する。コンフュージョンネットワークとは、複数ある音声認識候補をひとつのネットワークとしてまとめて表現したものである。発話系列に含まれるｉ番目の発話に対するコンフュージョンネットワークの一例を図２に示す。ｗ_{ｉ，ｊ，ｋ}は、ｉ番目のコンフュージョンネットワークのｊ番目の単語に対するｋ番目の信頼度を持つ認識結果である単語を表す。ノードからノードへ遷移するエッジが複数ある場合、信頼度が高いエッジを選択していくと１－ｂｅｓｔの音声認識結果となる。発話系列をコンフュージョンネットワーク系列に変換する手法としては、既存の音声認識システムの手法を用いることができる。

音声認識部１２は、変換したコンフュージョンネットワーク系列をラティス生成部１４へ受け渡す。

ラティス生成部１４は、音声認識部１２から受け渡されたコンフュージョンネットワーク系列を、音声認識結果の候補単語を内部ノード、同じ音声に対するｋ個の候補単語をまとめたものを外部ノードとするラティス系列に変換する。また、ラティス生成部１４は、発話の開始及び終了の各々を表す特別なノードとして、ＢＯＵ及びＥＯＵというノードを用意する。ラティス生成部１４は、任意の内部ノードとそれよりも左側の内部ノード及びＢＯＵの各々との間にエッジを張り、右側の内部ノード及びＥＯＵの各々との間にエッジを張る。同じ外部ノードに属する内部ノード間にはエッジは張らない。ラティス生成部１４は、このようにして、ＢＯＵからＥＯＵまでの内部ノードを辿る全ての経路を得るためのエッジを張ったラティス系列を生成する。図２に示すコンフュージョンネットワーク系列をラティス系列に変換した例を図３に示す。

ラティス生成部１４は、生成したラティス系列を整数計画問題生成部１６へ受け渡す。

整数計画問題生成部１６は、ラティス生成部１４から受け渡されたラティス系列から、生成する要約の文字数の制約の下、目的関数を最大化する内部ノードの経路を選択する整数計画問題を生成する。本実施形態では、内部ノードの重要度の和、エッジの重要度の和、及び重要単語の被覆スコアを最大化する経路を、ラティス系列から選択する整数計画問題を生成する。

要約生成の目的関数を、下記（１）式に示す。

ｉをラティスのインデックス、ｊをｉ番目のラティスにおける外部ノードのインデックス、ｋをｉ番目のラティスのｊ番目の外部ノードに含まれる内部ノードのインデックスとする。ラティス集合をＵ、ｉ番目のラティスにおける外部ノードの集合をＶ_ｉ、ｉ番目のラティスにおけるｊ番目の外部ノードに含まれる内部ノードの集合をＮ_ｉ，ｊとする。また、ＷをＵに含まれる自立語の集合とする。

（１）式の第１項はノードのスコア、第２項はエッジのスコア、第３項は重要単語の被覆スコアを表す。ｎ_{ｉ，ｊ，ｋ}はｉ番目のラティスのｊ番目の外部ノードに含まれるｋ番目の単語を要約に含めるか否かを表すバイナリ変数、ｆ_{ｉ，ｊ，ｋ}はｗ_{ｉ，ｊ，ｋ}に対する重要度スコアである。ｆ_{ｉ，ｊ，ｋ}の定義は下記（１３）式に示すとおりである。

ｔｆｉｄｆ（）は単語のｔｆｉｄｆスコアであり、ｔｆ（Term Frequency）は発話系列における単語の出現頻度である。ｉｄｆはＩＤＦ＿ＤＢ２２から取得する。ｃｏｎｆ（）は単語の認識信頼度スコアであり、音声認識部１２が音声認識を行う際に得られる値である。

ｅ_{ｉ，ｓ，ｐ} ^{ｉ，ｔ，ｑ}は、ｗ_{ｉ，ｓ，ｐ}とｗ_{ｉ，ｔ，ｑ}との間のエッジを要約に含めるか否かのバイナリ変数である。ｇ_{ｉ，ｓ，ｐ} ^{ｉ，ｔ，ｑ}は、ｅ_{ｉ，ｓ，ｐ} ^{ｉ，ｔ，ｑ}の重要度スコアであり、言語モデルＤＢ２０から取得される単語ｗ_{ｉ，ｓ，ｐ}と単語ｗ_{ｉ，ｔ，ｑ}とのバイグラム出現確率とすることができる。ｇ_{ｉ，ｓ，ｐ} ^{ｉ，ｔ，ｑ}の定義は下記（１４）式に示すとおりである。なお、ｇ_{ｉ，ｓ，ｐ} ^{ｉ，ｔ，ｑ}は、単語と単語とのつながりの良さをスコア化したものであれば、（１４）式に示す例に限定されない。

α及びβは、ノードのスコアの和とエッジのスコアの和とを調整するパラメータであり、検証用データを用いて最適値を決める。ｚ_ｈは、Ｗにおけるｈ番目の自立語が要約に含まれれば１、そうでない場合に０となるバイナリ変数であり、このスコアが高いことは多くの重要単語を被覆することを表す。つまり、多くの重要単語を被覆する作用があるため、生成された要約の冗長性は低くなる。

（２）式は、要約長に関する制約であり、要約の文字数がＬ以下であることを保証する。（３）式は、任意の外部ノードからは高々ひとつの内部ノード（単語）しか選択されないことを表す。（４）式及び（５）式は、図４に示すように、任意の内部ノードを要約に含めるためには、その両端のエッジを必ずひとつずつ（入力エッジからひとつ、出力エッジからひとつ）選択しなければならないことを表す。（６）式及び（７）式は、ひとつの発話から短い経路を抽出することを避けるための制約であり、ｉ番目のラティスから単語列を要約として選択するためには、その単語数がＫ以上でなければならないことを示す。

また、上記以外にも言語知識として要約文に必要な単語があれば、その単語に対応するｎ_{ｉ，ｊ，ｋ}を１にしておけばよい。

整数計画問題生成部１６は、生成した整数計画問題を要約生成部１８へ受け渡す。

要約生成部１８は、整数計画問題生成部１６から受け渡された整数計画問題を、既存の専用ソルバを用いて解き、ｎ_{ｉ，ｊ，ｋ}＝１となるｗ_{ｉ，ｊ，ｋ}を抽出することで要約を生成し、生成した要約を出力する。

次に、図５を参照して、本実施形態に係る要約生成装置１０の作用を説明する。なお、図５は、本実施形態に係る要約生成プログラムによる要約生成処理の流れの一例を示すフローチャートである。

ステップＳ１２で、音声認識部１２が、入力された発話系列をｋ－ｂｅｓｔのコンフュージョンネットワーク系列に変換する。音声認識部１２は、変換したコンフュージョンネットワーク系列をラティス生成部１４へ受け渡す。

次に、ステップＳ１４で、ラティス生成部１４が、音声認識部１２から受け渡されたコンフュージョンネットワーク系列を、音声認識結果の候補単語を内部ノード、同じ音声に対するｋ個の候補単語をまとめたものを外部ノードとするラティス系列に変換する。また、ラティス生成部１４は、発話の開始及び終了の各々を表すＢＯＵ及びＥＯＵというノードを用意し、同じ外部ノードに属する内部ノード間以外の内部ノード間にエッジを張る。ラティス生成部１４は、生成したラティス系列を整数計画問題生成部１６へ受け渡す。

次に、ステップＳ１６で、整数計画問題生成部１６が、ラティス生成部１４から受け渡されたラティス系列から、生成する要約の文字数の制約の下、内部ノードのスコア、エッジのスコア、及び重要単語の被覆スコアを含む目的関数を最大化する内部ノードの経路を選択する整数計画問題を生成する。整数計画問題生成部１６は、生成した整数計画問題を要約生成部１８へ受け渡す。

次に、ステップＳ１８で、要約生成部１８が、整数計画問題生成部１６から受け渡された整数計画問題を、既存の専用ソルバを用いて解き、ラティス系列から選択された経路に含まれる内部ノードが示す候補単語を用いて要約を生成し、生成した要約を出力する。そして、要約生成処理は終了する。

以上説明したように、本実施形態に係る要約生成装置によれば、入力された発話系列を、音声認識結果の候補単語のｋ－ｂｅｓｔで構成されるコンフュージョンネットワーク系列に変換し、コンフュージョンネットワーク系列から、候補単語を内部ノード、同じ音声に対するｋ個の候補単語をまとめたものを外部ノードとし、同一の外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、ラティス系列において、エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、生成される要約の長さに関する制約の下、整数計画問題を解くことにより選択される経路に含まれる内部ノードが示す候補単語を用いて、発話系列の要約を生成する。これにより、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる。

なお、上記実施形態で説明した要約生成装置の各々の構成及び処理は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。

また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。

１０要約生成装置
１２音声認識部
１４ラティス生成部
１６整数計画問題生成部
１８要約生成部
２０言語モデルＤＢ
２２ＩＤＦ＿ＤＢ

Claims

入力された発話系列を、音声認識結果の候補単語のｋ－ｂｅｓｔで構成されるコンフュージョンネットワーク系列に変換する音声認識部と、
前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するｋ個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成するラティス生成部と、
前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成する整数計画問題生成部と、
生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する要約生成部と、
を含む要約生成装置。
前記重要単語の被覆スコアは、前記ラティス系列に含まれる自立語である候補単語のうち、生成される要約に含まれる候補単語の数が多いほど高くなるスコアである請求項１に記載の要約生成装置。
前記目的関数は、さらに、生成される要約に含まれる候補単語の重要度で表される前記内部ノードのスコアと、生成される要約に含まれるエッジの両端の候補単語間のつながりの良さを示す前記エッジのスコアとを含む請求項１又は請求項２に記載の要約生成装置。
前記内部ノードのスコアは、前記候補単語の出現頻度及び逆文書頻度と、前記候補単語についての音声認識の信頼度とを含む請求項３に記載の要約生成装置。
前記エッジのスコアは、前記エッジの両端の候補単語のバイグラム出現率を含む請求項３に記載の要約生成装置。
音声認識部と、ラティス生成部と、整数計画問題生成部と、要約生成部とを含む要約生成装置において実行される要約生成方法であって、
前記音声認識部が、入力された発話系列を、音声認識結果の候補単語のｋ－ｂｅｓｔで構成されるコンフュージョンネットワーク系列に変換し、
前記ラティス生成部が、前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するｋ個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、
前記整数計画問題生成部が、前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、
前記要約生成部が、生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する
要約生成方法。
コンピュータを、請求項１～請求項５のいずれか１項に記載の要約生成装置を構成する各部として機能させるための要約生成プログラム。
コンピュータを、請求項１～請求項５のいずれか１項に記載の要約生成装置を構成する各部として機能させるための要約生成プログラムを記憶した記憶媒体。