JP2020118929A - 要約生成装置、方法、プログラム、及び記憶媒体 - Google Patents

要約生成装置、方法、プログラム、及び記憶媒体 Download PDF

Info

Publication number
JP2020118929A
JP2020118929A JP2019012210A JP2019012210A JP2020118929A JP 2020118929 A JP2020118929 A JP 2020118929A JP 2019012210 A JP2019012210 A JP 2019012210A JP 2019012210 A JP2019012210 A JP 2019012210A JP 2020118929 A JP2020118929 A JP 2020118929A
Authority
JP
Japan
Prior art keywords
sequence
lattice
score
candidate words
programming problem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019012210A
Other languages
English (en)
Other versions
JP7028198B2 (ja
Inventor
平尾 努
Tsutomu Hirao
努 平尾
小川 厚徳
Atsunori Ogawa
厚徳 小川
中谷 智広
Tomohiro Nakatani
智広 中谷
永田 昌明
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019012210A priority Critical patent/JP7028198B2/ja
Priority to US17/425,696 priority patent/US11869491B2/en
Priority to PCT/JP2020/001250 priority patent/WO2020158409A1/ja
Publication of JP2020118929A publication Critical patent/JP2020118929A/ja
Application granted granted Critical
Publication of JP7028198B2 publication Critical patent/JP7028198B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成する。【解決手段】音声認識部12が、入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換し、ラティス生成部14が、コンフュージョンネットワーク系列から、候補単語を内部ノード、同じ音声に対するk個の候補単語をまとめたものを外部ノードとし、同一の外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、整数計画問題生成部16が、ラティス系列において、エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、要約生成部が、生成される要約の長さに関する制約の下、整数計画問題を解くことにより選択される経路に含まれる内部ノードが示す候補単語を用いて要約を生成する。【選択図】図1

Description

本発明は、要約生成装置、方法、プログラム、及び記憶媒体に係り、特に、音声認識結果を自動的に要約する要約生成装置、方法、プログラム、及び記憶媒体に関する。
従来の音声認識結果の要約技術は、1−bestの音声認識結果を対象として、文抽出あるいは単語抽出によって要約を生成する。例えば、1−bestの音声認識結果に対して、ある長さの制約の下、単語重要度、音声認識信頼度、言語尤度の和を最大化する部分単語列を要約として生成する手法が提案されている(非特許文献1参照)。
C. Hori and S. Furui, "Speech summarization: Anapproach through word extraction and a method for evaluation," IEICETrans. on Inf. & Syst., vol. E87-D, no. 1, pp. 1525, Jan. 2004.
しかしながら、現状での音声認識技術の性能は高いものの100%ではないため、1−bestの音声認識結果だけを利用して要約を生成すると、要約に認識誤りが含まれる可能性が高くなる。また、従来の音声認識結果の要約技術には、従来のテキスト要約技術によく用いられ、その有効性が実証されている重要単語の被覆という概念が利用されていない。このため、講演のように長く内容に重複があるような発話系列を要約しようとした際、冗長な要約になる可能性が高い。
本発明は、上記の事情に鑑みてなされたもので、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる要約生成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る要約生成装置は、入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換する音声認識部と、前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するk個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成するラティス生成部と、前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成する整数計画問題生成部と、生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する要約生成部と、を含んで構成される。
本発明に係る要約生成装置によれば、音声認識部が、入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換し、ラティス生成部が、コンフュージョンネットワーク系列から、候補単語を内部ノード、同じ音声に対するk個の候補単語をまとめたものを外部ノードとし、同一の外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、整数計画問題生成部が、ラティス系列において、エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、要約生成部が、生成される要約の長さに関する制約の下、整数計画問題を解くことにより選択される経路に含まれる内部ノードが示す候補単語を用いて、発話系列の要約を生成する。
このように、1−bestの音声認識結果の候補単語ではなく、k−bestの音声認識結果の候補単語を用いることで、音声認識誤りを低減することができる。また、重要単語を多く被覆することで冗長性の低い要約が生成できる。すなわち、本発明に係る要約生成装置によれば、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる。
また、前記重要単語の被覆スコアは、前記ラティス系列に含まれる自立語である候補単語のうち、生成される要約に含まれる候補単語の数が多いほど高くなるスコアとすることができる。これにより、目的関数を最大化することで、重要単語としての自立語を多く被覆する要約を生成することができる。
また、前記目的関数は、さらに、生成される要約に含まれる候補単語の重要度で表される前記内部ノードのスコアと、生成される要約に含まれるエッジの両端の候補単語間のつながりの良さを示す前記エッジのスコアとを含むことができる。また、前記内部ノードのスコアは、前記候補単語の出現頻度及び逆文書頻度と、前記候補単語についての音声認識の信頼度とを含むことができる。また、前記エッジのスコアは、前記エッジの両端の候補単語のバイグラム出現率を含むことができる。これにより、目的関数を最大化することで、重要な単語及び単語間のつながりを含む要約を生成することができる。
また、本発明に係る要約生成方法は、音声認識部と、ラティス生成部と、整数計画問題生成部と、要約生成部とを含む要約生成装置において実行される要約生成方法であって、前記音声認識部が、入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換し、前記ラティス生成部が、前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するk個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、前記整数計画問題生成部が、前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、前記要約生成部が、生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する方法である。
また、本発明に係る要約生成プログラムは、コンピュータを、上記の要約生成装置を構成する各部として機能させるためのプログラムである。
また、本発明に係る記憶媒体は、コンピュータを、上記の要約生成装置を構成する各部として機能させるためのプログラムを記憶した記憶媒体である。
以上説明したように、本発明に係る要約生成装置、方法、プログラム、及び記憶媒体によれば、k−bestの音声認識結果の候補単語を用い、重要単語の被覆スコアを含む目的関数を最大化するように要約を生成することで、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる。
本実施形態に係る要約生成装置の機能ブロック図である コンフュージョンネットワーク系列を説明するための図である。 ラティス系列を説明するための図である。 内部ノード及びエッジの選択を説明するための図である。 本実施形態に係る要約生成プログラムによる処理の流れの一例を示すフローチャートである。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
本実施形態に係る要約生成装置は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及びHDD(Hard Disk Drive)等を備えたコンピュータとして構成される。ROMには、本実施形態に係る要約生成プログラムが記憶される。なお、要約生成プログラムは、HDDに記憶されてもよい。
また、要約生成プログラムは、例えば、要約生成装置に予めインストールされていてもよい。この要約生成プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、要約生成装置に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が挙げられる。
CPUは、ROMに記憶された要約生成プログラムを読み込んで実行することにより、後述する要約生成装置の各機能部として機能する。
図1に示すように、本実施形態に係る要約生成装置10には、例えば、講演などの発話系列であって、U個の発話を含む、すなわち長さUの発話系列(音声データ)が入力される。そして、各機能部により要約生成の処理が実行されて、入力された発話系列の要約(テキストデータ)が出力される。
要約生成装置10は、機能的には、図1に示すように、音声認識部12と、ラティス生成部14と、整数計画問題生成部16と、要約生成部18とを含む。また、要約生成装置10の所定の記憶領域、又は、要約生成装置10と通信可能な外部の記憶装置には、言語モデルデータベース(DB)20と、IDF_DB22とが記憶される。言語モデルDB20には、大量のコーパスを用いて予め計算された単語のバイグラム出現率が記憶されている。IDF_DB22には、大量のコーパスを用いて予め計算された単語のidf(Inverse Document Frequency)が記憶されている。
音声認識部12は、入力された発話系列をk−bestのコンフュージョンネットワーク系列に変換する。コンフュージョンネットワークとは、複数ある音声認識候補をひとつのネットワークとしてまとめて表現したものである。発話系列に含まれるi番目の発話に対するコンフュージョンネットワークの一例を図2に示す。wi,j,kは、i番目のコンフュージョンネットワークのj番目の単語に対するk番目の信頼度を持つ認識結果である単語を表す。ノードからノードへ遷移するエッジが複数ある場合、信頼度が高いエッジを選択していくと1−bestの音声認識結果となる。発話系列をコンフュージョンネットワーク系列に変換する手法としては、既存の音声認識システムの手法を用いることができる。
音声認識部12は、変換したコンフュージョンネットワーク系列をラティス生成部14へ受け渡す。
ラティス生成部14は、音声認識部12から受け渡されたコンフュージョンネットワーク系列を、音声認識結果の候補単語を内部ノード、同じ音声に対するk個の候補単語をまとめたものを外部ノードとするラティス系列に変換する。また、ラティス生成部14は、発話の開始及び終了の各々を表す特別なノードとして、BOU及びEOUというノードを用意する。ラティス生成部14は、任意の内部ノードとそれよりも左側の内部ノード及びBOUの各々との間にエッジを張り、右側の内部ノード及びEOUの各々との間にエッジを張る。同じ外部ノードに属する内部ノード間にはエッジは張らない。ラティス生成部14は、このようにして、BOUからEOUまでの内部ノードを辿る全ての経路を得るためのエッジを張ったラティス系列を生成する。図2に示すコンフュージョンネットワーク系列をラティス系列に変換した例を図3に示す。
ラティス生成部14は、生成したラティス系列を整数計画問題生成部16へ受け渡す。
整数計画問題生成部16は、ラティス生成部14から受け渡されたラティス系列から、生成する要約の文字数の制約の下、目的関数を最大化する内部ノードの経路を選択する整数計画問題を生成する。本実施形態では、内部ノードの重要度の和、エッジの重要度の和、及び重要単語の被覆スコアを最大化する経路を、ラティス系列から選択する整数計画問題を生成する。
要約生成の目的関数を、下記(1)式に示す。
iをラティスのインデックス、jをi番目のラティスにおける外部ノードのインデックス、kをi番目のラティスのj番目の外部ノードに含まれる内部ノードのインデックスとする。ラティス集合をU、i番目のラティスにおける外部ノードの集合をV、i番目のラティスにおけるj番目の外部ノードに含まれる内部ノードの集合をNi,jとする。また、WをUに含まれる自立語の集合とする。
(1)式の第1項はノードのスコア、第2項はエッジのスコア、第3項は重要単語の被覆スコアを表す。ni,j,kはi番目のラティスのj番目の外部ノードに含まれるk番目の単語を要約に含めるか否かを表すバイナリ変数、fi,j,kはwi,j,kに対する重要度スコアである。fi,j,kの定義は下記(13)式に示すとおりである。
tfidf()は単語のtfidfスコアであり、tf(Term Frequency)は発話系列における単語の出現頻度である。idfはIDF_DB22から取得する。conf()は単語の認識信頼度スコアであり、音声認識部12が音声認識を行う際に得られる値である。
i,s,p i,t,qは、wi,s,pとwi,t,qとの間のエッジを要約に含めるか否かのバイナリ変数である。gi,s,p i,t,qは、ei,s,p i,t,qの重要度スコアであり、言語モデルDB20から取得される単語wi,s,pと単語wi,t,qとのバイグラム出現確率とすることができる。gi,s,p i,t,qの定義は下記(14)式に示すとおりである。なお、gi,s,p i,t,qは、単語と単語とのつながりの良さをスコア化したものであれば、(14)式に示す例に限定されない。
α及びβは、ノードのスコアの和とエッジのスコアの和とを調整するパラメータであり、検証用データを用いて最適値を決める。zは、Wにおけるh番目の自立語が要約に含まれれば1、そうでない場合に0となるバイナリ変数であり、このスコアが高いことは多くの重要単語を被覆することを表す。つまり、多くの重要単語を被覆する作用があるため、生成された要約の冗長性は低くなる。
(2)式は、要約長に関する制約であり、要約の文字数がL以下であることを保証する。(3)式は、任意の外部ノードからは高々ひとつの内部ノード(単語)しか選択されないことを表す。(4)式及び(5)式は、図4に示すように、任意の内部ノードを要約に含めるためには、その両端のエッジを必ずひとつずつ(入力エッジからひとつ、出力エッジからひとつ)選択しなければならないことを表す。(6)式及び(7)式は、ひとつの発話から短い経路を抽出することを避けるための制約であり、i番目のラティスから単語列を要約として選択するためには、その単語数がK以上でなければならないことを示す。
また、上記以外にも言語知識として要約文に必要な単語があれば、その単語に対応するni,j,kを1にしておけばよい。
整数計画問題生成部16は、生成した整数計画問題を要約生成部18へ受け渡す。
要約生成部18は、整数計画問題生成部16から受け渡された整数計画問題を、既存の専用ソルバを用いて解き、ni,j,k=1となるwi,j,kを抽出することで要約を生成し、生成した要約を出力する。
次に、図5を参照して、本実施形態に係る要約生成装置10の作用を説明する。なお、図5は、本実施形態に係る要約生成プログラムによる要約生成処理の流れの一例を示すフローチャートである。
ステップS12で、音声認識部12が、入力された発話系列をk−bestのコンフュージョンネットワーク系列に変換する。音声認識部12は、変換したコンフュージョンネットワーク系列をラティス生成部14へ受け渡す。
次に、ステップS14で、ラティス生成部14が、音声認識部12から受け渡されたコンフュージョンネットワーク系列を、音声認識結果の候補単語を内部ノード、同じ音声に対するk個の候補単語をまとめたものを外部ノードとするラティス系列に変換する。また、ラティス生成部14は、発話の開始及び終了の各々を表すBOU及びEOUというノードを用意し、同じ外部ノードに属する内部ノード間以外の内部ノード間にエッジを張る。ラティス生成部14は、生成したラティス系列を整数計画問題生成部16へ受け渡す。
次に、ステップS16で、整数計画問題生成部16が、ラティス生成部14から受け渡されたラティス系列から、生成する要約の文字数の制約の下、内部ノードのスコア、エッジのスコア、及び重要単語の被覆スコアを含む目的関数を最大化する内部ノードの経路を選択する整数計画問題を生成する。整数計画問題生成部16は、生成した整数計画問題を要約生成部18へ受け渡す。
次に、ステップS18で、要約生成部18が、整数計画問題生成部16から受け渡された整数計画問題を、既存の専用ソルバを用いて解き、ラティス系列から選択された経路に含まれる内部ノードが示す候補単語を用いて要約を生成し、生成した要約を出力する。そして、要約生成処理は終了する。
以上説明したように、本実施形態に係る要約生成装置によれば、入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換し、コンフュージョンネットワーク系列から、候補単語を内部ノード、同じ音声に対するk個の候補単語をまとめたものを外部ノードとし、同一の外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、ラティス系列において、エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、生成される要約の長さに関する制約の下、整数計画問題を解くことにより選択される経路に含まれる内部ノードが示す候補単語を用いて、発話系列の要約を生成する。これにより、音声認識誤りが少なく、かつ冗長性の低い高品質な要約を生成することができる。
なお、上記実施形態で説明した要約生成装置の各々の構成及び処理は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 要約生成装置
12 音声認識部
14 ラティス生成部
16 整数計画問題生成部
18 要約生成部
20 言語モデルDB
22 IDF_DB

Claims (8)

  1. 入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換する音声認識部と、
    前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するk個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成するラティス生成部と、
    前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成する整数計画問題生成部と、
    生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する要約生成部と、
    を含む要約生成装置。
  2. 前記重要単語の被覆スコアは、前記ラティス系列に含まれる自立語である候補単語のうち、生成される要約に含まれる候補単語の数が多いほど高くなるスコアである請求項1に記載の要約生成装置。
  3. 前記目的関数は、さらに、生成される要約に含まれる候補単語の重要度で表される前記内部ノードのスコアと、生成される要約に含まれるエッジの両端の候補単語間のつながりの良さを示す前記エッジのスコアとを含む請求項1又は請求項2に記載の要約生成装置。
  4. 前記内部ノードのスコアは、前記候補単語の出現頻度及び逆文書頻度と、前記候補単語についての音声認識の信頼度とを含む請求項3に記載の要約生成装置。
  5. 前記エッジのスコアは、前記エッジの両端の候補単語のバイグラム出現率を含む請求項3に記載の要約生成装置。
  6. 音声認識部と、ラティス生成部と、整数計画問題生成部と、要約生成部とを含む要約生成装置において実行される要約生成方法であって、
    前記音声認識部が、入力された発話系列を、音声認識結果の候補単語のk−bestで構成されるコンフュージョンネットワーク系列に変換し、
    前記ラティス生成部が、前記コンフュージョンネットワーク系列から、前記候補単語を内部ノード、同じ音声に対するk個の前記候補単語をまとめたものを外部ノードとし、同一の前記外部ノードに含まれる内部ノード間以外の内部ノード間にエッジを張ったラティス系列を生成し、
    前記整数計画問題生成部が、前記ラティス系列において、前記エッジを張られた内部ノードを辿る経路のうち、少なくとも重要単語の被覆スコアを含む目的関数を最大化する経路を選択するための整数計画問題を生成し、
    前記要約生成部が、生成される要約の長さに関する制約の下、前記整数計画問題を解くことにより選択される前記経路に含まれる前記内部ノードが示す前記候補単語を用いて、前記発話系列の要約を生成する
    要約生成方法。
  7. コンピュータを、請求項1〜請求項5のいずれか1項に記載の要約生成装置を構成する各部として機能させるための要約生成プログラム。
  8. コンピュータを、請求項1〜請求項5のいずれか1項に記載の要約生成装置を構成する各部として機能させるための要約生成プログラムを記憶した記憶媒体。
JP2019012210A 2019-01-28 2019-01-28 要約生成装置、方法、プログラム、及び記憶媒体 Active JP7028198B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019012210A JP7028198B2 (ja) 2019-01-28 2019-01-28 要約生成装置、方法、プログラム、及び記憶媒体
US17/425,696 US11869491B2 (en) 2019-01-28 2020-01-16 Abstract generation device, method, program, and recording medium
PCT/JP2020/001250 WO2020158409A1 (ja) 2019-01-28 2020-01-16 要約生成装置、方法、プログラム、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019012210A JP7028198B2 (ja) 2019-01-28 2019-01-28 要約生成装置、方法、プログラム、及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2020118929A true JP2020118929A (ja) 2020-08-06
JP7028198B2 JP7028198B2 (ja) 2022-03-02

Family

ID=71842255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019012210A Active JP7028198B2 (ja) 2019-01-28 2019-01-28 要約生成装置、方法、プログラム、及び記憶媒体

Country Status (3)

Country Link
US (1) US11869491B2 (ja)
JP (1) JP7028198B2 (ja)
WO (1) WO2020158409A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220023211A (ko) * 2020-08-20 2022-03-02 삼성전자주식회사 대화 텍스트에 대한 요약 정보를 생성하는 전자 장치 및 그 동작 방법
CN112765344B (zh) * 2021-01-12 2022-07-08 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN113282336B (zh) * 2021-06-11 2023-11-10 重庆大学 一种基于质量保证框架的代码摘要集成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255346B2 (en) * 2014-01-31 2019-04-09 Verint Systems Ltd. Tagging relations with N-best
US11562731B2 (en) * 2020-08-19 2023-01-24 Sorenson Ip Holdings, Llc Word replacement in transcriptions
US11488604B2 (en) * 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEI LIU AND YANG LIU: ""Towards Abstractive Speech Summarization: Exploring Unsupervised and Supervised Approaches for Spok", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 21, no. 7, JPN6022001309, July 2013 (2013-07-01), pages 1469 - 1480, XP011519758, ISSN: 0004684304, DOI: 10.1109/TASL.2013.2255279 *
YANG LIU, SHASHA XIE AND FEI LIU: ""USING N-BEST RECOGNITION OUTPUT FOR EXTRACTIVE SUMMARIZATION AND KEYWORD EXTRACTION IN MEETING SPEE", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6022001307, 2010, pages 5310 - 5313, XP031696947, ISSN: 0004684305 *

Also Published As

Publication number Publication date
WO2020158409A1 (ja) 2020-08-06
US20220189468A1 (en) 2022-06-16
US11869491B2 (en) 2024-01-09
JP7028198B2 (ja) 2022-03-02

Similar Documents

Publication Publication Date Title
US8706491B2 (en) Applying a structured language model to information extraction
US7562014B1 (en) Active learning process for spoken dialog systems
WO2020158409A1 (ja) 要約生成装置、方法、プログラム、及び記憶媒体
JP2004005648A (ja) 自然言語理解システムに関するトレーニングデータの自動注釈付けのための方法およびユーザインターフェース
US10403271B2 (en) System and method for automatic language model selection
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
US11270061B2 (en) Automatic generation of training data for scientific paper summarization using videos
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
US7328157B1 (en) Domain adaptation for TTS systems
CN115731921A (zh) 用无序实体训练端到端口语理解系统
CN110413779A (zh) 一种针对电力行业的词向量训练方法及其系统、介质
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP2022067234A (ja) 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
KR101826921B1 (ko) 기술정의문 생성장치 및 그 동작 방법
JP4008344B2 (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP5980142B2 (ja) 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
WO2022107328A1 (ja) 機械学習プログラム、機械学習方法および自然言語処理装置
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
JP4405542B2 (ja) 音素モデルをクラスタリングする装置、方法およびプログラム
US20230140480A1 (en) Utterance generation apparatus, utterance generation method, and program
JP7556395B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220131

R150 Certificate of patent or registration of utility model

Ref document number: 7028198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150