JP2000284793A - 音声要約装置及び音声要約プログラムを記録した記録媒体 - Google Patents

音声要約装置及び音声要約プログラムを記録した記録媒体

Info

Publication number
JP2000284793A
JP2000284793A JP11092705A JP9270599A JP2000284793A JP 2000284793 A JP2000284793 A JP 2000284793A JP 11092705 A JP11092705 A JP 11092705A JP 9270599 A JP9270599 A JP 9270599A JP 2000284793 A JP2000284793 A JP 2000284793A
Authority
JP
Japan
Prior art keywords
topic
section
important
speech
information generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11092705A
Other languages
English (en)
Other versions
JP4344418B2 (ja
Inventor
Masayuki Nakazawa
正幸 中沢
Ryuichi Oka
隆一 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Real World Computing Partnership
Original Assignee
Sharp Corp
Real World Computing Partnership
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp, Real World Computing Partnership filed Critical Sharp Corp
Priority to JP09270599A priority Critical patent/JP4344418B2/ja
Publication of JP2000284793A publication Critical patent/JP2000284793A/ja
Application granted granted Critical
Publication of JP4344418B2 publication Critical patent/JP4344418B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 音声中から抽出された部分的な音声を音声認
識し、要約記述を生成することにより、音声中に含まれ
る話題を要約し、利用者が音声内容を短時間で把握・利
用することを可能にする音声要約装置を提供すること。 【解決手段】 音声入力部1から取り込まれた音声信号
を特徴パラメータに変換する特徴抽出部2と、この特徴
パラメータを音素片記号系列として認識する音素片認識
部3と、該音素片認識部3によって得られた音素片記号
系列より話題を反映する重要区間を抽出する重要区間抽
出部4と、重要区間の出現分布を用いて話題境界を検出
する話題区間検出部6と、それぞれの話題区間に含まれ
る重要区間を意味分類し、話題情報を生成及び出力する
話題情報生成部8及び話題情報出力部9と、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声要約装置及び
音声要約プログラムを記録した記録媒体に関し、詳しく
は、音声中に含まれる話題を要約し、利用者が音声内容
を短時間で把握・利用することを可能にする音声要約装
置及び音声要約プログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】音声波形中から話題を反映する重要な音
声区間を抽出する手法として、特開平3−80782号
公報、特開平10−39890号公報、特開平9−63
85号公報に開示されている技術がある。特開平3−8
0782号公報には、重要と思われる音声特徴系列をあ
らかじめ指定しおき、入力音声を解析して得られた特徴
系列と前記音声特徴系列とを比較して、類似する特徴系
列区間を自動的に切り出し、この切り出した特徴系列区
間に相当する音声区間を音声中から抽出し、これらをつ
なぎ合わせて再生し出力する技術が開示されている。
【0003】図11は、特開平10−39890号公報
に開示された音声要約装置の構成を示すブロック図であ
る。この音声要約装置は、音声入力部1の音声中から重
要区間を抽出する重要区間抽出部(特徴抽出部2、重要
区間抽出部4、重要区間インデックス格納部5)と、該
重要区間を処理して要約データを得るデータ処理部(時
間分布評価部15、再生区間インデックス格納部16)
と、要約データに基づいて音声を出力する出力手段(音
声波形格納部17、音声波形再生部18、音声出力部1
9)と、を有し、前記データ処理部は、重要区間の時間
的分布を評価してその評価結果に基づいて決定された要
約データを得、前記出力手段は音声を再生し出力できる
ようにするものである。特開平9−6385号公報に
は、音声波形の中から類似している波形部分を検出する
手法が開示されている。
【0004】
【発明が解決しようとする課題】特開平3−80782
号公報の技術は、時間的に連続していない短い音声区間
が抽出されてしまい、再生音が途切れがちになり、利用
者にとっては聞きづらく、内容の判断が困難であるとい
う問題がある。特開平10−39890号公報では、こ
の問題を解決するために、抽出された音声特徴系列区間
の時間的分布を評価し、その評価結果に基づいて要約デ
ータを得るように改良を行っている。抽出された音声区
間のまとまった単位を優先的に再生し出力することで、
利用者により聞き取りやすい形で要約音声を提供してい
る。しかしながら、この技術では、対象とする特徴量
が、話者の特性を強く受けたものであり、不特定話者同
士が会話する内容については適応が困難なものとなって
いる。また、出力は、再生された音声波形であるため人
間が聞くことを前提としており、コンピュータを用いた
検索など二次的利用への汎用性が乏しい。利用者が音声
内容をより短時間で把握することや二次的利用を行うた
めには、再生された音声だけではなく、話題毎に分割さ
れたテキストによる記述結果が必要である。テキストに
よる要約記述があることで、音声内容の把握がしやすい
だけでなく、単語をキーに検索を行うなど、コンピュー
タ等の装置との連携が柔軟に行える。
【0005】また、特開平9−6385号公報の技術で
用いている音響特徴量は固定次元のベクトルであり、可
変次元のベクトルを用いる際の留意点については述べら
れていない。また、得られた重要区間出現頻度のヒスト
グラムから話題の境界を推定する手法を提案している
が、単純な閾値によりヒストグラムを分割するという手
法を用いているため、不要に多くの話題境界を検出する
という問題点がある。また、不特定話者の音声への対応
という点には触れていない。本発明は、かかる実情に鑑
みてなされたもので、音声中から抽出された部分的な音
声を音声認識し、要約記述を生成することにより、音声
中に含まれる話題を要約し、利用者が音声内容を短時間
で把握・利用することを可能にする音声要約装置及び音
声要約プログラムを記録した記録媒体を提供することを
目的とする。
【0006】
【課題を解決するための手段】本発明の音声要約装置
は、音声中から重要区間を抽出する重要区間抽出部と、
重要区間の出現分布を用いて話題区間の境界を検出する
話題境界検出部と、それぞれの話題区間に含まれる重要
区間を意味分類して話題情報を生成する話題情報生成部
と、を備えるものである。また、前記重要区間抽出部
は、重要区間を抽出するための特徴量として、話者に依
存しない音響特徴量を用いることで、不特定話者の音声
波形を対象とすることができ、複数話者の音声対話から
話題を推定することが可能になる。
【0007】また、前記話題境界検出部は、抽出された
話題を反映する複数の重要区間から話題の境界を推定す
る推定手段を備えることで、音声波形中に含まれる複数
の話題を話題毎に分割することが可能になる。また、前
記話題情報生成部は、前記話題区間に含まれる単語から
シソーラス又は共起データを用いて意味分類すること
で、同音異義語を判定し、語義の曖昧性を解消すること
ができる。
【0008】また、前記話題情報生成部は、共起データ
を用いて語義の曖昧性解消を行うことで、音声波形中に
含まれる語義を正しく推定することができると同時に、
対象となる語義以外の意味を棄却することができる。ま
た、前記話題情報生成部は、共起データを用いて語義の
曖昧性解消を行う際、共起する関係の順序を考慮せず、
組合せのみを考慮することで、共起データの組合せを増
やすことができる。
【0009】また、前記話題情報生成部は、共起データ
を用いて語義の曖昧性解消を行う際、共起する単語見出
し及び意味情報を利用することで、同音異義語の判定が
行えるようになり、語義の推定精度の向上を計ることが
できる。また、前記話題情報生成部は、意味のクラスの
違いに応じた分類である話題スロットを用いて意味分類
することで、音声波形中に含まれる話題について必要十
分な情報とともに推定することが可能になる。
【0010】また、本発明は、コンピュータを、音声中
から重要区間を抽出する重要区間抽出部と、重要区間の
出現分布を用いて話題区間の境界を検出する話題境界検
出部と、それぞれの話題区間に含まれる重要区間を意味
分類して話題情報を生成する話題情報生成部、として機
能させるためのプログラムを記録したコンピュータ読み
取り可能な記録媒体である。
【0011】
【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適な実施の形態について詳細に説明する。な
お、図11と同一機能のものは同一符号で示して説明を
省略する。図1は、本発明の音声要約装置の一実施の形
態の構成を示すブロック図である。図11の特徴抽出部
2と重要区間抽出部4の間に音素片認識部3を追加する
と共に、重要区間インデックス格納部5以降を、話題境
界検出部6、単語認識部7、話題情報生成部8、話題情
報出力部9に置き換えている点が図11の装置と異な
る。
【0012】音声入力部1から取り込まれた音声信号
は、特徴抽出部2において、音素片認識部3で処理でき
る特徴パラメータに変換されたあと、音素片認識部3に
おいて音素片記号系列として認識される。この特徴パラ
メータの変換方法は、例えば、「部分整合法」(岡隆
一、“連続DPを用いた部分整合法フレーム特徴の音韻
認識”、電子情報通信学会誌、DVo1.J70-DNo.5、pp.917
-924、1997-07)による音素片認識手法の中で詳しく述
べられている。また、音素片については、「音声の音素
片ネットワーク表現と時系列のセグメント化法を用いた
自動ラベリング手法」(田中和世、速水悟、大田耕三、
日本音響学会誌、42巻11号pp.860-868、1986)で詳しく
述べられている。図2は、音素片認識部3での出力結果
例を示す図である。フレーム番号20、音響パワー2
1、音素片候補数22、音素片シンボル23、音素片認
識指数24の5つフィールドから構成されている。な
お、この図2での音素片認識指数24は、各音素片の認
識頻度を列挙している。
【0013】次に音素片認識部3によって得られた音素
片記号系列は、重要区間抽出部4により話題を反映する
重要区間の抽出が行われる。これは、例えば、特開平9
−6385号公報、特開平10−39890号公報、ま
たは「類似区間抽出手法」(木山次郎、伊藤慶明、岡隆
一、“Incrementa1 Reference Interva1-free 連続DP
を用いた任意話題音声の要約”、電子情報通信学会技
報、SP95-35、1995-06)に詳しく述べられている。しか
し、上記各文献に述べられている手法には、各フレーム
毎に出力される音響特徴量は固定次元のベクトル(LP
Cケプストラムなど)を想定しているため、音素片認識
部3からの出力である可変次元のベクトルをそのまま適
用することはできない。この問題を解決するための手法
を以下に説明する。
【0014】例えば、連続DP(Dynamic Programmin
g)よる2つのパターンpi、qjのマッチングを行う場
合、局所距離計算は式(1)及び式(2)で以下のよう
に計算できる。2つ音素片系列が持つ音素片要素をそれ
ぞれpi(1≦i≦N)、qj(1≦j≦M)とする。音
素片要素の認識指数(図2では認識頻度)をρ(pi)、
ρ(qj) とする。2つ音素片要素pi、qjに対する音素
片距離をε(pi,qj) とする。また、認識指数に応じた
重みをρ1(pi)、ρ1(qj) とし、式(1)及び式
(2)に示すように定義する。なお、N,Mはそれぞれ
の音素片系列の要素数である。
【0015】
【数1】
【0016】図9は、重要区間抽出のための局所距離算
出の動作を説明するフロー図である。ステップS1で、
局所距離が初期化(local distance=0)され、ステッ
プS2で、2つのパターンの音素片要素pi、qjが一致
するか否かを判断し、同じ音素片が現れた段階で、ステ
ップS3において変数local distanceに値dが設定され
る。そして、ステップS4でN×M回ループの中で変数
dが更新される。 d=d+ε(pi,qj)・ρ1(Pi)・ρ1(qj)
【0017】変数local distanceが0の時は、局所距離
値が0であるということを示し、音素片系列の最初の候
補同士が同じことを示している。この局所距離算出フロ
ーによる手法を用いることで、音素片などの可変ベクト
ル特徴量を利用した局所距離計算が可能になり、連続D
Pにおける累積距離計算値を得ることができ、最終的に
は2つのパターンにおけるマッチング距離の算出が可能
になる。
【0018】重要区間インデックス格納部5では、重要
区間抽出部4から得られる重要区間の出現頻度を用い
て、出現頻度ヒストグラムが作成される。図3は、重要
区間出現頻度の概念図である。横軸は時間、縦軸は類似
区間の出現頻度を表す。図中の30, 30'および3
1、31'は互いに類似した区間を示しており、対応関
係を示すため互いに便宜上水平な線で結んでいる。図中
の出現頻度ヒストグラム32は、区間30の開始時刻、
30'の終了時刻の間に重み1が加算されている様子を
表している。区間31、31'についても同様に、区間
31の開始時刻、31’の終了時刻の間に重み1が加算
されている。出現頻度ヒストグラム32の中央部の谷の
部分32’は、その時刻で話題が分割されることを示し
ている。これは、ある特定の話題には、その話題を特徴
付けるキーワードが出現し、違う他の話題では、違うキ
ーワードが出現するという仮定に基づいている。
【0019】図5は、実際の音声波形(89秒)を解析
した結果を示す図である。図5の横軸、縦軸は時間であ
り、グラフ中に検出された類似区間が黒い四角として表
示されている。たとえば、図中央のSTAY(宿泊)
は、音声波形の約63秒と約49秒を開始時刻として重
要区間があったことを示している。なお、図中の矢印に
より該当する単語見出しを注釈として加えている。
【0020】話題境界検出部6では、重要区間インデッ
クス格納部5から得られたヒストグラムを基に話題境界
の検出を行う。話題境界の検出には、このヒストグラム
に移動平均による平滑化処理を施したあと、その変化量
を求め、その変化量がある閾値を超えた時刻を基準に、
直前に負から正に変化した時刻として検出している。こ
の方法は、以下に述べる音響パワーによる音声区間の初
期推定区間抽出方法と似ているが、ヒストグラム(音響
パワーのグラフ)をそのまま用いるのではなく、そのヒ
ストグラムの変化量に対して適用している点が異なる。
【0021】図4は、音響パワー40とその変化量41
との関係を示す図である。音響パワーによる音声区間の
初期推定区間抽出方法は、入力音声フレームごとの音響
パワー40に対する2つの閾値E1、E2(E2<E1)を
用いて、音声区間(n1,n2)を推定する。音響パワー
の値が、E2を越え、かつその後E2より小さくなること
なくE1を越えるとき、E2を越えたフレームをn1
し、音声区間の開始フレームとする。音声区間の終了フ
レームは、時間軸を反転し同様の方法でn2を定める。
ここでの閾値E1、E2は、実験などにより決まる値とな
る。
【0022】本実施の形態で用いる方法は、音響パワー
40に相当する累積頻度をそのまま用いず、重要区間の
累積頻度の変化量41(微分)を求め、その値に対し
て、音声区間の初期推定区間抽出方法を用いる。この方
法は、累積頻度が急激に増加し始めるポイントの推定が
可能であるため、1つの話題の中で特に累積頻度の高い
部分の切りだしが行え、話題の細分化が可能である。累
積頻度が減少し終わったポイントは、時間軸を逆にし
て、同様の方法で調べることができる。n1、n2は、音
響パワー40による音声区間の初期推定区間抽出方法に
よる区間を示し、n1'、n2'は、音響パワーの変化量4
1を用いた方法による区間を示す。次に、平滑化のため
の式(3)と、話題分割のための式(4)を示す。
【0023】
【数2】
【0024】上式において、 h(t):時刻tに対する音韻的に類似した区間のペアの
累積頻度 m:平滑化処理のための移動平均量 h1(t):平滑化後の累積頻度 v(t):時刻tに対する累積頻度の変化量 α:累積頻度変化量を正規化するための定数 e:話題を分割するための閾値 H:分割された時刻の集合 音声区間検出の閾値E1がeに、E2が0に相当する。こ
の閾値eを満たす時刻の集合Hが話題の境界となる。
【0025】図6は、実際の音声波形(図5に示した音
声と同じ)を解析した結果を示す図である。図6(a)
は、重要区間インデックス格納部5より得られた重要区
間のヒストグラム、図6(b)は、図6(a)に対して
式(3)による平滑化処理を施した結果である。図6
(c)は、図6(b)のグラフの変化状態を示したもの
で、話題境界の時刻60が検出されたことを示してい
る。なお、61は、人手によって確認した話題境界の正
解時刻である。時刻60、61ともほぼ同じ時刻を示し
ており、本実施の形態装置による効果が表れている。
【0026】単語認識部7では、分割された話題区間の
時刻集合H(式(4)参照)に含まれる重要区間(音声
波形)を対象に音声波形格納部10に保存されている音
声波形を基に単語認識が行われる。単語認識の手法は、
たとえば、「音声認識」(今井聖、共立出版社、199
5)等、多くの文献に記されているため、ここでの説明
は省略する。
【0027】話題情報生成部8では、単語認識部7で得
られた単語集合とシソーラス、共起データを用いて話題
情報の生成が行われる。シソーラスは、概念の上位・下
位関係を記述したもので、検索する単語がどの概念に相
当していて、どのような概念の下位として位置づけられ
ているのかを検索するために用いたり、それぞれの単語
がシソーラスの分類によりどのようなグループを形成す
るのかを識別するために用いられる。また、共起データ
は、語と語が1つの文の中で同時に使われた単語の組合
せを列挙したデータであり、かな漢字変換等で単語見出
しを特定するために用いられる。ここでは、あらかじめ
設定された概念に含まれる情報を話題スロットと定義し
ている。
【0028】図10は、話題情報生成部8で行う話題情
報生成の動作を説明するフロー図である。まず、ステッ
プS10で、単語集合Wcを初期化し、ステップS11
で、単語認識部7で得られた単語Wi,Wjについてその
組合せの共起項目があるかどうかの判別を行う。ある
(YES)場合は、単語集合Wcに単語Wi,Wjを追加
する(ステップS12)。この手順により語義の曖昧性
を解消する。すなわち、異なる語義(意味)を持つ単語
のその文脈における語義を特定する。次いでステップS
13でWi,Wjの全ての組合わせについてチェックし、
チェックが終了すればステップS14に進む。
【0029】ステップS14では、単語集合Wcに含ま
れる単語Wciが属する概念を検索し、単語Wciの上位概
念を検索し(ステップS15)、該当する話題スロット
があるかどうかの判別を行う(ステップS16)。ある
(YES)場合は、単語Wciを話題スロットに追加する
(ステップS17)。これは、上位概念が、最上位概念
に行き着くまで繰り返される(ステップS18)。ま
た、この話題スロットヘの追加手順は、単語集合Wcの
すべての単語Wciについて行われる(ステップS1
9)。
【0030】なお、Wi={パン},Wj={食べる}の
場合、実例文の中に「パンを食べる」という文があるこ
とを示している。「食べるパンを」のような文は、解析
の対象を選ぶ文選択の作業において削除されるのが一般
的であるため、通常ありえない組合せとなるが、本実施
の形態では、共起する単語の組合せそのものを利用す
る。これは、「山と川」というような係り受け関係の場
合に、共起項目を増やすことができ効果的である。ま
た、話題情報生成部8では、単語Wi,Wjに対応する共
起項目の検索時に、該当する単語だけではなく概念も同
時に抽出することで、単語と概念両方に一致するものだ
けを結果として残す。
【0031】話題情報生成部8で用いられる話題スロッ
トには、例えば、「時」、「位置」、「変化」、「行
為」、「移動」、「現象」、「状態」、「人間または人
間と似た振る舞いをする主体」、「もの」、「事柄」、
「さまざまな物と事柄」、「それぞれの現象や物事」、
「客観的な対象」、等が挙げられる。ここで、「変化、
行為、移動、現象、状態」は、上位概念としての「事
象」に含まれる場合、「事象」概念1つとして扱うこと
も可能である。また、意味の細分化のために下位の概念
として「変化、行為、移動、現象、状態」それぞれを1
つの項目として扱うことも可能である。これは、「もの
ごと」に対しても同様であり、下位の概念として「も
の、事柄、さまざまな物と事柄、それぞれの現象や物
事、客観的な対象」を用いて細分化することもできる。
【0032】図8は、「組織」という単語をシソーラス
から検索した例を示す図である。80は、シソーラス上
の最上位の概念を示し、81、82、83、84、85
は各々「組織」という単語が5つの意味に分類されてお
り、それぞれの意味に従って、特定の上位概念の下に分
類されている状態を示している。たとえば、82の「組
織を作り上げる」という意味の場合は、“組織を創立す
る”という上位概念に含まれ、さらに“物事を設定する
こと”という上位概念に分類されている。最終的には、
“行為”という話題スロットに分類されていることが分
かる。もちろん、この上位概念は、シソーラスが異なれ
ば概念の名称も異なり、おのずと話題スロット名も異な
ったものとなる。
【0033】図7は、実際の音声波形を本実施の形態に
よる手法を用いて解析した出力例を示す図である。話題
情報出力部9では、図7に示すような形式で話題情報の
出力が行われる。2つの話題が出力されており、1つ目
の話題は、3つの話題スロット(位置、主体、もの)か
ら構成され、それぞれの話題スロットは、東京、地下鉄
という単語が示されている。2つ目の話題は、3つ話題
スロット(位置、行為、主体)から構成され、ホテル、
宿泊という単語が示されている。これは人手による検証
結果と一致しており、本実施の形態の効果が表れてい
る。もちろん、この出力情報は画面に表示するだけでは
なく他の形式での表示やファイルなどの他の出力媒体に
保存することも可能である。なお、本発明の音声要約装
置は、上述の図示例のみに限定されるものではなく、本
発明の要旨を逸脱しない範囲内において種々変更を加え
得ることは勿論である。
【0034】以上説明した音声要約装置は、この音声要
約装置を機能させるためのプログラムで実現できる。こ
のプログラムはコンピュータで読み取り可能な記録媒体
に格納されている。本発明では、この記録媒体として、
音声要約装置を実現するコンピュータのメインメモリそ
のものがプログラムメディアであってもよいし、また外
部記憶装置としてCD−ROMドライバ等のプログラム
読み取り装置が設けられ、そこに挿入することで読み取
り可能なCD−ROM等のプログラムメディアであって
もよい。いずれの場合においても、格納されているプロ
グラムはCPUがアクセスして実行させる構成であって
もよいし、あるいはいずれの場合もプログラムを読み出
し、読み出されたプログラムは、図示されていないプロ
グラム記憶エリアにダウンロードされて、そのプログラ
ムが実行される方式であってもよい。このダウンロード
用のプログラムは予め本体装置に格納されているものと
する。
【0035】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、磁気テープや
カセットテープ等のテープ系、フロッピーディスクやハ
ードディスク等の磁気ディスクやCD−ROM/MO/
MD/DVD等の光ディスクのディスク系、ICカード
/光カード等のカード系、あるいはマスクROM、EP
ROM、EEPROM、フラッシュROM等による半導
体メモリを含めた固定的にプログラムを担持する媒体で
あってもよい。
【0036】さらに、図示されていないが、外部の通信
ネットワークとの接続が可能な手段を備えている場合に
は、その通信接続手段を介して通信ネットワークからプ
ログラムをダウンロードするように、流動的にプログラ
ムを担持する媒体であってもよい。なお、このように通
信ネットワークからプログラムをダウンロードする場合
には、そのダウンロード用プログラムは予め本体装置に
格納しておくか、あるいは別な記録媒体からインストー
ルされるものであってもよい。なお、記録媒体に格納さ
れている内容としてはプログラムに限定されず、データ
であってもよい。
【0037】
【発明の効果】以上、詳述したように、本発明によれ
ば、話者同士による対話音声などの音声波形中に含まれ
る複数の話題を分割し、かつ、話題内容を推定するため
に必要な情報を提示可能となり、対話音声などの話者の
音声中に含まれる複数の話題を推定することができ、利
用者が音声内容を短時間で把握・利用すること可能とな
る。本発明による装置を用いることで、音声波形中に含
まれる話題を推定することはもちろん、音声にテキスト
のインデックスを自動的に付与し効率的な検索を支援す
る手段を提供することも可能となる。
【図面の簡単な説明】
【図1】本発明の音声要約装置の一実施の形態の構成を
示すブロック図である。
【図2】本実施の形態において、音素片認識部での出力
結果例を示す図である。
【図3】本実施の形態において、重要区間出現頻度の概
念図である。
【図4】本実施の形態において、音響パワーとその変化
量との関係を示す図である。
【図5】本実施の形態において、実際の音声波形(89
秒)を解析した結果を示す図である。
【図6】本実施の形態において、実際の音声波形(図5
に示した音声と同じ)を解析した結果を示す図である。
【図7】本実施の形態において、実際の音声波形を解析
した出力例を示す図である。
【図8】本実施の形態において、「組織」という単語を
シソーラスから検索した例を示す図である。
【図9】本実施の形態において、重要区間抽出のための
局所距離算出の動作を説明するフロー図である。
【図10】本実施の形態において、話題情報生成部で行
う話題情報生成の動作を説明するフロー図である。
【図11】従来の音声要約装置の構成を示すブロック図
である。
【符号の説明】
1 音声入力部 2 特徴抽出部 3 音素片認識部 4 重要区間抽出部 5 重要区間インデックス格納部 6 話題境界検出部 7 単語認識部 8 話題情報生成部 9 話題情報出力部 10 音声波形格納部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 551B (72)発明者 岡 隆一 茨城県つくば市竹園1−6−1 つくば三 井ビル 技術研究組合 新情報処理開発機 構 つくば研究センタ内 Fターム(参考) 5B075 ND14 NR03 NR12 NS01 5D015 AA05 HH03 KK04

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音声中から重要区間を抽出する重要区間
    抽出部と、重要区間の出現分布を用いて話題区間の境界
    を検出する話題境界検出部と、それぞれの話題区間に含
    まれる重要区間を意味分類して話題情報を生成する話題
    情報生成部と、を備えることを特徴とする音声要約装
    置。
  2. 【請求項2】 前記重要区間抽出部は、重要区間を抽出
    するための特徴量として、話者に依存しない音響特徴量
    を用いることを特徴とする請求項1記載の音声要約装
    置。
  3. 【請求項3】 前記話題境界検出部は、抽出された話題
    を反映する複数の重要区間から話題の境界を推定する推
    定手段を備えることを特徴とする請求項1記載の音声要
    約装置。
  4. 【請求項4】 前記話題情報生成部は、前記話題区間に
    含まれる単語からシソーラス又は共起データを用いて意
    味分類することを特徴とする請求項1に記載の音声要約
    装置。
  5. 【請求項5】 前記話題情報生成部は、共起データを用
    いて語義の曖昧性解消を行うことを特徴とする請求項4
    記載の音声要約装置。
  6. 【請求項6】 前記話題情報生成部は、共起データを用
    いて語義の曖昧性解消を行う際、共起する関係の順序を
    考慮せず、組合せのみを考慮することを特徴とする請求
    項5記載の音声要約装置。
  7. 【請求項7】 前記話題情報生成部は、共起データを用
    いて語義の曖昧性解消を行う際、共起する単語見出し及
    び意味情報を利用することを特徴とする請求項5記載の
    音声要約装置。
  8. 【請求項8】 前記話題情報生成部は、意味のクラスの
    違いに応じた分類である話題スロットを用いて意味分類
    することを特徴とする請求項1記載の音声要約装置。
  9. 【請求項9】 コンピュータを、音声中から重要区間を
    抽出する重要区間抽出部と、重要区間の出現分布を用い
    て話題区間の境界を検出する話題境界検出部と、それぞ
    れの話題区間に含まれる重要区間を意味分類して話題情
    報を生成する話題情報生成部、として機能させるための
    プログラムを記録したことを特徴とするコンピュータ読
    み取り可能な記録媒体。
JP09270599A 1999-03-31 1999-03-31 音声要約装置及び音声要約プログラムを記録した記録媒体 Expired - Fee Related JP4344418B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09270599A JP4344418B2 (ja) 1999-03-31 1999-03-31 音声要約装置及び音声要約プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09270599A JP4344418B2 (ja) 1999-03-31 1999-03-31 音声要約装置及び音声要約プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000284793A true JP2000284793A (ja) 2000-10-13
JP4344418B2 JP4344418B2 (ja) 2009-10-14

Family

ID=14061912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09270599A Expired - Fee Related JP4344418B2 (ja) 1999-03-31 1999-03-31 音声要約装置及び音声要約プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4344418B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
JP2006178978A (ja) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP2011033732A (ja) * 2009-07-30 2011-02-17 Casio Computer Co Ltd 類似音声リスト生成装置、類似音声リスト生成方法及び類似音声リスト生成プログラム
JP2011175349A (ja) * 2010-02-23 2011-09-08 National Institute Of Advanced Industrial Science & Technology コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム
JP2013200362A (ja) * 2012-03-23 2013-10-03 Dowango:Kk 音声認識装置、音声認識プログラム、及び音声認識方法
JP2015025856A (ja) * 2013-07-24 2015-02-05 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150149177A1 (en) * 2013-11-27 2015-05-28 Sri International Sharing Intents to Provide Virtual Assistance in a Multi-Person Dialog
CN105723449A (zh) * 2013-11-06 2016-06-29 系统翻译国际有限公司 基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法
JP7344612B1 (ja) * 2023-04-20 2023-09-14 amptalk株式会社 プログラム、会話要約装置、および会話要約方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
JP2006178978A (ja) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
WO2007043679A1 (ja) * 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US8098843B2 (en) 2007-09-27 2012-01-17 Sony Corporation Sound source direction detecting apparatus, sound source direction detecting method, and sound source direction detecting camera
JP2011033732A (ja) * 2009-07-30 2011-02-17 Casio Computer Co Ltd 類似音声リスト生成装置、類似音声リスト生成方法及び類似音声リスト生成プログラム
JP2011175349A (ja) * 2010-02-23 2011-09-08 National Institute Of Advanced Industrial Science & Technology コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム
JP2013200362A (ja) * 2012-03-23 2013-10-03 Dowango:Kk 音声認識装置、音声認識プログラム、及び音声認識方法
JP2015025856A (ja) * 2013-07-24 2015-02-05 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
CN105723449A (zh) * 2013-11-06 2016-06-29 系统翻译国际有限公司 基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法
US20160284345A1 (en) 2013-11-06 2016-09-29 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content
JP2016539364A (ja) * 2013-11-06 2016-12-15 シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. 録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法
US10304441B2 (en) 2013-11-06 2019-05-28 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content
US20150149177A1 (en) * 2013-11-27 2015-05-28 Sri International Sharing Intents to Provide Virtual Assistance in a Multi-Person Dialog
US10079013B2 (en) * 2013-11-27 2018-09-18 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
JP7344612B1 (ja) * 2023-04-20 2023-09-14 amptalk株式会社 プログラム、会話要約装置、および会話要約方法

Also Published As

Publication number Publication date
JP4344418B2 (ja) 2009-10-14

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US7515770B2 (en) Information processing method and apparatus
US8577679B2 (en) Symbol insertion apparatus and symbol insertion method
US20120143363A1 (en) Audio event detection method and apparatus
CN109637520A (zh) 基于语音分析的敏感内容识别方法、装置、终端及介质
CN104598644A (zh) 用户喜好标签挖掘方法和装置
CN111276149B (zh) 语音识别方法、装置、设备及可读存储介质
JP5017534B2 (ja) 飲酒状態判定装置及び飲酒状態判定方法
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
Shivaprasad et al. Identification of regional dialects of Telugu language using text independent speech processing models
JP4344418B2 (ja) 音声要約装置及び音声要約プログラムを記録した記録媒体
US10762375B2 (en) Media management system for video data processing and adaptation data generation
CN116484808A (zh) 一种公文用可控文本生成方法及装置
JP2000235585A (ja) トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
Koti et al. Speech Emotion Recognition using Extreme Machine Learning
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP4175093B2 (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム
WO2023108459A1 (en) Training and using a deep learning model for transcript topic segmentation
US20230402030A1 (en) Embedded Dictation Detection
JP2015200913A (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
Sardar Compensation of variability using median and i-vector+ PLDA for speaker identification of whispering sound
CN115050393B (zh) 获取回听音频的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090713

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130717

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees