JP2004023661A - 記録情報処理方法、記録媒体及び記録情報処理装置 - Google Patents
記録情報処理方法、記録媒体及び記録情報処理装置 Download PDFInfo
- Publication number
- JP2004023661A JP2004023661A JP2002178933A JP2002178933A JP2004023661A JP 2004023661 A JP2004023661 A JP 2004023661A JP 2002178933 A JP2002178933 A JP 2002178933A JP 2002178933 A JP2002178933 A JP 2002178933A JP 2004023661 A JP2004023661 A JP 2004023661A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- video
- speaker
- conversation
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】本発明は複数の話者の会話を撮影記録した会話音声を含む会話映像を話題毎、話者毎に分割処理する記録情報処理方法、記録媒体及び記録情報処理装置を提供する。
【解決手段】記録情報処理装置1は、セグメンテーション部2で、複数の話者の会話を撮影記録した会話映像11を会話音声部分11aに基づいて話者毎に分割し、重要語抽出部3で、議事録13から話題毎の重要語を抽出する。話題特定部4が、話者で分割されている記録映像のセグメント群12を、議事録13の話題毎の重要語14に基づいて、話題の特定されている記録映像11のセグメント群15を特定して結合部5に出力し、結合部5が、話題の特定されている記録映像11のセグメント群15の各セグメントを、同じ話者の同じ話題に関する記録映像11のセグメントについて、時間軸に沿って結合する。
【選択図】 図1
【解決手段】記録情報処理装置1は、セグメンテーション部2で、複数の話者の会話を撮影記録した会話映像11を会話音声部分11aに基づいて話者毎に分割し、重要語抽出部3で、議事録13から話題毎の重要語を抽出する。話題特定部4が、話者で分割されている記録映像のセグメント群12を、議事録13の話題毎の重要語14に基づいて、話題の特定されている記録映像11のセグメント群15を特定して結合部5に出力し、結合部5が、話題の特定されている記録映像11のセグメント群15の各セグメントを、同じ話者の同じ話題に関する記録映像11のセグメントについて、時間軸に沿って結合する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、記録情報処理方法、記録媒体及び記録情報処理装置に関し、詳細には、複数の話者の会話を撮影記録した会話音声を含む会話映像を話題毎、話者毎に分割処理する記録情報処理方法、記録媒体及び記録情報処理装置に関する。
【0002】
【従来の技術】
ビデオ機器および記録装置の普及と低価格化に伴い、オフィスにおける会議の風景を音声を含む映像に記録したり、音声のみを記録することが容易になりつつある。このような音声を含む映像や音声は、単に記録として残すだけでなく、未参加者による会議内容の確認や参加者による会議内容の再確認等にも、再利用価値が大きい。
【0003】
しかし、音声を含む映像や記録音声は時間軸に沿って1次元的に記録されているため、見たいまたは聞きたい内容を見つけるのが容易ではない。
【0004】
そこで、各参加者の話題毎の発言映像や音声を抽出し、記録映像や音声の多種多様なビューを提供することによって、効率よく記録情報を再利用する要望が大きい。
【0005】
そして、従来、映像のシーンの自動抽出に関する技術は、数多く提案されているが、そのほとんどの技術は、カメラワーク情報を利用したり、フレーム間の画像類似度を利用したり、さらに、テロップ情報と組み合わせして利用したりすることによって映像のシーンの自動抽出を行っている。
【0006】
このような画像処理技術をベースにする映像シーン自動抽出は、意味的に映像を解析しているわけではないため、「○○さんが××について話しているシーン」といった意味的なまとまりとなる映像のシーンを抽出することが困難である。
【0007】
これに対して、従来、音声処理技術と自然言語処理技術を導入した映像シーン自動抽出の方式が幾つか提案されている。この方式では、まず、映像の音声部分に音声ディクテーションをかけて、テキスト文書を取得し、このテキスト文書に対して、自然言語処理をかけて、なんらかの意味的なまとまりでセグメンテーションを行う。最後に、これらのセグメントと映像の同期をとり、映像の意味的なシーン抽出を実現しようとしている。
【0008】
ところが、一般的には、音声ディクテーションの精度が低く、さらに、自然言語処理をかけセグメンテーションを行うと、結果として、十分な精度を得ることができないという問題があった。
【0009】
そして、従来、会議の音声または映像記録に、話者特定処理をかけて、音声または映像を話者でセグメンテーションし、利用者が、視覚化されたセグメンテーション結果から再生したい音声または映像のセグメントを指定して、再生することで、指定したセグメントと類似したセグメントを表示する会議情報記録再生装置が提案されている(特開平11−53385号公報参照)。
【0010】
また、従来、議事録作成およびモニタを通して会議を視聴することを目的として、会議の映像および音声を話者毎でセグメンテーションして記憶し、利用の際には、話者の音声を用いて話者検索を行って、該当話者の映像及び対応する音声セグメントを出力し、また、該当話者がない場合、標準映像を出力する情報処理装置及び情報処理方法が提案されている(特開平10−271430号公報参照)。
【0011】
さらに、複数台のカメラからの会議中の複数人の動きを記録する映像から、話者と参加者を最もよく示すカメラの撮った映像を選定するに際して、画像処理を用いて、大半の参加者が見ている人(話者)を特定し、さらに、音声処理を用いて、話者を特定し、話者と参加者を最もよく示すカメラの撮った映像を選定してデータベースにアーカイブする情報処理装置が提案されている(特開2000−352996号公報参照)。
【0012】
【発明が解決しようとする課題】
そこで、本発明は、会議のような複数の話者が交代に発言するという活動の記録映像や音声を、自然言語処理における重要文抽出技術、音声処理における話者特定と音声grep技術を利用して解析し、各々の話者が活動中における話題毎の発言映像や音声を自動的に抽出して、記録情報の再利用性を向上させる記録情報処理方法、記録媒体及び記録情報処理装置を提供することを目的としている。
【0013】
しかしながら、このような従来の技術にあっては、会議のような複数の話者が交代に発言するという活動の記録映像や音声を解析し、各々の話者が活動中における話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【0014】
すなわち、特開平11−53385号公報及び特開平10−271430号公報記載の従来技術にあっては、話者で映像をセグメンテーションしているが、話題の特定を行っていないため、話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【0015】
また、特開2000−352996号公報記載の従来技術にあっては、話者特定技術を利用しているが、映像の選別を行うのみであり、意味的にセグメンテーションしておらず、話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【0016】
さらに、従来、J.Boreczky,A.Girgenesohn,G.Golovchinsky,and S.Uchihasi:An Interactive Comic Book Presentation for Exploring Vidio,CHI 2000:185−192,2000 に示されているように、種々の研究が行われているが、いずれも重要シーンの抽出を階層クラスタリングを用いて行ってはいるが、重要度をシーンの長さなど物理的な情報をベースに算出しているため、発言者を特定できないだけでなく、話題を特定することができないという問題があった。
【0017】
具体的には、請求項1記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理することにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0018】
請求項2記載の発明は、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行うことにより、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出し、記録情報の再利用性をより一層向上させることのできる記録情報処理方法を提供することを目的としている。
【0019】
請求項3記載の発明は、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いることにより、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出し、会議の記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0020】
請求項4記載の発明は、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いることにより、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出し、映画の記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0021】
請求項5記載の発明は、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うことにより、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出し、より一層利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0022】
請求項6記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録することにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理方法のプログラムを記録した記録媒体を提供することを目的としている。
【0023】
請求項7記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項1から請求項5のいずれかに記載の記録情報処理方法を実行するものとすることにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理装置を提供することを目的としている。
【0024】
【課題を解決するための手段】
請求項1記載の発明の記録情報処理方法は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法であって、前記会話音声に基づいて前記会話映像を前記話者毎に分割する分割処理と、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理と、を行って、前記会話映像を分割処理することにより、上記目的を達成している。
【0025】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を前記話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理しているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0026】
この場合、例えば、請求項2に記載するように、前記記録情報処理方法は、前記会話映像の会話を記録した文書情報に基づいて前記話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、前記話題特定処理を行ってもよい。
【0027】
上記構成によれば、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っているので、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【0028】
また、例えば、請求項3に記載するように、前記会話映像は、複数の参加者が前記話者として参加する会議を撮影記録した会議映像であり、また、前記文書情報は、当該会議の議事録であってもよい。
【0029】
上記構成によれば、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いているので、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【0030】
さらに、例えば、請求項4に記載するように、前記会話映像は、映画の撮影映像であり、また、前記文書情報は、当該映画のシナリオであってもよい。
【0031】
上記構成によれば、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いているので、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【0032】
また、例えば、請求項5に記載するように、前記記録情報処理方法は、前記分割処理した会話映像に対して、前記話者を検索キーとして、前記話者毎の発言の前記分割映像を検索する話者毎検索処理、前記話題を検索キーとして、前記話題毎の発言の前記分割映像を検索する話題毎検索処理、または、前記話者と前記話題を検索キーとして、前記話者毎の当該話題に関する発言の前記分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行ってもよい。
【0033】
上記構成によれば、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うので、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【0034】
請求項6記載の発明の記録媒体は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体であって、前記請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録することにより、上記目的を達成している。
【0035】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録しているので、当該記録媒体を情報処理装置等に読み取らせることで、記録情報処理装置を構築して、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0036】
請求項7記載の発明の記録情報処理装置は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置であって、前記請求項1から請求項5のいずれかに記載の記録情報処理方法を実行することにより、上記目的を達成している。
【0037】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項1から請求項5のいずれかに記載の記録情報処理方法を実行するものとしているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0038】
【発明の実施の形態】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0039】
図1〜図3は、本発明の情報処理方式及び情報処理装置の一実施の形態を示す図である。
【0040】
図1は、本発明の記録情報処理方法、記録媒体及び記録情報処理装置の一実施の形態を適用した記録情報処理装置1の概略構成図である。
【0041】
図1において、記録情報処理装置1は、コンピュータ等の情報処理装置に記録情報処理方法のプログラムの記録されているCD−ROM(Compact Disc Read Only Memory )等の記録媒体を読み取らせることで、構築され、セグメンテーション部2、重要語抽出部3、話題特定部4及び結合部5等を備えている。
【0042】
セグメンテーション部2には、記録音声を含む記録映像11または単独の記録音声(図示略)が入力され、セグメンテーション部2は、まず、記録映像11の音声部分11aまたは記録音声そのものに話者特定処理を施して、記録映像11の音声部分11aまたは記録音声を話者でsegmentation(細分化)する分割処理を行う。セグメンテーション部2は、入力が記録映像11であるときには、音声部分11aの話者でセグメンテーション(segmentation)されたsegment(細分化された部分)に合わせって、記録映像部分11bも話者でセグメンテーションする。セグメンテーション部2は、記録映像11の音声部分11aと記録映像部分11bまたは記録音声をセグメンテーションしたセグメント群12を話者特定部4に出力する。
【0043】
重要語抽出部3には、文書化された議事録(文書情報)13が入力され、この議事録13は、人手で作成されていてもよいし、人手で作成されたものと同等の精度を有する機械的に作成されているものであってもよい。要は、会議等の議事録13として適切に文書として作成されているものであればよい。
【0044】
重要語抽出部3は、入力された文書化された議事録13から話題(topic )毎の重要語を抽出する話題語抽出処理を行い、抽出した重要語14を話題特定部4に出力する。重要語抽出部3は、重要語14の抽出に際して、例えば、文書化されている議事録13に対して形態素解析を行った上で、話題毎の重要語14を抽出するが、話題の設定に対しては、なんらの限定を加えない。例えば、重要語抽出部3は、議事録13の本文中の箇条書き部分の各箇条、または、各パラグラフ等がを用いて重要語14を抽出し、さらに、話題に、階層を持たせたり、クラスタリングをかけたりすることで重要語14を抽出する。
【0045】
話題特定部4は、セグメンテーション部2から入力される話者でsegmentationされている記録映像または記録音声のセグメント群(segment 群)12を、重要語抽出部3から入力される議事録13の話題毎の重要語14に基づいて、話題の特定されている記録映像11または記録音声のセグメント群15を特定する話題特定処理を行い、結合部5に出力する。
【0046】
すなわち、話題特定部4は、重要語抽出部3によって抽出された話題毎の重要語14を用いて、記録映像11の音声部分または記録音声の個々のセグメント群(segment群 )12に対して、音声grep(音声検索)をかけ、ヒット(一致)したセグメント(segment )を、その話題に関するセグメント(segment )とする。この際、話題特定部4は、話題特定の精度を向上させるために、同じ話題に含まれる複数の重要語14で検索(grep)する。
【0047】
結合部5は、話題特定部4から入力される話題の特定されている記録映像11または記録音声のセグメント群15の各セグメント(segment )を、同じ話者の同じ話題に関する記録映像11または記録音声のセグメント(segment )について、時間軸に沿って結合する。このとき、結合部5は、話者を特定する話者ID及び話題を特定する話題IDをインデックスとして付与し、結合した記録映像11または記録音声があまりにも長い場合には、そのダイジェストを生成する。このダイジェストの作成方式は、何ら限定されるものではなく、種々の方法を用いることができ、例えば、単純に一定間隔で1部分のフレームをカットする方法等を用いる。
【0048】
次に、本実施の形態の作用を説明する。本実施の形態の記録情報処理装置1は、会議のような複数の話者が交代に発言するという活動の音声部分を含む記録映像や記録音声を、自然言語処理における重要文抽出技術、音声処理における話者特定と音声検索(grep)技術を利用して解析し、各々の話者の活動中における話題毎の発言映像や音声を自動的に抽出する。なお、以下の説明では、図1と同様のものについては、同一の符号を付して説明する。
【0049】
いま、図2に示すように、元データとして、会議における会議映像である記録映像11(音声部分11aと記録映像部分11bを含む)または図示しない記録音声と文書化されている活動の議事録13を用い、各話者の話題毎の発言映像や音声を自動的に抽出するものとする。
【0050】
記録情報処理装置1は、まず、記録映像11の音声部分11aと記録映像部分11bまたは記録音声を話者毎に分割するセグメンテーション処理をセグメンテーション部2で行う。
【0051】
すなわち、記録情報処理装置1は、図3に示すように、抽出対象の記録情報が、映像か音声かをチェックし(ステップS101)、記録情報が映像、すなわち、記録映像11であると、セグメンテーション部2が、記録映像11の音声部分11aに音声処理技術における話者特定処理を行い、特定した話者毎に音声部分11aを分割して細分化(セグメンテーション:segmentation)するセグメンテーション処理(分割処理)を行う(ステップS102)。このとき、セグメンテーション部2は、例えば、同時に複数の参加者が発言したり、誰も発言しなかったりして、話者を特定することのできない音声部分11aの当該部分を無視する。
【0052】
この音声部分11aのセグメント(segment)に合わせて記録映像部分11bを話者でセグメンテーションして、セグメンテーションした記録映像11のセグメント群12を話者特定部4に出力する(ステップS103)。
【0053】
また、ステップS101で、抽出対象の記録情報が音声(音声のみ)であると、当該記録音声に音声処理技術における話者特定処理を行い、特定した話者毎に記録音声をセグメンテーションするセグメンテーション処理を行って、セグメンテーションした記録音声のセグメント群を話者特定部4に出力する(ステップS104)。このとき、セグメンテーション部2は、例えば、同時に複数の参加者が発言したり、誰も発言しなかったりして、話者を特定することのできない記録音声の当該部分を無視する。
【0054】
次に、重要語抽出部3が、文書化された議事録13に対して、自然語処理、例えば、形態素解析を施して話題(topic )毎に重要語を抽出する話題語抽出処理を行い、抽出した重要語14を話題特定部4に出力する(ステップS105)。
【0055】
次に、話題特定部4が、、セグメンテーション部2から入力される話者でセグメンテーションされている記録映像11または記録音声のセグメント群12を、重要語抽出部3から入力される議事録13の話題毎の重要語14に基づいて、話題の特定されている記録映像11または記録音声のセグメント群15を特定する特定処理を施して結合部5に出力する(ステップS106)。
【0056】
最後に、結合部5が、話題特定部4から入力される話題の特定されている記録映像11または記録音声のセグメント群15の各セグメント(segment )を、同じ話者の同じ話題に関する記録映像11または記録音声のセグメント(segment )について、時間軸に沿って結合する結合処理を施す(ステップS107)。このとき、結合部5は、上述のように、話者を特定する話者ID及び話題を特定する話題IDをインデックスとして付与し、結合した記録映像11または記録音声があまりにも長い場合には、そのダイジェストを生成する。このダイジェストの作成方式は、何ら限定されるものではなく、種々の方法を用いることができ、例えば、単純に一定間隔で1部分のフレームをカットする方法等を用いる。
【0057】
そして、記録情報処理装置1は、分割処理した会話映像に対して、話者を検索キーとして、すなわち、話者IDに基づいて、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、すなわち、話題IDに基づいて、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、すなわち、話者IDと話題IDに基づいて、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行い、検索結果の映像をディスプレイ等に表示出力するとともに、スピーカから当該検索結果の映像の音声部分を拡声出力する。
【0058】
このように、本実施の形態の記録情報処理装置1は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理している。
【0059】
したがって、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0060】
また、本実施の形態の記録情報処理装置1は、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っている。
【0061】
したがって、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【0062】
さらに、本実施の形態の記録情報処理装置1は、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いている。
【0063】
したがって、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【0064】
また、本実施の形態の記録情報処理装置1において、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いると、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【0065】
そして、本実施の形態の記録情報処理装置1は、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行っている。
【0066】
したがって、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【0067】
【実施例】
上記実施の形態の記録情報処理装置1を用いて、オフィスにおける会議の記録映像(音声)を処理対象として、会議の各参加者の話題毎の発言映像を抽出し、文書化された議事録をインディクスとして、記録情報処理装置1の利用者に、情報提供を行う場合について説明する。
【0068】
記録情報処理装置1は、図4に示すように、セグメンテーション部2で、会議の記録映像の音声部分に話者特定処理を行って、音声部分を話者でセグメンテーション(segmentation)し(ステップS201)、この音声部分のセグメント(segment)に合わせって、記録映像部分も話者でセグメンテーションして、話題特定部4に出力する(ステップS202)。
【0069】
一方、重要語抽出部3で、文章化されている会議の議事録に自然言語処理を施し、各箇条書きを1つの話題と見なして、話題毎に重要語を抽出して話題特定部4に出力する(ステップS203)。
【0070】
話題特定部4が、重要語抽出部3から入力される各話題の重要語を用いて、セグメンテーション部2から入力される映像のセグメント毎に音声検索(grep)を行って、例えば、同じ話題の一定以上(例えば、半数以上)の重要語にヒットするセグメントが、その話題に関するセグメントであると判定し、話題毎のセグメントを特定して、結合部5に出力する(ステップS204)。
【0071】
最後に、結合部5が、同じ参加者の同じ話題に関するセグメントを時間軸に沿って結合し、例えば、参加者ID、話題IDの2元組みをインデックスとしてつけて、内部メモリ等に保存する(ステップS205)。
【0072】
そして、記録情報処理装置1は、図5に示すように、文書化された議事録に記述されている参加者の名前から、各参加者の発言映像を話題毎にアクセスできるようなハイパーリングからなるHTMLページを作成し、また、文書化された議事録に記述されている各箇条書きから、話題毎に参加者の発言映像をアクセスできるようなハイパーリングからなるHTMLページを作成して、メモリに保存する。
【0073】
この状態で、記録情報処理装置1は、図5に示すように、表示部(ディスプレイ)に議事録を表示し、記録情報処理装置1の利用者が、各参加者の名前をクリックすると、当該クリックした人の話題毎の発言映像をリストアップして、リストの中から選択されたその人の発言映像を表示出力する。
【0074】
また、記憶情報処理装置1は、表示部に表示している議事録から話題(topic )が、利用者によってクリックされると、当該クリックされた話題について発言している参加者をリストアップし、当該リストの中から参加者が選択されると、当該選択された参加者の発言映像を表示出力する。
【0075】
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0076】
【発明の効果】
請求項1記載の発明の記録情報処理方法によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を前記話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理しているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0077】
請求項2記載の発明の記録情報処理方法によれば、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っているので、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【0078】
請求項3記載の発明の記録情報処理方法によれば、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いているので、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【0079】
請求項4記載の発明の記録情報処理方法によれば、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いているので、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【0080】
請求項5記載の発明の記録情報処理方法によれば、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うので、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【0081】
請求項6記載の発明の記録媒体によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録しているので、当該記録媒体を情報処理装置等に読み取らせることで、記録情報処理装置を構築して、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0082】
請求項7記載の発明の記録情報処理装置によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項1から請求項5のいずれかに記載の記録情報処理方法を実行するものとしているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の記録情報処理方法、記録媒体及び記録情報処理装置の一実施の形態を適用した記録情報処理装置の概略構成図。
【図2】図1の記録情報処理装置での記録情報処理の流れを示す説明図。
【図3】図1の記録情報処理装置による記録情報処理を示すフローチャート。
【図4】図1の記録情報処理装置を適用した実施例による記録情報処理を示すフローチャート。
【図5】図1の記録情報処理装置を適用した実施例による記録情報取り出しの説明図。
【符号の説明】
1 記録情報処理装置
2 セグメンテーション部
3 重要語抽出部
4 話題特定部
5 結合部
11 記録映像
11a 音声部分
11b 記録映像部分
12 セグメント群
13 議事録
14 重要語
15 セグメント群
【発明の属する技術分野】
本発明は、記録情報処理方法、記録媒体及び記録情報処理装置に関し、詳細には、複数の話者の会話を撮影記録した会話音声を含む会話映像を話題毎、話者毎に分割処理する記録情報処理方法、記録媒体及び記録情報処理装置に関する。
【0002】
【従来の技術】
ビデオ機器および記録装置の普及と低価格化に伴い、オフィスにおける会議の風景を音声を含む映像に記録したり、音声のみを記録することが容易になりつつある。このような音声を含む映像や音声は、単に記録として残すだけでなく、未参加者による会議内容の確認や参加者による会議内容の再確認等にも、再利用価値が大きい。
【0003】
しかし、音声を含む映像や記録音声は時間軸に沿って1次元的に記録されているため、見たいまたは聞きたい内容を見つけるのが容易ではない。
【0004】
そこで、各参加者の話題毎の発言映像や音声を抽出し、記録映像や音声の多種多様なビューを提供することによって、効率よく記録情報を再利用する要望が大きい。
【0005】
そして、従来、映像のシーンの自動抽出に関する技術は、数多く提案されているが、そのほとんどの技術は、カメラワーク情報を利用したり、フレーム間の画像類似度を利用したり、さらに、テロップ情報と組み合わせして利用したりすることによって映像のシーンの自動抽出を行っている。
【0006】
このような画像処理技術をベースにする映像シーン自動抽出は、意味的に映像を解析しているわけではないため、「○○さんが××について話しているシーン」といった意味的なまとまりとなる映像のシーンを抽出することが困難である。
【0007】
これに対して、従来、音声処理技術と自然言語処理技術を導入した映像シーン自動抽出の方式が幾つか提案されている。この方式では、まず、映像の音声部分に音声ディクテーションをかけて、テキスト文書を取得し、このテキスト文書に対して、自然言語処理をかけて、なんらかの意味的なまとまりでセグメンテーションを行う。最後に、これらのセグメントと映像の同期をとり、映像の意味的なシーン抽出を実現しようとしている。
【0008】
ところが、一般的には、音声ディクテーションの精度が低く、さらに、自然言語処理をかけセグメンテーションを行うと、結果として、十分な精度を得ることができないという問題があった。
【0009】
そして、従来、会議の音声または映像記録に、話者特定処理をかけて、音声または映像を話者でセグメンテーションし、利用者が、視覚化されたセグメンテーション結果から再生したい音声または映像のセグメントを指定して、再生することで、指定したセグメントと類似したセグメントを表示する会議情報記録再生装置が提案されている(特開平11−53385号公報参照)。
【0010】
また、従来、議事録作成およびモニタを通して会議を視聴することを目的として、会議の映像および音声を話者毎でセグメンテーションして記憶し、利用の際には、話者の音声を用いて話者検索を行って、該当話者の映像及び対応する音声セグメントを出力し、また、該当話者がない場合、標準映像を出力する情報処理装置及び情報処理方法が提案されている(特開平10−271430号公報参照)。
【0011】
さらに、複数台のカメラからの会議中の複数人の動きを記録する映像から、話者と参加者を最もよく示すカメラの撮った映像を選定するに際して、画像処理を用いて、大半の参加者が見ている人(話者)を特定し、さらに、音声処理を用いて、話者を特定し、話者と参加者を最もよく示すカメラの撮った映像を選定してデータベースにアーカイブする情報処理装置が提案されている(特開2000−352996号公報参照)。
【0012】
【発明が解決しようとする課題】
そこで、本発明は、会議のような複数の話者が交代に発言するという活動の記録映像や音声を、自然言語処理における重要文抽出技術、音声処理における話者特定と音声grep技術を利用して解析し、各々の話者が活動中における話題毎の発言映像や音声を自動的に抽出して、記録情報の再利用性を向上させる記録情報処理方法、記録媒体及び記録情報処理装置を提供することを目的としている。
【0013】
しかしながら、このような従来の技術にあっては、会議のような複数の話者が交代に発言するという活動の記録映像や音声を解析し、各々の話者が活動中における話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【0014】
すなわち、特開平11−53385号公報及び特開平10−271430号公報記載の従来技術にあっては、話者で映像をセグメンテーションしているが、話題の特定を行っていないため、話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【0015】
また、特開2000−352996号公報記載の従来技術にあっては、話者特定技術を利用しているが、映像の選別を行うのみであり、意味的にセグメンテーションしておらず、話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【0016】
さらに、従来、J.Boreczky,A.Girgenesohn,G.Golovchinsky,and S.Uchihasi:An Interactive Comic Book Presentation for Exploring Vidio,CHI 2000:185−192,2000 に示されているように、種々の研究が行われているが、いずれも重要シーンの抽出を階層クラスタリングを用いて行ってはいるが、重要度をシーンの長さなど物理的な情報をベースに算出しているため、発言者を特定できないだけでなく、話題を特定することができないという問題があった。
【0017】
具体的には、請求項1記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理することにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0018】
請求項2記載の発明は、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行うことにより、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出し、記録情報の再利用性をより一層向上させることのできる記録情報処理方法を提供することを目的としている。
【0019】
請求項3記載の発明は、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いることにより、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出し、会議の記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0020】
請求項4記載の発明は、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いることにより、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出し、映画の記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0021】
請求項5記載の発明は、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うことにより、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出し、より一層利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【0022】
請求項6記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録することにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理方法のプログラムを記録した記録媒体を提供することを目的としている。
【0023】
請求項7記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項1から請求項5のいずれかに記載の記録情報処理方法を実行するものとすることにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理装置を提供することを目的としている。
【0024】
【課題を解決するための手段】
請求項1記載の発明の記録情報処理方法は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法であって、前記会話音声に基づいて前記会話映像を前記話者毎に分割する分割処理と、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理と、を行って、前記会話映像を分割処理することにより、上記目的を達成している。
【0025】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を前記話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理しているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0026】
この場合、例えば、請求項2に記載するように、前記記録情報処理方法は、前記会話映像の会話を記録した文書情報に基づいて前記話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、前記話題特定処理を行ってもよい。
【0027】
上記構成によれば、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っているので、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【0028】
また、例えば、請求項3に記載するように、前記会話映像は、複数の参加者が前記話者として参加する会議を撮影記録した会議映像であり、また、前記文書情報は、当該会議の議事録であってもよい。
【0029】
上記構成によれば、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いているので、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【0030】
さらに、例えば、請求項4に記載するように、前記会話映像は、映画の撮影映像であり、また、前記文書情報は、当該映画のシナリオであってもよい。
【0031】
上記構成によれば、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いているので、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【0032】
また、例えば、請求項5に記載するように、前記記録情報処理方法は、前記分割処理した会話映像に対して、前記話者を検索キーとして、前記話者毎の発言の前記分割映像を検索する話者毎検索処理、前記話題を検索キーとして、前記話題毎の発言の前記分割映像を検索する話題毎検索処理、または、前記話者と前記話題を検索キーとして、前記話者毎の当該話題に関する発言の前記分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行ってもよい。
【0033】
上記構成によれば、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うので、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【0034】
請求項6記載の発明の記録媒体は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体であって、前記請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録することにより、上記目的を達成している。
【0035】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録しているので、当該記録媒体を情報処理装置等に読み取らせることで、記録情報処理装置を構築して、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0036】
請求項7記載の発明の記録情報処理装置は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置であって、前記請求項1から請求項5のいずれかに記載の記録情報処理方法を実行することにより、上記目的を達成している。
【0037】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項1から請求項5のいずれかに記載の記録情報処理方法を実行するものとしているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0038】
【発明の実施の形態】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0039】
図1〜図3は、本発明の情報処理方式及び情報処理装置の一実施の形態を示す図である。
【0040】
図1は、本発明の記録情報処理方法、記録媒体及び記録情報処理装置の一実施の形態を適用した記録情報処理装置1の概略構成図である。
【0041】
図1において、記録情報処理装置1は、コンピュータ等の情報処理装置に記録情報処理方法のプログラムの記録されているCD−ROM(Compact Disc Read Only Memory )等の記録媒体を読み取らせることで、構築され、セグメンテーション部2、重要語抽出部3、話題特定部4及び結合部5等を備えている。
【0042】
セグメンテーション部2には、記録音声を含む記録映像11または単独の記録音声(図示略)が入力され、セグメンテーション部2は、まず、記録映像11の音声部分11aまたは記録音声そのものに話者特定処理を施して、記録映像11の音声部分11aまたは記録音声を話者でsegmentation(細分化)する分割処理を行う。セグメンテーション部2は、入力が記録映像11であるときには、音声部分11aの話者でセグメンテーション(segmentation)されたsegment(細分化された部分)に合わせって、記録映像部分11bも話者でセグメンテーションする。セグメンテーション部2は、記録映像11の音声部分11aと記録映像部分11bまたは記録音声をセグメンテーションしたセグメント群12を話者特定部4に出力する。
【0043】
重要語抽出部3には、文書化された議事録(文書情報)13が入力され、この議事録13は、人手で作成されていてもよいし、人手で作成されたものと同等の精度を有する機械的に作成されているものであってもよい。要は、会議等の議事録13として適切に文書として作成されているものであればよい。
【0044】
重要語抽出部3は、入力された文書化された議事録13から話題(topic )毎の重要語を抽出する話題語抽出処理を行い、抽出した重要語14を話題特定部4に出力する。重要語抽出部3は、重要語14の抽出に際して、例えば、文書化されている議事録13に対して形態素解析を行った上で、話題毎の重要語14を抽出するが、話題の設定に対しては、なんらの限定を加えない。例えば、重要語抽出部3は、議事録13の本文中の箇条書き部分の各箇条、または、各パラグラフ等がを用いて重要語14を抽出し、さらに、話題に、階層を持たせたり、クラスタリングをかけたりすることで重要語14を抽出する。
【0045】
話題特定部4は、セグメンテーション部2から入力される話者でsegmentationされている記録映像または記録音声のセグメント群(segment 群)12を、重要語抽出部3から入力される議事録13の話題毎の重要語14に基づいて、話題の特定されている記録映像11または記録音声のセグメント群15を特定する話題特定処理を行い、結合部5に出力する。
【0046】
すなわち、話題特定部4は、重要語抽出部3によって抽出された話題毎の重要語14を用いて、記録映像11の音声部分または記録音声の個々のセグメント群(segment群 )12に対して、音声grep(音声検索)をかけ、ヒット(一致)したセグメント(segment )を、その話題に関するセグメント(segment )とする。この際、話題特定部4は、話題特定の精度を向上させるために、同じ話題に含まれる複数の重要語14で検索(grep)する。
【0047】
結合部5は、話題特定部4から入力される話題の特定されている記録映像11または記録音声のセグメント群15の各セグメント(segment )を、同じ話者の同じ話題に関する記録映像11または記録音声のセグメント(segment )について、時間軸に沿って結合する。このとき、結合部5は、話者を特定する話者ID及び話題を特定する話題IDをインデックスとして付与し、結合した記録映像11または記録音声があまりにも長い場合には、そのダイジェストを生成する。このダイジェストの作成方式は、何ら限定されるものではなく、種々の方法を用いることができ、例えば、単純に一定間隔で1部分のフレームをカットする方法等を用いる。
【0048】
次に、本実施の形態の作用を説明する。本実施の形態の記録情報処理装置1は、会議のような複数の話者が交代に発言するという活動の音声部分を含む記録映像や記録音声を、自然言語処理における重要文抽出技術、音声処理における話者特定と音声検索(grep)技術を利用して解析し、各々の話者の活動中における話題毎の発言映像や音声を自動的に抽出する。なお、以下の説明では、図1と同様のものについては、同一の符号を付して説明する。
【0049】
いま、図2に示すように、元データとして、会議における会議映像である記録映像11(音声部分11aと記録映像部分11bを含む)または図示しない記録音声と文書化されている活動の議事録13を用い、各話者の話題毎の発言映像や音声を自動的に抽出するものとする。
【0050】
記録情報処理装置1は、まず、記録映像11の音声部分11aと記録映像部分11bまたは記録音声を話者毎に分割するセグメンテーション処理をセグメンテーション部2で行う。
【0051】
すなわち、記録情報処理装置1は、図3に示すように、抽出対象の記録情報が、映像か音声かをチェックし(ステップS101)、記録情報が映像、すなわち、記録映像11であると、セグメンテーション部2が、記録映像11の音声部分11aに音声処理技術における話者特定処理を行い、特定した話者毎に音声部分11aを分割して細分化(セグメンテーション:segmentation)するセグメンテーション処理(分割処理)を行う(ステップS102)。このとき、セグメンテーション部2は、例えば、同時に複数の参加者が発言したり、誰も発言しなかったりして、話者を特定することのできない音声部分11aの当該部分を無視する。
【0052】
この音声部分11aのセグメント(segment)に合わせて記録映像部分11bを話者でセグメンテーションして、セグメンテーションした記録映像11のセグメント群12を話者特定部4に出力する(ステップS103)。
【0053】
また、ステップS101で、抽出対象の記録情報が音声(音声のみ)であると、当該記録音声に音声処理技術における話者特定処理を行い、特定した話者毎に記録音声をセグメンテーションするセグメンテーション処理を行って、セグメンテーションした記録音声のセグメント群を話者特定部4に出力する(ステップS104)。このとき、セグメンテーション部2は、例えば、同時に複数の参加者が発言したり、誰も発言しなかったりして、話者を特定することのできない記録音声の当該部分を無視する。
【0054】
次に、重要語抽出部3が、文書化された議事録13に対して、自然語処理、例えば、形態素解析を施して話題(topic )毎に重要語を抽出する話題語抽出処理を行い、抽出した重要語14を話題特定部4に出力する(ステップS105)。
【0055】
次に、話題特定部4が、、セグメンテーション部2から入力される話者でセグメンテーションされている記録映像11または記録音声のセグメント群12を、重要語抽出部3から入力される議事録13の話題毎の重要語14に基づいて、話題の特定されている記録映像11または記録音声のセグメント群15を特定する特定処理を施して結合部5に出力する(ステップS106)。
【0056】
最後に、結合部5が、話題特定部4から入力される話題の特定されている記録映像11または記録音声のセグメント群15の各セグメント(segment )を、同じ話者の同じ話題に関する記録映像11または記録音声のセグメント(segment )について、時間軸に沿って結合する結合処理を施す(ステップS107)。このとき、結合部5は、上述のように、話者を特定する話者ID及び話題を特定する話題IDをインデックスとして付与し、結合した記録映像11または記録音声があまりにも長い場合には、そのダイジェストを生成する。このダイジェストの作成方式は、何ら限定されるものではなく、種々の方法を用いることができ、例えば、単純に一定間隔で1部分のフレームをカットする方法等を用いる。
【0057】
そして、記録情報処理装置1は、分割処理した会話映像に対して、話者を検索キーとして、すなわち、話者IDに基づいて、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、すなわち、話題IDに基づいて、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、すなわち、話者IDと話題IDに基づいて、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行い、検索結果の映像をディスプレイ等に表示出力するとともに、スピーカから当該検索結果の映像の音声部分を拡声出力する。
【0058】
このように、本実施の形態の記録情報処理装置1は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理している。
【0059】
したがって、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0060】
また、本実施の形態の記録情報処理装置1は、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っている。
【0061】
したがって、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【0062】
さらに、本実施の形態の記録情報処理装置1は、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いている。
【0063】
したがって、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【0064】
また、本実施の形態の記録情報処理装置1において、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いると、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【0065】
そして、本実施の形態の記録情報処理装置1は、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行っている。
【0066】
したがって、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【0067】
【実施例】
上記実施の形態の記録情報処理装置1を用いて、オフィスにおける会議の記録映像(音声)を処理対象として、会議の各参加者の話題毎の発言映像を抽出し、文書化された議事録をインディクスとして、記録情報処理装置1の利用者に、情報提供を行う場合について説明する。
【0068】
記録情報処理装置1は、図4に示すように、セグメンテーション部2で、会議の記録映像の音声部分に話者特定処理を行って、音声部分を話者でセグメンテーション(segmentation)し(ステップS201)、この音声部分のセグメント(segment)に合わせって、記録映像部分も話者でセグメンテーションして、話題特定部4に出力する(ステップS202)。
【0069】
一方、重要語抽出部3で、文章化されている会議の議事録に自然言語処理を施し、各箇条書きを1つの話題と見なして、話題毎に重要語を抽出して話題特定部4に出力する(ステップS203)。
【0070】
話題特定部4が、重要語抽出部3から入力される各話題の重要語を用いて、セグメンテーション部2から入力される映像のセグメント毎に音声検索(grep)を行って、例えば、同じ話題の一定以上(例えば、半数以上)の重要語にヒットするセグメントが、その話題に関するセグメントであると判定し、話題毎のセグメントを特定して、結合部5に出力する(ステップS204)。
【0071】
最後に、結合部5が、同じ参加者の同じ話題に関するセグメントを時間軸に沿って結合し、例えば、参加者ID、話題IDの2元組みをインデックスとしてつけて、内部メモリ等に保存する(ステップS205)。
【0072】
そして、記録情報処理装置1は、図5に示すように、文書化された議事録に記述されている参加者の名前から、各参加者の発言映像を話題毎にアクセスできるようなハイパーリングからなるHTMLページを作成し、また、文書化された議事録に記述されている各箇条書きから、話題毎に参加者の発言映像をアクセスできるようなハイパーリングからなるHTMLページを作成して、メモリに保存する。
【0073】
この状態で、記録情報処理装置1は、図5に示すように、表示部(ディスプレイ)に議事録を表示し、記録情報処理装置1の利用者が、各参加者の名前をクリックすると、当該クリックした人の話題毎の発言映像をリストアップして、リストの中から選択されたその人の発言映像を表示出力する。
【0074】
また、記憶情報処理装置1は、表示部に表示している議事録から話題(topic )が、利用者によってクリックされると、当該クリックされた話題について発言している参加者をリストアップし、当該リストの中から参加者が選択されると、当該選択された参加者の発言映像を表示出力する。
【0075】
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0076】
【発明の効果】
請求項1記載の発明の記録情報処理方法によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を前記話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理しているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0077】
請求項2記載の発明の記録情報処理方法によれば、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っているので、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【0078】
請求項3記載の発明の記録情報処理方法によれば、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いているので、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【0079】
請求項4記載の発明の記録情報処理方法によれば、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いているので、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【0080】
請求項5記載の発明の記録情報処理方法によれば、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うので、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【0081】
請求項6記載の発明の記録媒体によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録しているので、当該記録媒体を情報処理装置等に読み取らせることで、記録情報処理装置を構築して、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【0082】
請求項7記載の発明の記録情報処理装置によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項1から請求項5のいずれかに記載の記録情報処理方法を実行するものとしているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の記録情報処理方法、記録媒体及び記録情報処理装置の一実施の形態を適用した記録情報処理装置の概略構成図。
【図2】図1の記録情報処理装置での記録情報処理の流れを示す説明図。
【図3】図1の記録情報処理装置による記録情報処理を示すフローチャート。
【図4】図1の記録情報処理装置を適用した実施例による記録情報処理を示すフローチャート。
【図5】図1の記録情報処理装置を適用した実施例による記録情報取り出しの説明図。
【符号の説明】
1 記録情報処理装置
2 セグメンテーション部
3 重要語抽出部
4 話題特定部
5 結合部
11 記録映像
11a 音声部分
11b 記録映像部分
12 セグメント群
13 議事録
14 重要語
15 セグメント群
Claims (7)
- 複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法であって、前記会話音声に基づいて前記会話映像を前記話者毎に分割する分割処理と、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理と、を行って、前記会話映像を分割処理することを特徴とする記録情報処理方法。
- 前記記録情報処理方法は、前記会話映像の会話を記録した文書情報に基づいて前記話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、前記話題特定処理を行うことを特徴とする請求項1記載の記録情報処理方法。
- 前記会話映像は、複数の参加者が前記話者として参加する会議を撮影記録した会議映像であり、また、前記文書情報は、当該会議の議事録であることを特徴とする請求項1または請求項2記載の記録情報処理方法。
- 前記会話映像は、映画の撮影映像であり、また、前記文書情報は、当該映画のシナリオであることを特徴とする請求項1または請求項2記載の記録情報処理方法。
- 前記記録情報処理方法は、前記分割処理した会話映像に対して、前記話者を検索キーとして、前記話者毎の発言の前記分割映像を検索する話者毎検索処理、前記話題を検索キーとして、前記話題毎の発言の前記分割映像を検索する話題毎検索処理、または、前記話者と前記話題を検索キーとして、前記話者毎の当該話題に関する発言の前記分割映像を検索する話者毎話題毎検索処理のうち、少なくとも1つの検索処理を行うことを特徴とする請求項1から請求項4のいずれかに記載の記録情報処理方法。
- 複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体であって、前記請求項1から請求項5のいずれかに記載の記録情報処理方法のプログラムを記録することを特徴とする記録媒体。
- 複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置であって、前記請求項1から請求項5のいずれかに記載の記録情報処理方法を実行することを特徴とする記録情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002178933A JP2004023661A (ja) | 2002-06-19 | 2002-06-19 | 記録情報処理方法、記録媒体及び記録情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002178933A JP2004023661A (ja) | 2002-06-19 | 2002-06-19 | 記録情報処理方法、記録媒体及び記録情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004023661A true JP2004023661A (ja) | 2004-01-22 |
Family
ID=31176513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002178933A Pending JP2004023661A (ja) | 2002-06-19 | 2002-06-19 | 記録情報処理方法、記録媒体及び記録情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004023661A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008148121A (ja) * | 2006-12-12 | 2008-06-26 | Yahoo Japan Corp | 動画要約自動作成装置、方法、及びコンピュータ・プログラム |
JP2008537627A (ja) * | 2005-03-31 | 2008-09-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複合ニュース・ストーリーの合成 |
EP2320333A2 (en) | 2009-11-06 | 2011-05-11 | Ricoh Company, Ltd. | Comment recording appartus, method, program, and storage medium |
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
JP2016014897A (ja) * | 2015-10-14 | 2016-01-28 | 株式会社東芝 | 音声対話支援装置、方法、およびプログラム |
KR101618084B1 (ko) | 2015-08-31 | 2016-05-04 | 주식회사 제윤 | 회의록 관리 방법 및 그 장치 |
CN106550268A (zh) * | 2016-12-26 | 2017-03-29 | Tcl集团股份有限公司 | 视频处理方法和视频处理装置 |
WO2019148583A1 (zh) * | 2018-02-02 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 一种会议智能管理方法及系统 |
EP3767624A1 (en) * | 2019-07-15 | 2021-01-20 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus for obtaining audio-visual information |
CN113542810A (zh) * | 2021-07-14 | 2021-10-22 | 上海眼控科技股份有限公司 | 一种视频处理方法、装置、电子设备和存储介质 |
-
2002
- 2002-06-19 JP JP2002178933A patent/JP2004023661A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008537627A (ja) * | 2005-03-31 | 2008-09-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複合ニュース・ストーリーの合成 |
JP2008148121A (ja) * | 2006-12-12 | 2008-06-26 | Yahoo Japan Corp | 動画要約自動作成装置、方法、及びコンピュータ・プログラム |
EP2320333A2 (en) | 2009-11-06 | 2011-05-11 | Ricoh Company, Ltd. | Comment recording appartus, method, program, and storage medium |
US8862473B2 (en) | 2009-11-06 | 2014-10-14 | Ricoh Company, Ltd. | Comment recording apparatus, method, program, and storage medium that conduct a voice recognition process on voice data |
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
US8838447B2 (en) | 2012-11-29 | 2014-09-16 | Huawei Technologies Co., Ltd. | Method for classifying voice conference minutes, device, and system |
KR101618084B1 (ko) | 2015-08-31 | 2016-05-04 | 주식회사 제윤 | 회의록 관리 방법 및 그 장치 |
JP2016014897A (ja) * | 2015-10-14 | 2016-01-28 | 株式会社東芝 | 音声対話支援装置、方法、およびプログラム |
CN106550268A (zh) * | 2016-12-26 | 2017-03-29 | Tcl集团股份有限公司 | 视频处理方法和视频处理装置 |
CN106550268B (zh) * | 2016-12-26 | 2020-08-07 | Tcl科技集团股份有限公司 | 视频处理方法和视频处理装置 |
WO2019148583A1 (zh) * | 2018-02-02 | 2019-08-08 | 深圳市鹰硕技术有限公司 | 一种会议智能管理方法及系统 |
EP3767624A1 (en) * | 2019-07-15 | 2021-01-20 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus for obtaining audio-visual information |
CN112312039A (zh) * | 2019-07-15 | 2021-02-02 | 北京小米移动软件有限公司 | 音视频信息获取方法、装置、设备及存储介质 |
US10950272B2 (en) | 2019-07-15 | 2021-03-16 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus for obtaining audio-visual information, device, and storage medium |
CN113542810A (zh) * | 2021-07-14 | 2021-10-22 | 上海眼控科技股份有限公司 | 一种视频处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8281230B2 (en) | Techniques for storing multimedia information with source documents | |
US10034028B2 (en) | Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs | |
US8805929B2 (en) | Event-driven annotation techniques | |
US20050228665A1 (en) | Metadata preparing device, preparing method therefor and retrieving device | |
JP4175390B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
US20050114357A1 (en) | Collaborative media indexing system and method | |
US20020051077A1 (en) | Videoabstracts: a system for generating video summaries | |
US20070136755A1 (en) | Video content viewing support system and method | |
JP2001256335A (ja) | 会議記録システム | |
JP3895892B2 (ja) | マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体 | |
JP5206553B2 (ja) | 閲覧システム、方法、およびプログラム | |
JP2005341015A (ja) | 議事録作成支援機能を有するテレビ会議システム | |
JP2002207753A (ja) | マルチメディア情報記録作成提供システム | |
JP4192703B2 (ja) | コンテンツ処理装置、コンテンツ処理方法及びプログラム | |
JP2004023661A (ja) | 記録情報処理方法、記録媒体及び記録情報処理装置 | |
JP3781715B2 (ja) | メタデータ制作装置及び検索装置 | |
JP2012053855A (ja) | コンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラム | |
KR101783872B1 (ko) | 동영상 검색 시스템 및 방법 | |
Amir et al. | Automatic generation of conference video proceedings | |
US8055648B2 (en) | Managing information related to communication | |
JP7133367B2 (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム | |
JP2005267278A (ja) | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム | |
JP7316987B2 (ja) | ワークショップにおけるボードの映像再生装置、オンライン/オンサイトボードシステム、プログラム及び方法 | |
JP2002324071A (ja) | コンテンツ検索システム、コンテンツ検索方法 | |
JPH08235209A (ja) | マルチメディア情報処理装置 |