JP2004023661A

JP2004023661A - 記録情報処理方法、記録媒体及び記録情報処理装置

Info

Publication number: JP2004023661A
Application number: JP2002178933A
Authority: JP
Inventors: Gyoubi Kan; カン　ギョウビ; Atsushi Iizawa; 飯沢　篤志; Masayuki Kameda; 亀田　雅之
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-06-19
Filing date: 2002-06-19
Publication date: 2004-01-22

Abstract

【課題】本発明は複数の話者の会話を撮影記録した会話音声を含む会話映像を話題毎、話者毎に分割処理する記録情報処理方法、記録媒体及び記録情報処理装置を提供する。
【解決手段】記録情報処理装置１は、セグメンテーション部２で、複数の話者の会話を撮影記録した会話映像１１を会話音声部分１１ａに基づいて話者毎に分割し、重要語抽出部３で、議事録１３から話題毎の重要語を抽出する。話題特定部４が、話者で分割されている記録映像のセグメント群１２を、議事録１３の話題毎の重要語１４に基づいて、話題の特定されている記録映像１１のセグメント群１５を特定して結合部５に出力し、結合部５が、話題の特定されている記録映像１１のセグメント群１５の各セグメントを、同じ話者の同じ話題に関する記録映像１１のセグメントについて、時間軸に沿って結合する。
【選択図】　　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、記録情報処理方法、記録媒体及び記録情報処理装置に関し、詳細には、複数の話者の会話を撮影記録した会話音声を含む会話映像を話題毎、話者毎に分割処理する記録情報処理方法、記録媒体及び記録情報処理装置に関する。
【０００２】
【従来の技術】
ビデオ機器および記録装置の普及と低価格化に伴い、オフィスにおける会議の風景を音声を含む映像に記録したり、音声のみを記録することが容易になりつつある。このような音声を含む映像や音声は、単に記録として残すだけでなく、未参加者による会議内容の確認や参加者による会議内容の再確認等にも、再利用価値が大きい。
【０００３】
しかし、音声を含む映像や記録音声は時間軸に沿って１次元的に記録されているため、見たいまたは聞きたい内容を見つけるのが容易ではない。
【０００４】
そこで、各参加者の話題毎の発言映像や音声を抽出し、記録映像や音声の多種多様なビューを提供することによって、効率よく記録情報を再利用する要望が大きい。
【０００５】
そして、従来、映像のシーンの自動抽出に関する技術は、数多く提案されているが、そのほとんどの技術は、カメラワーク情報を利用したり、フレーム間の画像類似度を利用したり、さらに、テロップ情報と組み合わせして利用したりすることによって映像のシーンの自動抽出を行っている。
【０００６】
このような画像処理技術をベースにする映像シーン自動抽出は、意味的に映像を解析しているわけではないため、「○○さんが××について話しているシーン」といった意味的なまとまりとなる映像のシーンを抽出することが困難である。
【０００７】
これに対して、従来、音声処理技術と自然言語処理技術を導入した映像シーン自動抽出の方式が幾つか提案されている。この方式では、まず、映像の音声部分に音声ディクテーションをかけて、テキスト文書を取得し、このテキスト文書に対して、自然言語処理をかけて、なんらかの意味的なまとまりでセグメンテーションを行う。最後に、これらのセグメントと映像の同期をとり、映像の意味的なシーン抽出を実現しようとしている。
【０００８】
ところが、一般的には、音声ディクテーションの精度が低く、さらに、自然言語処理をかけセグメンテーションを行うと、結果として、十分な精度を得ることができないという問題があった。
【０００９】
そして、従来、会議の音声または映像記録に、話者特定処理をかけて、音声または映像を話者でセグメンテーションし、利用者が、視覚化されたセグメンテーション結果から再生したい音声または映像のセグメントを指定して、再生することで、指定したセグメントと類似したセグメントを表示する会議情報記録再生装置が提案されている（特開平１１−５３３８５号公報参照）。
【００１０】
また、従来、議事録作成およびモニタを通して会議を視聴することを目的として、会議の映像および音声を話者毎でセグメンテーションして記憶し、利用の際には、話者の音声を用いて話者検索を行って、該当話者の映像及び対応する音声セグメントを出力し、また、該当話者がない場合、標準映像を出力する情報処理装置及び情報処理方法が提案されている（特開平１０−２７１４３０号公報参照）。
【００１１】
さらに、複数台のカメラからの会議中の複数人の動きを記録する映像から、話者と参加者を最もよく示すカメラの撮った映像を選定するに際して、画像処理を用いて、大半の参加者が見ている人（話者）を特定し、さらに、音声処理を用いて、話者を特定し、話者と参加者を最もよく示すカメラの撮った映像を選定してデータベースにアーカイブする情報処理装置が提案されている（特開２０００−３５２９９６号公報参照）。
【００１２】
【発明が解決しようとする課題】
そこで、本発明は、会議のような複数の話者が交代に発言するという活動の記録映像や音声を、自然言語処理における重要文抽出技術、音声処理における話者特定と音声ｇｒｅｐ技術を利用して解析し、各々の話者が活動中における話題毎の発言映像や音声を自動的に抽出して、記録情報の再利用性を向上させる記録情報処理方法、記録媒体及び記録情報処理装置を提供することを目的としている。
【００１３】
しかしながら、このような従来の技術にあっては、会議のような複数の話者が交代に発言するという活動の記録映像や音声を解析し、各々の話者が活動中における話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【００１４】
すなわち、特開平１１−５３３８５号公報及び特開平１０−２７１４３０号公報記載の従来技術にあっては、話者で映像をセグメンテーションしているが、話題の特定を行っていないため、話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【００１５】
また、特開２０００−３５２９９６号公報記載の従来技術にあっては、話者特定技術を利用しているが、映像の選別を行うのみであり、意味的にセグメンテーションしておらず、話題毎の発言映像や音声を適切に抽出するうえで、改良の必要があった。
【００１６】
さらに、従来、Ｊ．Ｂｏｒｅｃｚｋｙ，Ａ．Ｇｉｒｇｅｎｅｓｏｈｎ，Ｇ．Ｇｏｌｏｖｃｈｉｎｓｋｙ，ａｎｄ　Ｓ．Ｕｃｈｉｈａｓｉ：Ａｎ　Ｉｎｔｅｒａｃｔｉｖｅ　Ｃｏｍｉｃ　Ｂｏｏｋ　Ｐｒｅｓｅｎｔａｔｉｏｎ　ｆｏｒ　Ｅｘｐｌｏｒｉｎｇ　Ｖｉｄｉｏ，ＣＨＩ　２０００：１８５−１９２，２０００　に示されているように、種々の研究が行われているが、いずれも重要シーンの抽出を階層クラスタリングを用いて行ってはいるが、重要度をシーンの長さなど物理的な情報をベースに算出しているため、発言者を特定できないだけでなく、話題を特定することができないという問題があった。
【００１７】
具体的には、請求項１記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理することにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【００１８】
請求項２記載の発明は、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行うことにより、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出し、記録情報の再利用性をより一層向上させることのできる記録情報処理方法を提供することを目的としている。
【００１９】
請求項３記載の発明は、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いることにより、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出し、会議の記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【００２０】
請求項４記載の発明は、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いることにより、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出し、映画の記録情報の再利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【００２１】
請求項５記載の発明は、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行うことにより、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出し、より一層利用性を向上させることのできる記録情報処理方法を提供することを目的としている。
【００２２】
請求項６記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項１から請求項５のいずれかに記載の記録情報処理方法のプログラムを記録することにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理方法のプログラムを記録した記録媒体を提供することを目的としている。
【００２３】
請求項７記載の発明は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項１から請求項５のいずれかに記載の記録情報処理方法を実行するものとすることにより、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出し、記録情報の再利用性を向上させることのできる記録情報処理装置を提供することを目的としている。
【００２４】
【課題を解決するための手段】
請求項１記載の発明の記録情報処理方法は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法であって、前記会話音声に基づいて前記会話映像を前記話者毎に分割する分割処理と、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理と、を行って、前記会話映像を分割処理することにより、上記目的を達成している。
【００２５】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を前記話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理しているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【００２６】
この場合、例えば、請求項２に記載するように、前記記録情報処理方法は、前記会話映像の会話を記録した文書情報に基づいて前記話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、前記話題特定処理を行ってもよい。
【００２７】
上記構成によれば、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っているので、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【００２８】
また、例えば、請求項３に記載するように、前記会話映像は、複数の参加者が前記話者として参加する会議を撮影記録した会議映像であり、また、前記文書情報は、当該会議の議事録であってもよい。
【００２９】
上記構成によれば、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いているので、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【００３０】
さらに、例えば、請求項４に記載するように、前記会話映像は、映画の撮影映像であり、また、前記文書情報は、当該映画のシナリオであってもよい。
【００３１】
上記構成によれば、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いているので、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【００３２】
また、例えば、請求項５に記載するように、前記記録情報処理方法は、前記分割処理した会話映像に対して、前記話者を検索キーとして、前記話者毎の発言の前記分割映像を検索する話者毎検索処理、前記話題を検索キーとして、前記話題毎の発言の前記分割映像を検索する話題毎検索処理、または、前記話者と前記話題を検索キーとして、前記話者毎の当該話題に関する発言の前記分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行ってもよい。
【００３３】
上記構成によれば、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行うので、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【００３４】
請求項６記載の発明の記録媒体は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体であって、前記請求項１から請求項５のいずれかに記載の記録情報処理方法のプログラムを記録することにより、上記目的を達成している。
【００３５】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項１から請求項５のいずれかに記載の記録情報処理方法のプログラムを記録しているので、当該記録媒体を情報処理装置等に読み取らせることで、記録情報処理装置を構築して、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【００３６】
請求項７記載の発明の記録情報処理装置は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置であって、前記請求項１から請求項５のいずれかに記載の記録情報処理方法を実行することにより、上記目的を達成している。
【００３７】
上記構成によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項１から請求項５のいずれかに記載の記録情報処理方法を実行するものとしているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【００３８】
【発明の実施の形態】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【００３９】
図１〜図３は、本発明の情報処理方式及び情報処理装置の一実施の形態を示す図である。
【００４０】
図１は、本発明の記録情報処理方法、記録媒体及び記録情報処理装置の一実施の形態を適用した記録情報処理装置１の概略構成図である。
【００４１】
図１において、記録情報処理装置１は、コンピュータ等の情報処理装置に記録情報処理方法のプログラムの記録されているＣＤ−ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ　）等の記録媒体を読み取らせることで、構築され、セグメンテーション部２、重要語抽出部３、話題特定部４及び結合部５等を備えている。
【００４２】
セグメンテーション部２には、記録音声を含む記録映像１１または単独の記録音声（図示略）が入力され、セグメンテーション部２は、まず、記録映像１１の音声部分１１ａまたは記録音声そのものに話者特定処理を施して、記録映像１１の音声部分１１ａまたは記録音声を話者でｓｅｇｍｅｎｔａｔｉｏｎ（細分化）する分割処理を行う。セグメンテーション部２は、入力が記録映像１１であるときには、音声部分１１ａの話者でセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）されたｓｅｇｍｅｎｔ（細分化された部分）に合わせって、記録映像部分１１ｂも話者でセグメンテーションする。セグメンテーション部２は、記録映像１１の音声部分１１ａと記録映像部分１１ｂまたは記録音声をセグメンテーションしたセグメント群１２を話者特定部４に出力する。
【００４３】
重要語抽出部３には、文書化された議事録（文書情報）１３が入力され、この議事録１３は、人手で作成されていてもよいし、人手で作成されたものと同等の精度を有する機械的に作成されているものであってもよい。要は、会議等の議事録１３として適切に文書として作成されているものであればよい。
【００４４】
重要語抽出部３は、入力された文書化された議事録１３から話題（ｔｏｐｉｃ　）毎の重要語を抽出する話題語抽出処理を行い、抽出した重要語１４を話題特定部４に出力する。重要語抽出部３は、重要語１４の抽出に際して、例えば、文書化されている議事録１３に対して形態素解析を行った上で、話題毎の重要語１４を抽出するが、話題の設定に対しては、なんらの限定を加えない。例えば、重要語抽出部３は、議事録１３の本文中の箇条書き部分の各箇条、または、各パラグラフ等がを用いて重要語１４を抽出し、さらに、話題に、階層を持たせたり、クラスタリングをかけたりすることで重要語１４を抽出する。
【００４５】
話題特定部４は、セグメンテーション部２から入力される話者でｓｅｇｍｅｎｔａｔｉｏｎされている記録映像または記録音声のセグメント群（ｓｅｇｍｅｎｔ　群）１２を、重要語抽出部３から入力される議事録１３の話題毎の重要語１４に基づいて、話題の特定されている記録映像１１または記録音声のセグメント群１５を特定する話題特定処理を行い、結合部５に出力する。
【００４６】
すなわち、話題特定部４は、重要語抽出部３によって抽出された話題毎の重要語１４を用いて、記録映像１１の音声部分または記録音声の個々のセグメント群（ｓｅｇｍｅｎｔ群　）１２に対して、音声ｇｒｅｐ（音声検索）をかけ、ヒット（一致）したセグメント（ｓｅｇｍｅｎｔ　）を、その話題に関するセグメント（ｓｅｇｍｅｎｔ　）とする。この際、話題特定部４は、話題特定の精度を向上させるために、同じ話題に含まれる複数の重要語１４で検索（ｇｒｅｐ）する。
【００４７】
結合部５は、話題特定部４から入力される話題の特定されている記録映像１１または記録音声のセグメント群１５の各セグメント（ｓｅｇｍｅｎｔ　）を、同じ話者の同じ話題に関する記録映像１１または記録音声のセグメント（ｓｅｇｍｅｎｔ　）について、時間軸に沿って結合する。このとき、結合部５は、話者を特定する話者ＩＤ及び話題を特定する話題ＩＤをインデックスとして付与し、結合した記録映像１１または記録音声があまりにも長い場合には、そのダイジェストを生成する。このダイジェストの作成方式は、何ら限定されるものではなく、種々の方法を用いることができ、例えば、単純に一定間隔で１部分のフレームをカットする方法等を用いる。
【００４８】
次に、本実施の形態の作用を説明する。本実施の形態の記録情報処理装置１は、会議のような複数の話者が交代に発言するという活動の音声部分を含む記録映像や記録音声を、自然言語処理における重要文抽出技術、音声処理における話者特定と音声検索（ｇｒｅｐ）技術を利用して解析し、各々の話者の活動中における話題毎の発言映像や音声を自動的に抽出する。なお、以下の説明では、図１と同様のものについては、同一の符号を付して説明する。
【００４９】
いま、図２に示すように、元データとして、会議における会議映像である記録映像１１（音声部分１１ａと記録映像部分１１ｂを含む）または図示しない記録音声と文書化されている活動の議事録１３を用い、各話者の話題毎の発言映像や音声を自動的に抽出するものとする。
【００５０】
記録情報処理装置１は、まず、記録映像１１の音声部分１１ａと記録映像部分１１ｂまたは記録音声を話者毎に分割するセグメンテーション処理をセグメンテーション部２で行う。
【００５１】
すなわち、記録情報処理装置１は、図３に示すように、抽出対象の記録情報が、映像か音声かをチェックし（ステップＳ１０１）、記録情報が映像、すなわち、記録映像１１であると、セグメンテーション部２が、記録映像１１の音声部分１１ａに音声処理技術における話者特定処理を行い、特定した話者毎に音声部分１１ａを分割して細分化（セグメンテーション：ｓｅｇｍｅｎｔａｔｉｏｎ）するセグメンテーション処理（分割処理）を行う（ステップＳ１０２）。このとき、セグメンテーション部２は、例えば、同時に複数の参加者が発言したり、誰も発言しなかったりして、話者を特定することのできない音声部分１１ａの当該部分を無視する。
【００５２】
この音声部分１１ａのセグメント（ｓｅｇｍｅｎｔ）に合わせて記録映像部分１１ｂを話者でセグメンテーションして、セグメンテーションした記録映像１１のセグメント群１２を話者特定部４に出力する（ステップＳ１０３）。
【００５３】
また、ステップＳ１０１で、抽出対象の記録情報が音声（音声のみ）であると、当該記録音声に音声処理技術における話者特定処理を行い、特定した話者毎に記録音声をセグメンテーションするセグメンテーション処理を行って、セグメンテーションした記録音声のセグメント群を話者特定部４に出力する（ステップＳ１０４）。このとき、セグメンテーション部２は、例えば、同時に複数の参加者が発言したり、誰も発言しなかったりして、話者を特定することのできない記録音声の当該部分を無視する。
【００５４】
次に、重要語抽出部３が、文書化された議事録１３に対して、自然語処理、例えば、形態素解析を施して話題（ｔｏｐｉｃ　）毎に重要語を抽出する話題語抽出処理を行い、抽出した重要語１４を話題特定部４に出力する（ステップＳ１０５）。
【００５５】
次に、話題特定部４が、、セグメンテーション部２から入力される話者でセグメンテーションされている記録映像１１または記録音声のセグメント群１２を、重要語抽出部３から入力される議事録１３の話題毎の重要語１４に基づいて、話題の特定されている記録映像１１または記録音声のセグメント群１５を特定する特定処理を施して結合部５に出力する（ステップＳ１０６）。
【００５６】
最後に、結合部５が、話題特定部４から入力される話題の特定されている記録映像１１または記録音声のセグメント群１５の各セグメント（ｓｅｇｍｅｎｔ　）を、同じ話者の同じ話題に関する記録映像１１または記録音声のセグメント（ｓｅｇｍｅｎｔ　）について、時間軸に沿って結合する結合処理を施す（ステップＳ１０７）。このとき、結合部５は、上述のように、話者を特定する話者ＩＤ及び話題を特定する話題ＩＤをインデックスとして付与し、結合した記録映像１１または記録音声があまりにも長い場合には、そのダイジェストを生成する。このダイジェストの作成方式は、何ら限定されるものではなく、種々の方法を用いることができ、例えば、単純に一定間隔で１部分のフレームをカットする方法等を用いる。
【００５７】
そして、記録情報処理装置１は、分割処理した会話映像に対して、話者を検索キーとして、すなわち、話者ＩＤに基づいて、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、すなわち、話題ＩＤに基づいて、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、すなわち、話者ＩＤと話題ＩＤに基づいて、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行い、検索結果の映像をディスプレイ等に表示出力するとともに、スピーカから当該検索結果の映像の音声部分を拡声出力する。
【００５８】
このように、本実施の形態の記録情報処理装置１は、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理している。
【００５９】
したがって、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【００６０】
また、本実施の形態の記録情報処理装置１は、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っている。
【００６１】
したがって、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【００６２】
さらに、本実施の形態の記録情報処理装置１は、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いている。
【００６３】
したがって、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【００６４】
また、本実施の形態の記録情報処理装置１において、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いると、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【００６５】
そして、本実施の形態の記録情報処理装置１は、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行っている。
【００６６】
したがって、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【００６７】
【実施例】
上記実施の形態の記録情報処理装置１を用いて、オフィスにおける会議の記録映像（音声）を処理対象として、会議の各参加者の話題毎の発言映像を抽出し、文書化された議事録をインディクスとして、記録情報処理装置１の利用者に、情報提供を行う場合について説明する。
【００６８】
記録情報処理装置１は、図４に示すように、セグメンテーション部２で、会議の記録映像の音声部分に話者特定処理を行って、音声部分を話者でセグメンテーション（ｓｅｇｍｅｎｔａｔｉｏｎ）し（ステップＳ２０１）、この音声部分のセグメント（ｓｅｇｍｅｎｔ）に合わせって、記録映像部分も話者でセグメンテーションして、話題特定部４に出力する（ステップＳ２０２）。
【００６９】
一方、重要語抽出部３で、文章化されている会議の議事録に自然言語処理を施し、各箇条書きを１つの話題と見なして、話題毎に重要語を抽出して話題特定部４に出力する（ステップＳ２０３）。
【００７０】
話題特定部４が、重要語抽出部３から入力される各話題の重要語を用いて、セグメンテーション部２から入力される映像のセグメント毎に音声検索（ｇｒｅｐ）を行って、例えば、同じ話題の一定以上（例えば、半数以上）の重要語にヒットするセグメントが、その話題に関するセグメントであると判定し、話題毎のセグメントを特定して、結合部５に出力する（ステップＳ２０４）。
【００７１】
最後に、結合部５が、同じ参加者の同じ話題に関するセグメントを時間軸に沿って結合し、例えば、参加者ＩＤ、話題ＩＤの２元組みをインデックスとしてつけて、内部メモリ等に保存する（ステップＳ２０５）。
【００７２】
そして、記録情報処理装置１は、図５に示すように、文書化された議事録に記述されている参加者の名前から、各参加者の発言映像を話題毎にアクセスできるようなハイパーリングからなるＨＴＭＬページを作成し、また、文書化された議事録に記述されている各箇条書きから、話題毎に参加者の発言映像をアクセスできるようなハイパーリングからなるＨＴＭＬページを作成して、メモリに保存する。
【００７３】
この状態で、記録情報処理装置１は、図５に示すように、表示部（ディスプレイ）に議事録を表示し、記録情報処理装置１の利用者が、各参加者の名前をクリックすると、当該クリックした人の話題毎の発言映像をリストアップして、リストの中から選択されたその人の発言映像を表示出力する。
【００７４】
また、記憶情報処理装置１は、表示部に表示している議事録から話題（ｔｏｐｉｃ　）が、利用者によってクリックされると、当該クリックされた話題について発言している参加者をリストアップし、当該リストの中から参加者が選択されると、当該選択された参加者の発言映像を表示出力する。
【００７５】
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【００７６】
【発明の効果】
請求項１記載の発明の記録情報処理方法によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理するに際して、会話音声に基づいて会話映像を前記話者毎に分割する分割処理を行い、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理を行って、会話映像を分割処理しているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【００７７】
請求項２記載の発明の記録情報処理方法によれば、会話映像の会話を記録した文書情報に基づいて話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、話題特定処理を行っているので、話題語を適切かつ容易に抽出して、音声を含む記録映像から各話者の話題毎の発言映像を適切に自動的に抽出することができ、記録情報の再利用性をより一層向上させることができる。
【００７８】
請求項３記載の発明の記録情報処理方法によれば、会話映像として、複数の参加者が話者として参加する会議を撮影記録した会議映像を用い、また、文書情報として、当該会議の議事録を用いているので、複数の参加者が交代で発言する会議の音声を含む会議映像から各参加者の話題毎の発言映像を自動的に抽出することができ、会議の記録情報の再利用性を向上させることができる。
【００７９】
請求項４記載の発明の記録情報処理方法によれば、会話映像として、映画の撮影映像を用い、また、文書情報として、当該映画のシナリオを用いているので、複数の役者が交代で演じる映画の音声を含む撮影映像から各役者の話題毎の映像を自動的に抽出することができ、映画の記録情報の再利用性を向上させることができる。
【００８０】
請求項５記載の発明の記録情報処理方法によれば、分割処理した会話映像に対して、話者を検索キーとして、話者毎の発言の分割映像を検索する話者毎検索処理、話題を検索キーとして、話題毎の発言の分割映像を検索する話題毎検索処理、または、話者と話題を検索キーとして、話者毎の当該話題に関する発言の分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行うので、会話映像から話者毎、話題毎等の分割映像を簡単かつ容易に抽出して取り出すことができ、より一層利用性を向上させることができる。
【００８１】
請求項６記載の発明の記録媒体によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体に、請求項１から請求項５のいずれかに記載の記録情報処理方法のプログラムを記録しているので、当該記録媒体を情報処理装置等に読み取らせることで、記録情報処理装置を構築して、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【００８２】
請求項７記載の発明の記録情報処理装置によれば、複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置を、請求項１から請求項５のいずれかに記載の記録情報処理方法を実行するものとしているので、複数の話者が交代に発言するような活動の音声を含む記録映像から各話者の話題毎の発言映像を自動的に抽出することができ、記録情報の再利用性を向上させることができる。
【図面の簡単な説明】
【図１】本発明の記録情報処理方法、記録媒体及び記録情報処理装置の一実施の形態を適用した記録情報処理装置の概略構成図。
【図２】図１の記録情報処理装置での記録情報処理の流れを示す説明図。
【図３】図１の記録情報処理装置による記録情報処理を示すフローチャート。
【図４】図１の記録情報処理装置を適用した実施例による記録情報処理を示すフローチャート。
【図５】図１の記録情報処理装置を適用した実施例による記録情報取り出しの説明図。
【符号の説明】
１　記録情報処理装置
２　セグメンテーション部
３　重要語抽出部
４　話題特定部
５　結合部
１１　記録映像
１１ａ　音声部分
１１ｂ　記録映像部分
１２　セグメント群
１３　議事録
１４　重要語
１５　セグメント群

Claims

複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法であって、前記会話音声に基づいて前記会話映像を前記話者毎に分割する分割処理と、当該話者毎の会話映像を当該話者の会話音声に話題語が含まれているか否かで話題毎に特定する話題特定処理と、を行って、前記会話映像を分割処理することを特徴とする記録情報処理方法。
前記記録情報処理方法は、前記会話映像の会話を記録した文書情報に基づいて前記話題語を抽出する話題語抽出処理を行い、当該話題語抽出処理で抽出した話題語に基づいて、前記話題特定処理を行うことを特徴とする請求項１記載の記録情報処理方法。
前記会話映像は、複数の参加者が前記話者として参加する会議を撮影記録した会議映像であり、また、前記文書情報は、当該会議の議事録であることを特徴とする請求項１または請求項２記載の記録情報処理方法。
前記会話映像は、映画の撮影映像であり、また、前記文書情報は、当該映画のシナリオであることを特徴とする請求項１または請求項２記載の記録情報処理方法。
前記記録情報処理方法は、前記分割処理した会話映像に対して、前記話者を検索キーとして、前記話者毎の発言の前記分割映像を検索する話者毎検索処理、前記話題を検索キーとして、前記話題毎の発言の前記分割映像を検索する話題毎検索処理、または、前記話者と前記話題を検索キーとして、前記話者毎の当該話題に関する発言の前記分割映像を検索する話者毎話題毎検索処理のうち、少なくとも１つの検索処理を行うことを特徴とする請求項１から請求項４のいずれかに記載の記録情報処理方法。
複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理方法のプログラムを記録する記録媒体であって、前記請求項１から請求項５のいずれかに記載の記録情報処理方法のプログラムを記録することを特徴とする記録媒体。
複数の話者の会話を撮影記録した会話音声を含む会話映像を処理する記録情報処理装置であって、前記請求項１から請求項５のいずれかに記載の記録情報処理方法を実行することを特徴とする記録情報処理装置。