JP2010108296A - 情報処理装置、情報処理方法 - Google Patents

情報処理装置、情報処理方法 Download PDF

Info

Publication number
JP2010108296A
JP2010108296A JP2008280267A JP2008280267A JP2010108296A JP 2010108296 A JP2010108296 A JP 2010108296A JP 2008280267 A JP2008280267 A JP 2008280267A JP 2008280267 A JP2008280267 A JP 2008280267A JP 2010108296 A JP2010108296 A JP 2010108296A
Authority
JP
Japan
Prior art keywords
information
character
embedding
embedded
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008280267A
Other languages
English (en)
Inventor
Takami Eguchi
貴巳 江口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008280267A priority Critical patent/JP2010108296A/ja
Publication of JP2010108296A publication Critical patent/JP2010108296A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 音声情報が記録された文書において所望の文字列を指定することで、指定した文字列に対応する音声をより簡便に検索する。
【解決手段】発話内容を示す音声情報と、発話中の各タイミングにおける時刻を示す時刻情報とを取得する。音声情報に対応する発話内容を文字列として記した文書情報を作成し、文字列を構成する文字に対して、文字の発話時刻を特定するための情報を埋め込み情報として埋め込み、出力する。埋め込み方法としては、文字列を複数の分割文字列に分割した場合に、先頭グループ中の先頭文字の発話時刻を先頭グループ中の文字に埋め込む。また、後続グループ中の先頭文字の発話時刻と先頭グループ中の先頭文字の発話時刻との差分情報を後続グループ中の文字に埋め込む。
【選択図】 図1

Description

本発明は、音声情報に基づいて、検索用の文書情報を生成するための技術に関するものである。
会議や講義を記録した動画や録音物から会議の議事録や講義の講義録を作成することがよく行われる。議事録は通常会議の要約文書であり、講義録は講義のほぼ全文が掲載される。その際、元の動画・音声と議事録・講義録を関連付けるために、動画・音声から、その音声の波形データや時刻情報を印字し、その内容を反映した文書を生成する技術が開示されている。
特開2006−295606号公報
従来技術では、録音された音声を書き起こした文書中の、特定部分に対応する音声を再生しようとすると、その特定部分の録音音声中の時刻を推定し、該当すると思われる箇所の音声を確認しながら探すことが必要であり、効率的に検索する方法がなかった。
本発明は以上の問題に鑑みてなされたものであり、音声情報が記録された文書において所望の文字列を指定することで、指定した文字列に対応する音声をより簡便に検索する為の技術を提供することを目的とする。
本発明の目的を達成するために、例えば、本発明の情報処理装置は以下の構成を備える。
すなわち、発話内容を示す音声情報と、当該発話中の各タイミングにおける時刻を示す時刻情報とを取得する手段と、
前記音声情報に対応する前記発話内容を文字列として記した文書情報を取得する手段と、
前記文字列における文字に対して、当該文字の発話時刻を特定するための情報を埋め込み情報として埋め込む埋め込み手段と、
前記埋め込み手段により前記埋め込み情報が埋め込まれた文書情報を出力する文書出力手段と
を備え、
前記埋め込み手段は、
前記文字列を複数の分割文字列に分割した場合に、それぞれの分割文字列について、
1つの分割文字列を、1つの埋め込み情報を埋め込む為に用いる文字のグループ単位で分割した場合の先頭グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻を示す情報を前記埋め込み情報として前記先頭グループ中の文字に埋め込む第1の手段と、
前記先頭グループに後続するグループである後続グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻と前記第1の手段が求めた発話時刻との差分情報を前記埋め込み情報として前記後続グループ中の文字に埋め込む第2の手段と
を備えることを特徴とする。
本発明の目的を達成するために、例えば、本発明の情報処理方法は以下の構成を備える。
すなわち、発話内容を示す音声情報と、当該発話中の各タイミングにおける時刻を示す時刻情報とを取得する工程と、
前記音声情報に対応する前記発話内容を文字列として記した文書情報を取得する工程と、
前記文字列における文字に対して、当該文字の発話時刻を特定するための情報を埋め込み情報として埋め込む埋め込み工程と、
前記埋め込み工程で前記埋め込み情報が埋め込まれた文書情報を出力する文書出力工程と
を備え、
前記埋め込み工程は、
前記文字列を複数の分割文字列に分割した場合に、それぞれの分割文字列について、
1つの分割文字列を、1つの埋め込み情報を埋め込む為に用いる文字のグループ単位で分割した場合の先頭グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻を示す情報を前記埋め込み情報として前記先頭グループ中の文字に埋め込む第1の工程と、
前記先頭グループに後続するグループである後続グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻と前記第1の工程で求めた発話時刻との差分情報を前記埋め込み情報として前記後続グループ中の文字に埋め込む第2の工程と
を備えることを特徴とする。
本発明によれば、音声情報が記録された文書において所望の文字列を指定することで、指定した文字列に対応する音声をより簡便に検索することができる。
以下、本発明における好適な実施形態を、図面を用いて詳細に説明する。
<第1の実施形態>
まず、本実施形態における、時刻情報が埋め込み情報として埋め込まれた文書を生成する、文書作成装置について説明する。図1は本実施形態における文書作成装置(情報処理装置)の主要な機能構成を示すブロック図である。
本実施形態に係る文書作成装置は、動画像データや音声データから、時刻情報が埋め込み情報として埋め込まれた文書を生成する装置であり、係る目的のためにこの文書作成装置は次のような構成を有する。即ち、本実施形態に係る文書作成装置は、動画・音声入力部102、文字列・時刻情報取得部103、文書生成部104、透かし情報埋め込み部105、文書出力部106を有する。
動画・音声入力部102は、音声データを含む動画データ(動画像情報)又は音声データといった、少なくとも発話内容を示す音声情報を含むデータ101から音声データを取得する。
文字列・時刻情報取得部103は、データ101に含まれている時刻情報を取得する。時刻情報とは、音声データが示す発話開始の時刻から定期的(例えば1秒毎)に計時した時刻を示す情報であり、発話中の各タイミングにおける時刻を示す。更に文字列・時刻情報取得部103は、動画・音声入力部102が取得した音声データに対応する発話内容を示す文字列を取得する。
文書生成部104は、文字列・時刻情報取得部103により取得された文字列を記した文書データを作成する。更に文書生成部104は、この文書データ中の各文字について、その文字が発話された時刻(絶対時刻)を、上記時刻情報を用いて特定し、その文字に関連付けて管理する。
透かし情報埋め込み部105は、文書生成部104が生成した文書データ中の文字に対して、その文字の発話時刻を特定するための時刻情報を埋め込み情報として埋め込む。
文書出力部106は、電子透かし埋め込み部105により埋め込み情報が埋め込まれた時刻情報含有文書107(図1では議事録、講義録)として出力する。
次に、図1に示した各部の動作について、図3のフローチャートを用いて説明する。図3は、文書データ中の文字に対してその文字に対応する時刻情報を埋め込んで出力する処理のフローチャートである。
まずステップS301では、動画・音声入力部102は、音声データを含む動画データ又は音声データといった、少なくとも音声情報を含むデータ101から音声データを取得する。ここでの音声データは、音波からなる現実の音声をA/D変換した結果としてのデータであってもよいし、サーバ等からダウンロードされたり放送局から放送されたりするストリーミング形式のデータであってもよい。また、ファイルやCD・DVDなどの記録媒体に格納されたデータであってもよい。また、音声を書き起こした文字列と、その文字列に対応する動画又は音声中の部分に対応する時刻情報と、それらを関連付けるデータとを入力することもできる。また、ユーザが入力する、動画又は音声の作成時刻、作成者その他の関連情報を取得することもできるし、既にデータ化されている動画又は音声を取得する場合には、そのヘッダ情報を取得することもできる。
次にステップS302では、文字列・時刻情報取得部103は、データ101に含まれている、上述の時刻情報を取得すると共に、動画・音声入力部102が取得した音声データに対して音声認識処理を行い、その発話内容を示す文字列を生成する。ここでの音声認識は、音声を分割し、その中に含まれる音声の特徴量を認識辞書と比較し、対応する文字コードを取得することを指す。あるいは、動画に付与されたクローズドキャプション情報や字幕情報から、時刻情報と共に文字列を取得してもよい。

次にステップS303では、文書生成部104は、ステップS302で得たそれぞれの文字コードに対応する文字を並べた文字列を生成し、漢字変換、整形等の文書形成操作を施し、文書情報を生成する。更に文書生成部104は、この文書データ中の各文字について、その文字が発話された時刻(絶対時刻)を、上記時刻情報を用いて特定し、その文字に関連付けて管理する。
ここで、以降の処理では、この文書情報に対して埋め込み情報を埋め込むのであるが、以下に埋め込み技術について説明する。
電子透かしとは、文書に対して、通常見ただけでは知得されない形で情報を埋め込む技術であり、情報の埋め込み方法には様々な方法がある。本実施形態では、第1の埋め込み手段として文字間の距離を制御することで埋め込み情報を埋め込む方法(方式1)を用いる。また、第2の埋め込み手段として1つ1つの文字の属性を変化させて情報を埋め込む例として文字にパターンを重畳する方法(方式2)を用いる。
<方式1:文字の間隔を操作する方法>
文字の間隔を操作することで埋め込み情報を埋め込む方法について図17と図18を用いて説明する。図17は、埋め込み情報を埋め込む前の文書情報の一部を示す図である。図18は、図17に示した文書情報の一部に対して埋め込み情報を埋め込んだ後の文書情報の一部を示す図である。
図17に示される各文字間の空白長P0、S0、P1、S1は、埋め込み情報が埋め込まれると、図18に示される各文字間の空白長P0’、S0’、P1’、S1’となる。図17及び図18では、文字が5文字、文字間の空白が4つある。本実施形態では、1ビットに対して2つの空白長を割り当てることから、4つの空白によって2ビットの情報を埋め込むことが可能である。例えば、P>Sが「1」を表し、P<Sが「0」を表すとする。ここで、図9におけるP0とS0との間の「子」という文字を左に、P1とS1との間の「か」という文字を左にシフトしたとする。すると、図10に示す如く、P0’<S0’、P1’<S1’となり、00というビット列がこれらの空白に埋め込まれたことになる。
<方式2:文字にパターンを重畳する方法>
図19は、文字にパターンを重畳することでこのパターンに対応する埋め込み情報をこの文字に対して埋め込む方法を説明する為の図である。例えば、文字に対して埋め込み情報「1」を埋め込む場合には、この文字に対してパターン1を重畳する。一方、文字に対して埋め込み情報「0」を埋め込む場合には、この文字に対してパターン2を重畳する。図19の下部には、文字「あ」に対してパターン1を重畳した例を示している。この場合、この文字「あ」には埋め込み情報「1」が埋め込まれたことになる。もちろん、パターン1,パターン2として用いることができるパターンはこれ以外のものであっても良い。
以上、文書に電子透かしを埋め込む方法のうち、典型的な例をあげた。もちろん、他の電子透かし埋め込み方法を用いても良い。
ここで、方式1に従って時刻情報を埋め込む処理についてより詳細に説明する。
本実施形態では、文書中の文字列を1行毎に分割し、1行分の文字列(分割文字列)に対して、先頭文字の発話絶対時刻と、先頭文字に後続する文字の先頭文字の発話時刻に対する発話相対時刻と、を埋め込む。なお、発話絶対時刻、発話相対時刻は何れも、6ビットのビット列でもって表現可能であるので、本実施形態では、1つの埋め込み情報は6ビットのビット列となる。
文書生成部104は、各文字について、その発話された絶対時刻を示す時刻情報を管理しているので、透かし情報埋め込み部105は先ず、着目行の先頭文字の発話時刻(発話絶対時刻)を特定する。そして、特定した発話絶対時刻を、着目行の先頭から13文字を用いて、方式1に基づいて埋め込む。次に透かし情報埋め込み部105は、着目行の先頭文字から14文字目の文字の発話時刻(発話絶対時刻)を特定する。そして、特定した発話絶対時刻と、先頭文字の発話絶対時刻との差分情報(発話相対時刻)を求め、求めた発話相対時刻を、この14番目の文字から13文字を用いて、方式1に基づいて埋め込む。以降、着目行において埋め込み情報を埋め込んでいない残りの文字数が13文字未満となるまで、発話相対時刻を方式1に基づいて埋め込む処理を行う。
このように、6ビットで表現される時刻情報を1行分の文字列に対して方式1に基づいて埋め込む場合には、係る文字列を13文字毎のグループ単位で分割し、それぞれのグループについて、先頭文字の時刻情報をそのグループ内の13文字に対して埋め込む。また、先頭グループ中には発話絶対時刻を埋め込み、後続グループ中には発話相対時刻を埋め込む。
そして、この処理を、各行について行う。これにより、方式1に基づいて埋め込み情報が埋め込まれた文書情報を取得することができる。
なお、この埋め込み方法を使用する利点としては、6ビット等の固定長ビットを用いているため、抽出が簡易に行えること、絶対時刻をそのまま埋め込むのに比べてデータ量を削減できることがあげられる。なお、時刻情報のビット数が長すぎる場合は、発話相対時刻のビット長を短くすることもできる。
次に、方式1に基づいて埋め込み情報が埋め込まれた文書情報に対して、方式2に基づく埋め込み処理を行う。方式1,方式2の両方の方式を用いて埋め込み情報を埋め込むのは、部分動画・音声の検索を、印刷した紙文書にマークを施して行う場合を考慮しており、マークが付与されても電子透かしの抽出が確実に成功するようにするためである。
本実施形態では、方式1と同様に、1行分の文字列に対して、先頭文字の発話絶対時刻と、先頭文字に後続する文字の先頭文字の発話時刻に対する発話相対時刻と、を埋め込む。1つの埋め込み情報を6ビットのビット列とするのも同様である。ただし、方式2では、6ビットの情報を埋め込むために必要な文字は6文字であり、13文字を必要とする方式1とは異なる。この違いも含め、方式2に従って時刻情報を埋め込む処理についてより詳細に説明する。
文書生成部104は、各文字について、その発話された絶対時刻を示す時刻情報を管理しているので、透かし情報埋め込み部105は先ず、着目行の先頭文字の発話時刻(発話絶対時刻)を特定する。そして、特定した発話絶対時刻を、着目行の先頭から6文字を用いて、方式2に基づいて埋め込む。次に透かし情報埋め込み部105は、着目行の先頭文字から7文字目の文字の発話時刻(発話絶対時刻)を特定する。そして、特定した発話絶対時刻と、先頭文字の発話絶対時刻との相対時刻(発話相対時刻)を求め、求めた発話相対時刻を、この7番目の文字から6文字を用いて、方式2に基づいて埋め込む。以降、着目行において埋め込み情報を埋め込んでいない残りの文字数が6文字未満となるまで、発話相対時刻を方式2に基づいて埋め込む処理を行う。
このように、6ビットで表現されるの時刻情報を1行分の文字列に対して方式2に基づいて埋め込む場合には、係る文字列を6文字毎のグループに分割し、それぞれのグループについて、先頭文字の時刻情報をそのグループ内の6文字に対して埋め込む。また、先頭のグループについては発話絶対時刻を埋め込み、後続するグループについては発話相対時刻を埋め込む。
そして、この処理を、各行について行う。これにより、方式1と方式2の2つの方法に基づいて埋め込み情報が埋め込まれた文書情報を取得することができる。
以上、方式1と方式2の2つの方法に基づいて文書情報に時刻情報を埋め込み情報として埋め込む方法について説明した。本実施形態においては、図3のステップS305及びステップS306で、透かし情報埋め込み部105が、方式1と方式2の二つの方法を用いて、文書情報に時刻情報を埋め込み情報として埋め込む。
まず、ステップS305における埋め込み処理を、図5から図7のフローチャートを用いて詳細に説明する。図5は、上述の方式1による埋め込み情報埋め込み処理(ステップS305)のフローチャートである。ステップS305の処理は、全て電子透かし埋め込み部105が行う。
ステップS305aにおいて、電子透かし埋め込み部105は、文書生成部104が生成した文書の先頭行に着目する。
ステップS305bでは、着目行に対して、埋め込み情報を埋め込む。この処理については後述する。
ステップS305cでは、着目行が文書の最終行であるかを判断する。着目行が最終行である場合は、ステップS305を終了する。最終行ではない場合は、着目行の次の行に新たに着目し(ステップS305d)、ステップS305bに戻って以下処理を繰り返す。
続いて、ステップS305bでの処理を、図6を用いて詳細に説明する。図6は、ステップS305bでの処理を示すフローチャートである。ステップS305b−aで、電子透かし埋め込み部105は、着目行の先頭13文字を選択文字列として選択する。次に、ステップS305b−bで、選択文字列の先頭文字の発話時刻情報を、前述の通り文書生成部104が管理する時刻情報(絶対時刻情報)から取得する。
ステップS305b−cで、ステップS305b−bで取得した時刻情報を選択文字列に埋め込む。この処理については後述する。
ステップ305b−dでは、着目行に、まだ選択していない文字が13文字以上あるかを判断する。13文字以上ない場合は、ステップS305bの処理を終了する。選択していない文字が13文字以上ある場合は、ステップS305b−eで、選択文字列に後続する13文字を新たな選択文字列として選択する。
ステップS305b−fでは、新たな選択文字列の先頭文字の発話時刻情報を、前述の通り文書生成部104が管理する時刻情報(絶対時刻情報)から取得する。ステップS305b−gでは、着目行の先頭文字の発話時刻と、選択文字列の先頭文字の発話時刻との差を、時刻情報(相対時刻情報)として算出する。
ここでステップS305b−cに戻り、選択文字列に時刻情報を埋め込み、以下処理を繰り返す。
続いて、ステップS305b−cでの処理を、図7を用いて詳細に説明する。図7は、ステップS305b−cでの処理を示すフローチャートである。
ステップS305b−c−aにおいて、電子透かし埋め込み部105は、選択文字列の先頭から2文字目を指定する。さらに、ステップS305b−c−bにおいて、時刻情報の先頭ビットに着目する。
ステップS305b−c−cでは、時刻情報の着目ビットが0か1かを判断する。着目ビットが0の場合は、指定文字の前の文字との間隔が、指定文字の後ろの文字との間隔よりも狭くなるよう、指定文字を前に移動する。着目ビットが1の場合には、指定文字の前の文字との間隔が、指定文字の後ろの文字との間隔よりも広くなるよう、指定文字を後ろに移動する。
ステップS305b−c−fでは、指定文字が選択文字列の12文字目かを判断する。指定文字が12文字目の場合は、ステップS305b−cの処理を終了する。12文字目ではない場合は、選択文字列中、指定文字の2文字先の文字を新たに指定し(ステップS305b−c−g)、時刻情報の着目ビットの次ビットを新たに選択して(ステップS305b−c−h)、ステップS305b−c−cに戻る。
以上の処理により、ステップS305の、方式1による透かし情報埋め込み処理が終了する。
続けて、ステップS306で、透かし情報埋め込み部105は、ステップS305において電子透かし埋め込み部105が生成した文書情報に対し、文字の発話時刻を特定するための時刻情報を埋め込み情報として、方式2に従って埋め込む。この埋め込み情報埋め込み処理を、図8から図10のフローチャートを用いて詳細に説明する。図8は、方式2による埋め込み情報埋め込み処理(ステップS306)のフローチャートである。ステップS306の処理は、全て電子透かし埋め込み部105が行う。
ステップS306aにおいて、電子透かし埋め込み部105は、文書生成部104が生成した文書の先頭行に着目する。
ステップS306bでは、着目行に対して、埋め込み情報を埋め込む。この処理については後述する。
ステップS306cでは、着目行が文書の最終行であるかを判断する。着目行が最終行である場合は、ステップS306を終了する。最終行ではない場合は、着目行の次の行に新たに着目し(ステップS306d)、ステップS306bに戻って以下処理を繰り返す。
続いて、ステップS306bでの処理を、図9を用いて詳細に説明する。図9は、ステップS306bでの処理を示すフローチャートである。
ステップS306b−aで、電子透かし埋め込み部105は、着目行の先頭6文字を選択文字列として選択する。次に、ステップS306b−bで、選択した文字列の先頭文字の発話時刻情報を、前述の通り文書生成部104が管理する時刻情報(絶対時刻情報)から取得する。
ステップS306−cで、時刻情報を選択した文字列に埋め込む。この処理については後述する。
ステップ306b−dでは、着目行に、まだ選択していない文字が6文字以上あるかを判断する。6文字以上ない場合は、ステップS306bの処理を終了する。選択していない文字が6文字以上ある場合は、ステップS306b−eで、選択文字列に後続する6文字を文字列として新たに選択する。
ステップS306b−fでは、新たに選択した文字列の先頭文字の発話時刻を、文書生成部104が管理する時刻情報を用いて特定する。ステップS306b−gでは、着目行の先頭文字の発話時刻と、選択文字列の先頭文字の発話時刻との差を、時刻情報(相対時刻情報)として算出する。
ここでステップS306b−cに戻り、選択文字列に時刻情報を埋め込み、以下処理を繰り返す。
続いて、ステップS306b−cでの処理を、図10を用いて詳細に説明する。図10は、このステップでの処理を示すフローチャートである。
ステップS306b−c−aにおいて、電子透かし埋め込み部105は、選択文字列の先頭文字を指定する。さらに、ステップS306b−c−bにおいて、時刻情報の先頭ビットに着目する。
ステップS306b−c−cでは、時刻情報の着目ビットが0か1かを判断する。着目ビットが0の場合は、前述の通り、指定文字に図13に示すパターン2を重畳する(ステップS306b−c−d)。着目ビットが1の場合には、指定文字に図13に示すパターン1を重畳する(ステップS306b−c−e)。
ステップS305b−c−fでは、指定文字が選択文字列の6文字目かを判断する。指定文字が6文字目の場合は、ステップS305b−cの処理を終了する。6文字目ではない場合は、選択文字列中、指定文字の次の文字を新たに指定し(ステップS306b−c−g)、時刻情報の着目ビットの次ビットに新たに着目して(ステップS306b−c−h)、ステップS305b−c−cに戻る。
以上の処理により、ステップS306の、方式2による時刻情報埋め込み処理が終了する。
時刻情報を埋め込んだ文書情報は、時刻情報含有文書として文書出力部106が出力する(ステップS307)。出力形態は特に限定されるものではなく、印刷出力しても良いし、記憶装置やネットワーク上にデータとして出力しても良い。以上、本実施形態における電子透かし埋め込みについて述べた。
次に、上述の文書作成装置がデータ101に含まれる音声データに対応する文字列で構成された文書情報に、時刻情報を埋め込んだ文書情報中、ユーザが指定する文字列に対応するデータ部分を、データ101から抽出する検索装置について説明する。図2は本実施形態における検索装置(情報処理装置)の主要な機能構成を示すブロック図である。
本実施形態では、時刻情報を埋め込んだ文書情報は、文書の印刷物として出力されているものとする。ユーザは、前述の文書作成装置が出力した、時刻情報を埋め込み情報として持つ文書に含まれる文字列のうち、所望の文字列にマークをつけて指定を行う。本実施形態における検索装置は、ユーザがマークをつけた文書を取得し、マークをつけた文字列、すなわち指定文字列に対応する部分のデータ(部分データ)を、データ101から抽出し、出力する。
この目的を達成するために、この検索装置は次のような構成を備える。即ち、本実施形態に係る検索装置は、文書入力部201、マーク位置・種別検出部202、電子透かし抽出方法決定部203、電子透かし抽出部204、検索部205を備える。
文書入力部201は、マーク済文書200を取得し、マーク済文書200の画像(文書画像)を生成して、文書画像に含まれる文字の位置とその文字コードを取得する機能を有する。マーク済文書200とは、前述の文書作成装置が出力した時刻情報を埋め込み情報として持つ、時刻情報含有文書107に対して、マークを付加した文書を指す。このマークにより、ユーザは、文書に含まれる文字列のうち、所望の文字列を指定する。
マーク位置・種別検出部202は、文書入力部201が取得したマーク済文書200から、マークの位置と種別を取得する。
電子透かし抽出方法決定部203は、マーク位置・種別検出部202が取得したマークの種別を判断し、判断結果に従って、埋め込み情報の抽出方法を決定する機能を有する。
電子透かし抽出部204は、電子透かし抽出方法決定部203が決定した方法に従って、マーク済文書200から、指定文字列の先頭と末端に埋め込まれている埋め込み情報を抽出する機能を有する。
検索部205は、電子透かし抽出部204が抽出した埋め込み情報を用い、ユーザが指定した文字列に対応する発話内容を、データ101から抽出する。データ101は、前述の文書生成装置が、マーク済文書200を生成する際にデータであり、データ101は、発話内容を示す音声データと、発話中の各タイミングにおける時刻を示す情報とを含む。検索部205は、このデータ101を取得し、データ101中、指定文字列の先頭の埋め込み情報が示す時刻に最も近い時刻を持つデータから、指定文字列の末端の埋め込み情報が示す時刻に最も近い時刻を持つデータまでを特定する。続いて特定したデータを抽出し、部分データ206として出力する(音声出力手段)。
次に、図2に示した各部の動作について、図4のフローチャートを用いて説明する。図4は、上述の文書作成装置が出力した文書においてユーザが指定した文字列に対応する音声データを検索する処理を示すフローチャートである。
まず、ステップS401において、文書入力部201がマーク済文書200の文書画像を取得する。また、文書入力部201は取得した文書画像に対してOCRを行い、文書画像に含まれる文字の、外接矩形の位置及び文字コードを取得する。
本実施形態においては、ユーザは、文書上にマークを行うことで、文書中の連続する1つの文字列を指定するものとする。マーク方法は特に限定されず、ユーザは、例えばラインマーク、アンダーライン、丸、四角などの囲み、チェック印等によりマークを行うことが可能である。所望する文字列を囲みにより指定しても良いし、所望する文字列の前後にチェック印を付けても良い。また、文書は複数ページで構成されるものでもよいし、マークも複数ページにまたがっていてよい。
次に、マーク位置・種別検出部202が文書画像に行われたマークの種別を取得する。また、マークにより示される文字列を、ユーザの指定する文字列として取得する(ステップS402)。この取得方法は限定されるものではなく、複数の方法によって行われる。本実施形態では、次の方法により、ラインマーク、アンダーライン、四角形の囲み、文字の上部に対するチェック印のうち、どれか1つの手段で行われたマークにより示される文字列を取得するものとする。次の説明では、文書画像は横書きであるとする。
1.ラインマークの検出
文書画像に含まれる画素の画素値(RGB値)を参照し、文字色、背景色以外を示す画素値を有する画素群を取得する。文書画像中の文字の外接矩形内の画素数について、文書画像中に含まれる1つの文字あたりの平均を算出し、算出した平均と比較して画素群に含まれる画素数の方が多い場合は、マーク種別はラインマークであると判断する。少ない場合は、取得した画素群が示す文書画像中の領域は、ノイズ、あるいはアンダーライン等の広い範囲を塗りつぶさないマークであると判断し、ラインマーク検出処理を終了する。
マーク種別はラインマークであると判断した場合の、ユーザの指定する文字列の取得処理は以下の通りである。すなわち、文字色、背景色以外を示す画素値を有する画素群に含まれる画素と、文書入力部201がOCRにより得た1つの文字の外接矩形内の画素との間に、共通の画素を1つ以上持つ外接矩形を文書画像全体から抽出する。そして、抽出した外接矩形に含まれる文字列を、ユーザの指定する文字列として取得する。
2.チェック印、アンダーライン及び囲みの検出
まず、二値化した文書画像の画素値を行方向に射影してヒストグラムを得る。文字の外接矩形の存在しない部分、すなわち行間部分(文書画像の上端及び下端を含む)であって、ピークが存在する行間を検出し、その行間領域を抽出する。これは、行方向の線が書き込まれている行間を取得する処理に相当する。次に、抽出した行間領域の各々を列方向に射影してヒストグラムを得る。行間領域のうち、ヒストグラム値が閾値以上である部分を検出し、行間においてマークが書き込まれている部分としてその部分を抽出する。
次に、抽出した部分に書き込まれているマークが、チェック印であるかどうかを判断する。文書画像中の文字の外接矩形の行方向の画素数について、文書画像中に含まれる1つの文字あたりの平均画素数を算出する。算出した平均画素数と比較して、抽出した部分の行方向の画素数が少なく、かつ抽出した部分が2カ所の場合は、書き込まれたマークはチェック印であると判断する。この場合、チェック印と判断された2つのマーク各々について、その直下の文字の外接矩形を取得する。これは、チェック印は指定文字の上に付することを前提としているからであり、チェック印を指定文字の下に付するのであれば、チェック印と判断された2つのマーク各々について、その直上の文字の外接矩形を取得することになる。この2つの外接矩形のうち、先頭行との距離が短い方、距離が同一の場合は文書の左端に近い方に含まれる文字をユーザが指定する文字列の始点とする。同様に、先頭行との距離が長い方、距離が同一の場合は文書の右端に近い方の外接矩形に含まれる文字をユーザが指定する文字列の終点とする。始点から終点までの文字列を、ユーザが指定する文字列として取得し、取得処理を終了する。
一方、算出した平均画素数と比較して、抽出した部分の行方向の画素数が多い場合には、マークがアンダーラインであるか囲みであるかを判断する。そのために、文書画像全体を列方向に射影し、ピークが存在する文字間、すなわち列方向の線が書き込まれているであろう文字間(文書画像の右端及び左端を含む)を検出し、その文字間領域を抽出する。続いて、抽出した文字間領域に、連続する線分が存在するかどうかを調べる。抽出した文字間領域の各々を行方向に射影して得たヒストグラムの値が、閾値以上である部分が一定以上存在するかどうかを調べればよい。文書画像中の文字の外接矩形の列方向の画素数について平均を求め、この列方向の平均画素数よりもヒストグラム値が連続して閾値以上である部分の画素数が多い場合には、抽出した文字間領域に、連続する線分があると判断される。
文字間に連続する線分がない場合には、行間領域内にアンダーラインが存在すると判断されることになり、結果として、マークの種別はアンダーラインであると判定する。この場合は、行間においてマークが書き込まれている部分を示す範囲の上方、直近の位置に存在する外接矩形に含まれる文字からなる文字列を、ユーザが指定する文字列として取得し、取得処理を終了する。
文字間に連続する線分がある場合には、行間領域内にアンダーラインが存在し、且つ文字間領域内にも連続する線分が存在することになり、結果として、これら4本の線分による囲みが存在すると判断されることになる。従って、結果として、マークの種別は囲みであると判定する。
この場合、行間においてマークが書き込まれている部分を示す範囲に含まれる画素であって、先頭行との距離が最も短い画素のうち、先頭行との距離が同一の場合は文書の左端に最も近い画素を選択する。選択した画素の右下、直近の位置に存在する外接矩形に含まれる文字を、ユーザが指定する文字列の最初の文字として取得する。同様に、行間においてマークが書き込まれている部分を示す範囲に含まれる画素であって、先頭行との距離が最も長い画素のうち、文書の右端に最も近い画素を選択する。選択した画素の左上、直近の位置に存在する外接矩形に含まれる文字を、ユーザが指定する文字列の最後の文字として取得する。この取得処理は、ユーザが囲みにより指定する範囲に含まれる、左上端の文字と右下端の文字を取得することに相当する。以上で取得した、ユーザが指定する文字列の最初の文字及び最後の文字から、ユーザが指定する文字列を確定し、確定した文字列をユーザが指定する文字列として取得する。
以上で、ステップS402における、マーク種別及びユーザ指定文字列取得処理が終了する。
電子透かし抽出方法決定部203は、ステップS402でマーク位置・種別検出部202が得たマーク種別に従い、埋め込み情報の抽出方法を決定する(ステップS403)。本実施形態では、次の方法で抽出方法を決定するが、この方法に限定されない。
1.もしマークがラインマークであれば、文字の背景色がラインマークにより変更されるため、文字に重畳されたパターン等の文字の属性を判別することが難しくなる。よって、ステップS404へ進み、文字の間隔等、複数の文字間の関係を利用して埋め込まれた電子透かしを抽出する方式により埋め込み情報を取得する。
2.囲み、チェック印、アンダーライン等、文字の間隙にマークが付されている場合は、複数の文字間の関係の測定が難しい。この場合はステップS405へ進み、文字へのパターン重畳、文字の傾き、大きさ変更等、1文字単位の属性を利用して埋め込まれた電子透かしを抽出する方式により埋め込み情報を取得する。
ステップS404では、電子透かし抽出部204は、マーク済文書200に埋め込まれている埋め込み情報のうち、文字の間隔を操作して埋め込まれた埋め込み情報を抽出する。すなわち、上述の文書作成装置が、方式1に従って埋め込んだ埋め込み情報を抽出する。
抽出方法は以下の通りである。すなわち、まず電子透かし抽出部204は、ユーザがマークした文字列の先頭文字(マーク開始文字)を着目文字とし、着目文字の属する行の画像を取得する。
着目文字の属する行の先頭文字から13文字の文字列を選択文字列として選択し、選択した13文字それぞれの文字間隔に埋め込まれている埋め込み情報を絶対時刻情報として抽出する。文書入力部201がOCRを行うことで文字の位置情報は分かっており、マーク位置・種別検出部202は着目文字の位置情報を取得しているので、両者を比較し、選択文字列中に着目文字が含まれているかどうかを調べる。選択文字列中に着目文字が含まれているのなら抽出した絶対時刻を着目文字の発話時刻とする。
選択文字列中に着目文字が含まれていないのなら、着目文字の属する行の14番目の文字から13文字の文字列を後続文字列として選択し、後続文字列中に着目文字が含まれているかどうかを調べる。以降、後続文字列に続く13文字の文字列を新たな後続文字列として選択し、後続文字列中に着目文字が含まれているかどうかを調べる操作を13文字毎に行い、着目文字が含まれる文字列を探す。着目文字が含まれる文字列の、それぞれの文字間隔に埋め込まれている透かし情報を、相対時刻情報として抽出し、絶対時刻情報に相対時刻情報を加え、着目文字の発話時刻とする。
着目文字の属する行に含まれる文字列を先頭から13文字毎に区切った場合に、行の末端に生じる13文字未満の文字列に着目文字が属し、着目文字の属する文字列から時刻情報を抽出することができないことがある。この場合は、着目文字の属する行の末端の13文字未満の文字列の、直前の13文字からなる文字列から、時刻情報を抽出すればよい。
続いて、電子透かし抽出部204は、ユーザがマークした文字列の末端文字(マーク終了文字)に着目し、先頭文字に着目した場合と同様の処理で、末端文字の発話時刻を取得する。
以上、方式1に従って埋め込んだ埋め込み情報の取得方法について述べた。
続いて、ステップS405では、電子透かし抽出部204は、マーク済文書200に埋め込まれている埋め込み情報のうち、文字にパターンを重畳することで埋め込まれた埋め込み情報を抽出する。すなわち、上述の文書作成装置が、方式2に従って埋め込んだ埋め込み情報を抽出する。
方法は以下の通りである。すなわち、まず電子透かし抽出部204は、マーク開始文字を着目文字とし、着目文字が属する行の画像を取得する。
着目文字が属する行の先頭文字から、6文字からなる文字列を、選択文字列として選択し、文字に重畳されているパターンから埋め込み情報を抽出し、絶対時刻情報とする。文書入力部201がOCRを行うことで文字の位置情報は分かっており、マーク位置・種別検出部202は着目文字の位置情報を取得しているので、両者を比較し、選択文字列中に着目文字が含まれているかどうかを調べる。選択文字列中に着目文字が含まれているのなら、その絶対時刻を着目文字の発話時刻とする。
選択文字列中に着目文字が含まれていないのなら、取得行の7番目の文字から6文字の文字列を後続文字列として選択し、後続文字列中に着目文字が含まれているかどうかを調べる。この操作を6文字毎に行い、着目文字が含まれる文字列を探す。着目文字が含まれる文字列に重畳されているパターンから抽出した透かし情報を、相対時刻情報とする。絶対時刻情報に相対時刻情報を加え、着目文字の発話時刻とする。
着目文字の属する行に含まれる文字列を先頭から6文字毎に区切った場合に、行の末端に生じる6文字未満の文字列に着目文字が属し、着目文字の属する文字列から時刻情報を抽出することができないことがある。この場合は、着目文字の属する行の末端の6文字未満の文字列の、直前の6字からなる文字列から、時刻情報を抽出すればよい。
続いて、電子透かし抽出部204は、マーク終了文字に着目し、先頭文字に着目した場合と同様の処理で、末端文字の発話時刻を取得する。
以上、方式2に従って埋め込んだ埋め込み情報の取得方法について述べた。
ここまで、文書情報に埋め込まれた時刻情報を取得する方法について説明した。本実施形態においては、電子透かし抽出部204が、電子透かし抽出方法決定部203が決定した方法に従い、方式1または方式2のどちらかの方法で埋め込まれた埋め込み情報を取得する。方式1で埋め込まれた埋め込み情報を取得する処理(ステップS404)、および方式2で埋め込まれた埋め込み情報を取得する処理(ステップS405)を、これより詳述する。この処理は、電子透かし抽出部204が行う。
図11は、ステップS404での処理を示すフローチャートである。ステップS404においてまず、電子透かし抽出部204は、マーク位置・種別検出部202が取得したマーク位置に従い、マーク開始文字を含む行の画像を取得する(ステップS404a)。
ステップS404bでは、ステップS404aで取得した画像から、マーク開始文字の発話時刻を取得する。この処理については後述する。
ステップS404cでは、ステップS404aと同様に、マーク終了文字を含む行の画像を取得する。ステップS404dでは、ステップS404bと同様の処理で、マーク終了文字の発話時刻を取得する。
図12は、ステップS404bの処理を詳細に示すフローチャートであり、以下この図に従ってステップS404bの処理を詳述する。
ステップS404b−aでは、文書入力部201が得た文字の位置情報を参照し、マーク開始文字を含む行に含まれる文字のうち、先頭の13文字を選択文字列として選択する。
ステップS404b−bで、選択した文字列に埋め込まれている時刻情報を絶対時刻情報として抽出する。時刻情報の抽出方法は後述する。
ステップS404b−cでは、選択文字列にマーク開始文字が含まれないこと、及び、マーク開始文字を含む行において、選択文字列の後ろに文字が13文字以上存在すること、が満たされるかを判断する。この処理では、文書入力部201が得た文字の位置情報と、マーク位置・種別検出部202が得たマーク開始文字の位置情報とを参照する。双方が満たされる場合は、ステップS404b−eに進む。どちらか一方でも満たされない場合は、ステップS404b−dに進む。
ステップS404b−dでは、ステップS404b−bで抽出した絶対時刻情報を、マーク開始文字の時刻情報として、ステップS404bの処理を終了する。
ステップS404b−eでは、選択文字列に後続する13文字を新たに選択文字列として選択する。ステップS404b−fでは、新たな選択文字列にマーク開始文字が含まれないこと、及び、マーク開始文字を含む行において、新たな選択文字列の後ろに文字が13文字以上存在すること、の双方が満たされるかどうかを判断する。双方が満たされる場合は、ステップS404b−eに戻る。どちらか一方でも満たされない場合は、ステップS404b−gに進む。
ステップS404b−gでは、ステップS404b−eにおいて選択されている選択文字列の時刻情報を、相対時刻情報として抽出する。時刻情報の抽出処理は、ステップS404b−bと同様である。
ステップS404b−hで、ステップS404b−bで抽出した絶対時刻情報と、ステップS404b−gで抽出した相対時刻情報の和を、マーク開始文字の時刻情報とし、ステップS404bの処理を終了する。
以上が、ステップS404bにおける、マーク開始文字の発話時刻を取得する処理である。ステップS404dの処理も、マーク開始文字の代わりにマーク終了文字を用いる以外はステップS404bの処理と同様である。
次に、図13を用いて、ステップS404b−bの、時刻情報抽出処理について詳述する。図13は、ステップS404b−bの、時刻情報抽出処理を示すフローチャートである。
ステップS404b−b−aではまず、6ビットからなる、全て0のビット列を保存領域に用意する。次に、ステップS404b−b−bで、選択文字列の2文字目に着目する。
ステップS404b−b−cでは、着目文字と、着目文字の前の文字との間隔を、間隔Pとして取得する。また、着目文字と、着目文字の次の文字との間隔を、間隔Sとして取得する。文字間隔情報は、文書入力部201が取得した位置情報から得ることができる。
PとSの長さを比較し、P>SであればステップS404b−b−dに、P<SであればステップS404b−b−eへと進む。
ステップS404b−b−dでは、保存領域にあるビット列の末尾に「1」を追加し、ステップS404b−b−fへ進む。ステップS404b−b−eでは、保存領域にあるビット列の末尾に「0」を追加し、ステップS404b−b−fへ進む。
ステップS404b−b−fでは、着目文字が、選択文字列の12文字目であるかを調べる。12文字目ではない場合は、選択文字列中、着目文字の2文字後ろの文字を新たに選択し(ステップS404b−b−g)、ステップS404b−b−cに戻る。着目文字が12文字目の場合は、保存領域中のビット列を時刻情報として(ステップS404b−b−h)、ステップS404b−bの処理を終了する。
以上が、ステップS404b−bにおける、時刻情報抽出処理である。なお、ステップS404b−gにおける時刻情報抽出処理も、同様に行われる。
以上、ステップS404における、方式1に従って埋め込んだ埋め込み情報の抽出処理について述べた。
次に、ステップS405での処理について、図14に示すフローチャートを参照して説明する。ステップS405においてまず、電子透かし抽出部204は、マーク位置・種別検出部が取得したマーク位置に従い、マーク開始文字を含む行の画像を取得する(ステップS405a)。
ステップS405bでは、ステップS405aで取得した画像から、マーク開始文字の発話時刻を取得する。この処理については後述する。
ステップS405cでは、ステップS405aと同様に、マーク終了文字を含む行の画像を取得する。ステップS405dでは、ステップS405bと同様の処理で、マーク終了文字の発話時刻を取得する。
図15は、ステップS405bの処理を詳細に示すフローチャートであり、以下この図に従ってステップS405bの処理を詳述する。
ステップS405b−aでは、文書入力部201が得た文字の位置情報を参照し、マーク開始文字を含む行に含まれる文字のうち、先頭の6文字を文字列として選択する。
ステップS405b−bで、選択した文字列に埋め込まれている時刻情報を絶対時刻情報として抽出する。時刻情報の抽出方法は後述する。
ステップS405b−cでは、選択文字列にマーク開始文字が含まれないこと、及び、マーク開始文字を含む行において、選択文字列の後ろに文字が6文字以上存在すること、が満たされるかを判断する。この処理では、文書入力部201が得た文字の位置情報と、マーク位置・種別検出部202が得たマーク開始文字の位置情報とを参照する。双方が満たされる場合は、ステップS405b−eに進む。どちらか一方でも満たされない場合は、ステップS405b−dに進む。
ステップS405b−dでは、ステップS405b−bで抽出した絶対時刻情報を、マーク開始文字の時刻情報として、ステップS405bの処理を終了する。
ステップS405b−eでは、選択文字列に後続する6文字を新たに選択文字列として選択する。ステップS405b−fでは、新たな選択文字列にマーク開始文字が含まれないこと、及び、マーク開始文字を含む行において、新たな選択文字列の後ろに文字が6文字以上存在すること、の双方が満たされるかどうかを判断する。双方が満たされる場合は、ステップS405b−eに戻る。どちらか一方でも満たされない場合は、ステップS405b−gに進む。
ステップS405b−gでは、ステップS405b−eにおいて選択されている選択文字列の時刻情報を、相対時刻情報として抽出する。時刻情報の抽出処理は、ステップS405b−bと同様である。
ステップS405b−hで、ステップS405b−bで抽出した絶対時刻情報と、ステップS405b−gで抽出した相対時刻情報の和を、マーク開始位置の時刻情報とし、ステップS405bの処理を終了する。
以上が、ステップS405bにおける、マーク開始位置の発話時刻を取得する処理である。ステップS405dの処理も、マーク開始文字の代わりにマーク終了文字を用いる以外はステップS405bの処理と同様である。
次に、図16を用いて、ステップS405b−bの、時刻情報抽出処理について詳述する。図16は、ステップS405b−bの、時刻情報抽出処理を示すフローチャートである。
ステップS405b−b−aではまず、6ビットからなる、全て0のビット列を保存領域に用意する。次に、ステップS405b−b−bで、選択文字列の先頭文字に着目する。
ステップS405b−b−cでは、注目文字に重畳されているパターンが、パターン1であるか、パターン2であるかを調べる。パターン1の場合は、ステップS405b−b−dに進む。パターン2の場合は、ステップS405b−b−eへと進む。
ステップS454b−b−dでは、保存領域にあるビット列の末尾に「1」を追加し、ステップS405b−b−fへ進む。ステップS405b−b−eでは、保存領域にあるビット列の末尾に「0」を追加し、ステップS405b−b−fへ進む。
ステップS405b−b−fでは、着目文字が、選択文字列の6文字目であるかを調べる。6文字目ではない場合は、選択文字列中、着目文字の次の文字に新たに着目し(ステップS405b−b−g)、ステップS405b−b−cに戻る。着目文字が6文字目の場合は、保存領域中のビット列を時刻情報として(ステップS405b−b−h)、ステップS405b−bの処理を終了する。
以上が、ステップS404b−bにおける、時刻情報抽出処理である。なお、ステップS404b−gにおける時刻情報抽出処理も、同様に行われる。
以上、ステップS404における、方式1に従って埋め込んだ埋め込み情報の抽出処理について述べた。
以上の、ステップS404及びステップS405の埋め込み情報抽出処理において、マーク開始文字またはマーク終了文字が、文字が少なく、時刻情報が埋め込まれていない行に属することが考えられる。係る場合には、マーク開始文字またはマーク終了文字の近傍の行から時刻情報を抽出すればよい。
続くステップS406において、検索部205は、電子透かし抽出部204が取得したマーク開始文字の発話時刻とマーク終了文字の発話時刻に従って、データ101内を検索する。本実施形態では、検索部205は、データ101を取得し、データ101内の、マーク開始文字の発話時刻から、マーク終了文字の発話時刻までの時間に係るデータ部分を選択する。選択されたデータ部分は、部分データ206として出力される。部分データ206は、動画データ又は音声データといった、少なくとも音声情報を含むデータとなる。出力の方法は限定されるものではなく、部分データを再生しても良いし、記憶装置やネットワーク上に保存しても良い。
以上、本実施形態に係る、埋め込み情報の抽出処理について述べた。本実施形態に係る情報処理装置は、文書全体の透かし情報ではなく、マーク位置付近の透かし情報だけを抽出すればよいことに特徴がある。文書全体の透かし情報を読み取る場合と比べ、処理速度の向上が見込まれる。
<変形例>
第1の実施形態では、時刻情報の埋め込み方法として、文字間隔を変化させる方法(方式1)について述べたが、2つ以上の文字間の関係を利用する方法なら方法は限定されない。また、時刻情報の埋め込み方法として、文字へのパターン重畳による方法(方式2)についても述べたが、1文字の属性を利用する方法であれば方法は限定されない。例えば、文字の大きさの変更、文字の傾きの変更、文字の特徴量等の変更によって埋め込み情報を埋め込んでも良い。また、必要に応じて別の埋め込み方式を利用することも、同時に使用する埋め込み方式の種類を減らすことも増やすことも可能である。
また、第1の実施形態では、文書を1行毎に分割し、絶対時刻情報と0個以上の相対時刻情報を組とした時刻情報を埋め込む方法を説明したが、句読点で分割して時刻情報を埋め込むことも可能である。具体的には、句読点で区切られる文字列の先頭に絶対時刻情報を埋め込み、絶対時刻情報に続けて相対時刻を埋め込めばよい。
第1の実施形態では絶対時刻情報として、文字が発話された時刻までの、データ101の先頭からの経過時間を利用しているが、データ101に含まれる音声を録音した際、文字が現実に発話された時刻を絶対時刻情報として利用しても良い。
また、動画・音声入力部102が、データ101に含まれるヘッダ情報、あるいはユーザが入力する情報を取得し、時刻情報含有文書107に音声、動画、文書の作成者情報、作成時情報等の属性情報を埋め込むことも可能である。
マーク開始文字またはマーク終了文字を含む文字列からの時刻情報抽出に失敗した場合、抽出できない情報は無視して、マーク開始文字またはマーク終了文字の近傍の文字列から抽出した時刻情報を利用することも可能である。また、情報抽出に成功した場合でも、マーク開始文字またはマーク終了文字の近傍の文字列から抽出した時刻情報を抽出結果の確認に使うこが可能である。
第1の実施形態では、絶対時刻情報と相対時刻情報をそれぞれ6ビットの情報として文書に埋め込む構成としたが、情報量はこれに限られない。例えば、絶対時刻情報を12ビット、相対時刻情報を4ビットというように、異なる情報量の時刻情報を埋め込むことも可能である。
<第2の実施形態>
第1の実施形態では、文書の1行を構成する文字列を、規定の数の文字からなる文字列として分割し、それぞれの規定の数の文字からなる文字列に対し、文字列の先頭文字の発話時刻を埋め込んだが、埋め込み方法はこれに限られるものではない。
例えば、文書の1行を構成する文字列に係る文字を発話するのに要した時間を、埋め込み可能な時刻情報の数で割ることにより求められる時刻間隔をもって、時刻情報を埋め込む方法が考えられる。この方法について、第1の実施形態における方式2で時刻情報を埋め込む場合を例にとって説明する。
ある行を選択行として選択し、その選択行に含まれる文字の数をN個とすると、6ビットの時刻情報を埋め込むためには6文字が必要なため、選択行に埋め込むことのできる時刻情報の数は、N/6個となる。
選択行の先頭文字の発話時刻T、及び選択行の次行の先頭文字の発話時刻T’より、選択行の発話に要した時間T’−Tを求めることができる。
ここで、選択行の発話に要した時間T’−Tを、埋め込むことのできる時刻情報の数N/6で割ることによって、時刻間隔Cを求める。すなわち、
C=6×(T’−T)/N
となる。
選択行には、選択行に含まれる最初の6文字に絶対時刻としてTを、続く6文字に相対時刻としてCを、さらに続く6文字に相対時刻として2×Cを、続けて埋め込んでいく。
係る方法によれば、簡便な方法で時刻情報埋め込み処理を実現することができる。この方法では、文字列と、その文字列に埋め込んだ時刻情報とは、厳密な意味で一致しないが、音声データを容易に検索するという目的に照らせば、精度として十分である。この方法は、特に1行中に含まれる文字が一定の速度で発話される場合に好適である。
本実施形態では時刻間隔を1行の文字数に基づいて決定したが、複数行の1行あたりの平均文字数に基づいて、あるいは文書全体の1行あたりの平均文字数に基づいて、時刻間隔を決定することも可能である。
<第3の実施形態>
第1の実施形態に係る検索装置は、透かし情報を持つ文書をスキャンすることで、ユーザがマーキングした部分を検索していた。本実施形態では、マーキングを施していない、時刻情報を埋め込み情報として持つ文書を読み込み、画像表示装置上に出力する。検索部分の指定は、画像表示装置上の出力を参照してユーザがこれを行い、検索装置は指定をユーザから対話的に取得する。本実施形態の検索装置を示すブロック図を図23に示す。
図23に示すように、本実施形態における検索装置は、時刻情報を埋め込み情報として持つ文書を取得し、ユーザの指定に従ってデータを検索することが可能な装置である。係る検索装置は、文書入力部2301、電子透かし抽出部2302、検索部2303を構成要素として保持する。
文書入力部2301は、時刻情報含有文書107を取得する機能を有する。
電子透かし抽出部2302は、時刻情報含有文書107から埋め込み情報を取得する機能を有する。
検索部2303は、時刻情報含有文書107、及び電子透かし抽出部2302が抽出した時刻情報を表示する機能と、ユーザの指定を取得する機能とを有する。また、時刻情報含有文書107の基となったデータ101を取得し、ユーザの指定に従って検索する機能も有する。
本実施形態における検索装置の動作を簡単に説明する。まず、文書入力部2301が、時刻情報含有文書107を取得する。文書入力部2301は、印刷済みの文書107をスキャンして取得しても、PDFなどとして電子化された文書107を取得しても良い。次に、電子透かし抽出部2302が、取得した文書全体の時刻情報の抽出を行う。抽出する時刻情報は、第1の実施形態で述べた方式1、方式2のどちらを用いて埋め込んだものでも良い。
次に、検索部2303が時刻情報含有文書107をモニタ等の出力装置に表示する。表示例を図24に示す。図24に示すように、検索部2303は、文書中の、ユーザが指定する文字の発話時刻情報を表示してもよい。ユーザは、マウス等のポインティングデバイスを用いて、係る指定を行うことが考えられる。また、ユーザが指定する文字の発話時刻に対応する動画シーンをデータ101から検索し、そのシーンに係るサムネイル画像を表示しても良い。
ユーザは、以上の表示を参考に、希望部分を選択し、「選択部を検索」という命令を送る。選択方法は特に限定されず、カーソル位置で開始位置を指定してもよいし、マウスのドラッグ操作によって、開始位置と終了位置を指定してもよい。検索命令は、ユーザがマウスを右クリックして表示させたプルダウンメニューから選択することで送ってもよいし、画面上に表示された、検索命令を送信するボタンをポインティングデバイスで押すことで送ってもよい。検索部2303は、ユーザの選択と命令を取得し、選択部分に係る時刻情報に基づいて、選択部分に係る動画・音声を抽出、出力する。その他は第1の実施形態と同じである。
本実施形態では、取得した文書全体の時刻情報を最初に抽出したが、検索部2303が取得したユーザの指定に従って、随時必要部分の時刻情報を抽出することも可能である。
<第4の実施形態>
第1の実施形態では、連続する1つの文字列をマークにより選択したが、複数の文字列部分を選択し、選択に基づいて抽出したデータを並べ替えた上で出力することも可能である。
図21は1ページの文書に含まれる複数の文字列を囲みにより選択した例である。このように同一ページに複数の選択文字列がある場合は、あらかじめ定めた順番で、抽出したデータを並べ替えるようにしてもよい。例えば文書が横書きであれば、文書の先頭行に近い選択文字列が先になるように、同一行に選択文字列が複数ある場合は文書の先頭列に近い選択文字列が先になるように、並べ替えることが考えられる。
また、抽出した部分データを並べ替える順番をユーザが指定してもよい。図22は、複数の選択位置に係る抽出データを並べ替える順番を、番号により指定した例である。他にも、マークの色や、マークの線種、あるいはマークに隣接させた番号などで順番を指定することが可能である。
本実施形態によれば、音声データを文書化することなく編集するのに比べ、効率的な編集が可能になる。
<第5の実施形態>
本実施形態では、上記各実施形態に係る夫々の処理をコンピュータにより行わせる。このコンピュータにおいて、全ての機能を実行する場合、各機能構成をコンピュータプログラムにより表現し、このコンピュータに読み込ませることで、第1の実施形態の全ての機能を実現することが出来る。この場合、係るプログラムは、コンピュータが有する各種記憶装置内に保持されており、CPUやMPU等の制御部がこのソフトウェアを実行することで、コンピュータは、上記実施形態を実現することになる。
図20は、上記各実施形態を実現するコンピュータのハードウェアの構成例を示す図である。尚、電子透かし埋め込み装置又は電子透かし抽出装置の実現に当たっては、図20に示される全ての構成要素を使用することは必須ではない。また、一部の構成要素を同種の要素で置換することもできるし、他の構成要素を追加することもできる。
図20において、コンピュータ1201は、一般に普及しているパーソナルコンピュータであり、スキャナ1217から読み取られた画像を入力し、編集や保管を行うことが可能である。また、スキャナ1217で得られた画像をプリンタ1216から印刷させることができる。尚、ユーザからの各種指示等は、マウス1213、キーボード1214からの入力操作により行われる。
本コンピュータ1201の内部では、バス1207に後述する各ブロックが接続され、種々のデータの受け渡しが可能である。図20において、MPU1202は、主記憶装置1203にロードされているプログラムやデータを用いて本コンピュータ1201内部の各ブロックの動作を制御する。これにより、MPU1202は、本コンピュータ1201を適用した電子透かし埋め込み装置及び電子透かし抽出装置が行う上述の各処理を実行する。
主記憶装置1203は、MPU1202において行われる処理のために、HDD(ハードディスクドライブ)1204、DVDドライブ1210等を含む各種記憶装置からロードされたプログラムやデータを一時的に格納しておく装置である。
HDD1204には、OS(オペレーティングシステム)や、各種の音声・動画・画像(文書画像を含む)等のデータが保存されている。更にHDD1204には、図1、図2及び図23に示された各部の機能をMPU1202に制御させるためのプログラムやデータも保存されている。加えて、本コンピュータ1201を適用した電子透かし埋め込み装置又は電子透かし抽出装置が行う上述の各処理をMPU1202に実行させるためのプログラムやデータも保存されている。HDD1204に保存されているプログラムやデータは、MPU1202による制御に従って適宜主記憶装置1203にロードされ、MPU1202による処理対象となる。なお、主記憶装置1203に記憶するものとして説明した情報の幾つかについてはHDD1204に保存するようにしても良い。
I/F(スキャナインタフェース)1215は、原稿やフィルム等を読み取って、画像データを生成するスキャナ1217と接続され、スキャナ1217で得られた画像データを入力することのできるI/Fである。I/F(プリンタインタフェース)1208は、画像データを印刷するプリンタ1216と接続され、印刷する画像データをプリンタ1216に送信することのできるI/Fである。
CDドライブ1209は、外部記憶媒体の一つであるCD(CD−R/CD−RW)に記憶されたデータを読み込み、あるいは書き出すことができる装置である。FDD1211は、CDドライブ1209と同様にFDからの読み込みや、FDへの書き出しをすることができる装置である。DVDドライブ1210は、FDD1211と同様に、DVDからの読み込みや、DVDへの書き出しをすることができる装置である。尚、CD、FDD、DVD等から読み出したプログラムやデータは、必要に応じてHDD1204あるいは主記憶装置1203に転送するようになっている。
I/F(インタフェース)1212は、マウス1213やキーボード1214からの入力指示を受け付けるために、これらと接続されるI/Fである。また、モニタ1206は、情報の抽出処理結果や処理過程を表示することのできる表示装置である。ビデオコントローラ1205は、表示データをモニタ1206に送信するための装置である。
本実施形態では、図20に示す情報処理装置、特にマウス1213やキーボード1214からの入力指示により1203の主記憶装置にロードしたプログラムを1202のMPUなどを用いて実行することによって機能を実現できる。このとき、モニタ1206により実行状況や、その結果をモニタすることも可能である。
本実施形態では、スキャンやプリンタを除く処理をコンピュータにより行っているが、スキャナやプリンタ内部の専用のハードウェア回路を用いて、コンピュータで行う処理を代行しても良い。
また、本実施形態に係るコンピュータは、他のコンピュータ等の電子機器と、ネットワークを通して情報をやりとりしてもよい。
<その他の実施形態>
尚、本実施形態は、複数の機器(例えば、ホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、複合機、ファクシミリ装置等)に適用してもよい。
また、本発明の目的は、以下のようにすることによっても達成されることは言うまでもない。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(又は記憶媒体)を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(又はCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。即ち、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本実施形態を構成することになる。
また、コンピュータが読み出したプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部又は全部を行うこともある。その処理によって前述した実施形態の機能が実現される場合も本発明に含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれることがある。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も本発明に含まれることは言うまでもない。
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートや機能構成に対応するプログラムコードが格納されることになる。
なお、上記各実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
本発明に係る第1の実施形態の文書作成装置に必要な構成要素を示したブロック図である。 本発明に係る第1の実施形態の検索装置に必要な構成要素を示したブロック図である。 本発明に係る第1の実施形態の文書生成手順を示すフローチャートである。 本発明に係る第1の実施形態の検索手順を示すフローチャートである。 図3におけるステップS305の処理を詳細に示すフローチャートである。 図5におけるステップS305bの処理を詳細に示すフローチャートである。 図6におけるステップS305b−cの処理を詳細に示すフローチャートである。 図3におけるステップS306の処理を詳細に示すフローチャートである。 図8におけるステップS306bの処理を詳細に示すフローチャートである。 図9におけるステップS306b−cの処理を詳細に示すフローチャートである。 図4におけるステップS404の処理を詳細に示すフローチャートである。 図11におけるステップS404bの処理を詳細に示すフローチャートである。 図12におけるステップS404b−bの処理を詳細に示すフローチャートである。 図4におけるステップS405の処理を詳細に示すフローチャートである。 図14におけるステップS405bの処理を詳細に示すフローチャートである。 図15におけるステップS405b−bの処理を詳細に示すフローチャートである。 文字の間隔を利用した電子透かし埋め込み方法を説明するための概要図である。電子透かし埋め込み前の状態を表す。 文字の間隔を利用した電子透かし埋め込み方法を説明するための概要図である。電子透かし埋め込み後の状態を表す。 文字に重畳したパターンを利用した電子透かし埋め込み方法を説明するための概要図である。 各実施形態を実現するコンピュータの構成例を示す図である。 第4の実施形態における複数範囲のマーキング方法の一例である。 第4の実施形態における複数ページへのマーキング方法の一例である。 第3の実施形態の検索装置に必要な構成要素を示したブロック図である。 第3の実施形態の検索部203の表示例を示した図である。

Claims (10)

  1. 発話内容を示す音声情報と、当該発話中の各タイミングにおける時刻を示す時刻情報とを取得する手段と、
    前記音声情報に対応する前記発話内容を文字列として記した文書情報を取得する手段と、
    前記文字列における文字に対して、当該文字の発話時刻を特定するための情報を埋め込み情報として埋め込む埋め込み手段と、
    前記埋め込み手段により前記埋め込み情報が埋め込まれた文書情報を出力する文書出力手段とを備え、
    前記埋め込み手段は、
    前記文字列を複数の分割文字列に分割した場合に、それぞれの分割文字列について、
    1つの分割文字列を、1つの埋め込み情報を埋め込む為に用いる文字のグループ単位で分割した場合の先頭グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻を示す情報を前記埋め込み情報として前記先頭グループ中の文字に埋め込む第1の手段と、
    前記先頭グループに後続するグループである後続グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻と前記第1の手段が求めた発話時刻との差分情報を前記埋め込み情報として前記後続グループ中の文字に埋め込む第2の手段と
    を備えることを特徴とする情報処理装置。
  2. 前記分割文字列は、行毎の文字列、句読点で区切られる文字列、の何れかであることを特徴とする請求項1に記載の情報処理装置。
  3. 前記音声情報と前記時刻情報は、動画像情報に含められていることを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記埋め込み手段は、文字間の距離を制御することで埋め込み情報を埋め込む第1の埋め込み方法に基づいて埋め込み処理を行うと共に、各文字に対してパターンを重畳させることで埋め込み情報を埋め込む第2の埋め込み方法に基づいて埋め込み処理を行うことを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 前記文書出力手段が出力した文書情報を取得する取得手段と、
    前記取得手段が取得した文書情報中の文字列を指定文字列として指定するために当該文書情報に付加されたマークの種別を判断する判断手段と、
    前記判断手段による判断結果に応じて、前記指定文字列に埋め込まれている埋め込み情報の抽出方法を選択する選択手段と、
    前記選択手段が選択した抽出方法に従って、前記指定文字列に埋め込まれている埋め込み情報を抽出する抽出手段と、
    前記音声情報において、前記抽出手段が抽出した埋め込み情報が示す時刻における発話内容を音声にて出力する音声出力手段と
    を備えることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記選択手段は、文字に対してマークが重畳されていると前記判断手段が判断した場合には、前記第1の埋め込み方法に対応する抽出方法を選択し、文字間にマークが位置していると前記判断手段が判断した場合には、前記第2の埋め込み方法に対応する抽出方法を選択することを特徴とする請求項5に記載の情報処理装置。
  7. 前記抽出手段は、指定文字列が複数の場合、指定文字列の各々に埋め込まれている埋め込み情報を抽出し、
    前記音声出力手段は、
    前記抽出した各々の埋め込み情報が示す時刻における各々の発話内容を検索し、当該検索した各々の発話内容をユーザの指定に従って並び替えた上で出力することを特徴とする、
    請求項5又は6に記載の情報処理装置。
  8. 発話内容を示す音声情報と、当該発話中の各タイミングにおける時刻を示す時刻情報とを取得する工程と、
    前記音声情報に対応する前記発話内容を文字列として記した文書情報を取得する工程と、
    前記文字列における文字に対して、当該文字の発話時刻を特定するための情報を埋め込み情報として埋め込む埋め込み工程と、
    前記埋め込み工程で前記埋め込み情報が埋め込まれた文書情報を出力する文書出力工程と
    を備え、
    前記埋め込み工程は、
    前記文字列を複数の分割文字列に分割した場合に、それぞれの分割文字列について、
    1つの分割文字列を、1つの埋め込み情報を埋め込む為に用いる文字のグループ単位で分割した場合の先頭グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻を示す情報を前記埋め込み情報として前記先頭グループ中の文字に埋め込む第1の工程と、
    前記先頭グループに後続するグループである後続グループ中の先頭文字の発話時刻を前記時刻情報に基づいて求め、求めた発話時刻と前記第1の工程で求めた発話時刻との差分情報を前記埋め込み情報として前記後続グループ中の文字に埋め込む第2の工程と
    を備えることを特徴とする情報処理方法。
  9. コンピュータを、請求項1乃至7の何れか1項に記載の情報処理装置が有する各手段として機能させるためのコンピュータプログラム。
  10. 請求項9に記載のコンピュータプログラムを格納した、コンピュータが読み取り可能な記憶媒体。
JP2008280267A 2008-10-30 2008-10-30 情報処理装置、情報処理方法 Withdrawn JP2010108296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008280267A JP2010108296A (ja) 2008-10-30 2008-10-30 情報処理装置、情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008280267A JP2010108296A (ja) 2008-10-30 2008-10-30 情報処理装置、情報処理方法

Publications (1)

Publication Number Publication Date
JP2010108296A true JP2010108296A (ja) 2010-05-13

Family

ID=42297677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008280267A Withdrawn JP2010108296A (ja) 2008-10-30 2008-10-30 情報処理装置、情報処理方法

Country Status (1)

Country Link
JP (1) JP2010108296A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226651A (ja) * 2011-04-21 2012-11-15 Canon Inc 情報処理装置、情報処理方法及びプログラム
WO2017221968A1 (ja) * 2016-06-22 2017-12-28 日本電気株式会社 処理装置、信号処理システム、処理方法、および記憶媒体
JP2018033048A (ja) * 2016-08-25 2018-03-01 Jcc株式会社 メタデータ生成システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226651A (ja) * 2011-04-21 2012-11-15 Canon Inc 情報処理装置、情報処理方法及びプログラム
WO2017221968A1 (ja) * 2016-06-22 2017-12-28 日本電気株式会社 処理装置、信号処理システム、処理方法、および記憶媒体
US11011185B2 (en) 2016-06-22 2021-05-18 Nec Corporation Processing device, processing method, and storage medium
JP2018033048A (ja) * 2016-08-25 2018-03-01 Jcc株式会社 メタデータ生成システム

Similar Documents

Publication Publication Date Title
JP5111268B2 (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
US20100008585A1 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP5312420B2 (ja) コンテンツ解析装置、方法およびプログラム
JP2008109394A (ja) 画像処理装置及びその方法、プログラム
JP2006295606A (ja) 画像処理装置及びその方法、プログラム並びに記憶媒体
JP2007166541A (ja) 画像処理方法およびその装置
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP2008022159A (ja) 文書処理装置及び文書処理方法
JP2006050551A (ja) 画像処理装置及びその方法、並びにプログラム及び記憶媒体
JP2010055354A (ja) 画像処理装置及び画像処理プログラム
KR20200076627A (ko) 화상 처리 방법 및 화상 처리 시스템
JP2009266087A (ja) 画像処理装置、画像処理方法及びプログラム
US8310692B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP2007156619A (ja) 印刷処理システム、印刷処理方法及びプログラム
CN1864220A (zh) 存储基于文本的字幕的信息存储介质及处理基于文本的字幕的设备和方法
JP5164426B2 (ja) 表示制御装置および表示制御方法
JP2008146608A (ja) 画像処理装置及びその方法
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2010108296A (ja) 情報処理装置、情報処理方法
JP2006023944A (ja) 画像処理システム及び画像処理方法
JP4706764B2 (ja) 画像処理装置及び画像処理プログラム
JP2005117154A (ja) 電子透かし埋め込み方法、電子透かし埋め込み装置、電子透かし抽出方法、電子透かし抽出装置、上記各方法を実行可能なコンピュータプログラム、及びこれを記憶した記憶媒体
JP4164458B2 (ja) 情報処理装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP2009294870A (ja) 画像処理装置及び方法
JP2002232679A (ja) 画像処理方法及び装置及びコンピュータプログラム及び記憶媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120110