JP2000067085A

JP2000067085A - 非コ―ド化情報のデ―タベ―ス化方式

Info

Publication number: JP2000067085A
Application number: JP11208465A
Authority: JP
Inventors: Yoshihide Nakao; 好秀中尾
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-07-23
Filing date: 1999-07-23
Publication date: 2000-03-03

Abstract

(57)【要約】【課題】動画像など文字コード化されていないために
特徴の抽出が困難な非コード化情報を自動的にデータベ
ース化して省力化を図る。【解決手段】動画像２１を任意の一定時間またはシー
ンごとに分割することで分割動画像２３を生成し、その
分割動画像２３が伴っている音声に対して音声認識処理
２４を施し、その分割動画像２３の中に含まれている会
話や音声の内容を認識することで音声情報２５を得、こ
の音声情報２５に対して言語処理２６を施すことにより
キーワード２７を抽出し、出現頻度の高いキーワードほ
ど大きな点数を与える点数付けを行い、点数が基準点以
上の場合にはその該当するキーワードをその分割動画像
に付加してデータベース化する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、図面や絵や動画像
などの文字コード化されない非コード化情報を対象とし
て、その情報のデータベース化を図ったり、高精度な検
索を可能にしたりする技術に関する。本発明の利用分野
としては、任意の言葉で検索できる図面，絵，動画像
などのデータベースシステム、マルチメディアシステ
ム、言葉で検索できる電子ファイルシステム、テレ
ビ画像の自動選択録画および検索システム、ビデオ録
画画像の分類および検索システム、インタラクティブ
ムービーなどがある。

【０００２】

【従来の技術】従来、図面や画像などの非コード化情報
をデータベース化する場合、それぞれに対して単純に異
なった番号を付け、別途に対照表を用意して、データベ
ースを蓄積したり、そのデータベースを検索したりして
いた。あるいは、図面や画像などの非コード化情報を人
間が見て、その非コード化情報が表現している意味（内
容）に最も適切なキーワードや検索情報を付加して分類
し、データベースを蓄積したり、そのデータベースを検
索したりしていた。例えば画像ファイルシステムなどで
は入力したイメージ画像に対して、人間が表題や検索情
報を後から入力していた。いずれにしろ、人為的な判断
が必須となっていた。

【０００３】

【発明が解決しようとする課題】図面や絵や動画像など
の非コード化情報は、その情報の特徴を単純に抽出する
ことがきわめてむずかしい。したがって、従来からそれ
らの非コード化情報を分類したり整理したりする場合、
機械的に番号を付け、別途に対照表を用意するか、ある
いは、人間がその非コード化情報を見て適当な表題や検
索情報を付加するなどしていた。これらは、その大部分
の作業が人為的なものであった。機械的に番号を付けた
場合は対照表を用意して検索しなければならず、検索作
業がきわめて大変であった。また、表題や検索情報を付
加する場合も、それらを付加する作業自体が大変なもの
であった。このようにデータベースの作成に多大な手間
がかかる上に、検索情報を人間が付けているために主観
が入り込んでしまい、客観的で的確なデータベース化が
むずかしいという問題を有していた。

【０００４】本発明は、このような事情に鑑みて創案さ
れたものであって、動画像など文字コード化されていな
いために本来的にはそのものから特徴を抽出することが
きわめてむずかしい非コード化情報の中において、ある
いはそのような非コード化情報の周辺において、その非
コード化情報を説明するために付加されている音声の言
語情報に着目し、そのような言語情報を用いて動画像な
どの非コード化情報を自動的にデータベース化したり高
精度な検索が可能になるようにすることを目的とする。
換言すれば、従来においてそのデータベース化に莫大な
人手作業を必要とした非コード化情報のデータベース化
を自動化し、省力化を図ることを目的とする。また、従
来にあっては、分類やキーワード付けのなされていない
非コード化情報のデータベースの検索はむずかしいもの
であったが、その検索を容易化することも目的とする。

【０００５】

【課題を解決するための手段】本発明に係る非コード化
情報のデータベース化方式は、その最大の特徴が、音声
を伴う動画像に対して任意の一定時間またはシーンごと
に分割動画像を得る分割処理と、その分割動画像が伴っ
ている音声に対してその中に含まれている音声の内容を
認識し、その音声内容から音声情報を取得する音声認識
処理と、その音声情報から複数のキーワードを抽出する
言語処理と、その抽出された各キーワードに対してその
出現頻度が高いものほど大きな点数を付与する点数付け
処理と、各キーワードに付与された点数が基準点に達し
ているか否かを判断する点数判別処理と、基準点以上の
点数を持つと判断されたキーワードに対してはそれに該
当する分割画像またはその分割画像に付随して音声が記
録されている部分に付加する付加処理と、を順次施すこ
とで、動画像のデータベースを作成することを特徴とし
ている。

【０００６】これによって、本発明によれば、分割動画
像が伴っている音声情報から抽出したキーワードに対し
て点数を付与し、基準点以上のキーワードを分割動画像
に付加してデータベース化してあるから、分割動画像と
それを分類・検索するためのキーワードとの関連付けが
密接なものとなる。

【０００７】

【発明の実施の形態】以下に、本発明に係る非コード化
情報のデータベース化方式の実施の形態に関して図面を
用いて説明する。

【０００８】（第１実施例）この第１実施例は、文書中
にある図についてのデータベースの作成に関するもので
ある。図１は第１実施例に係る非コード化情報のデータ
ベース化方式の構成を示すブロック線図である。

【０００９】非コード化情報である図を含む文書１を画
像データとしてスキャナ２で読み込み、文章情報と図の
情報とを電子化する。次に、これらに対して所要の画像
処理３を施すことにより、文章データ部分４と図データ
部分５とに分離する。図データ部分５が非コード化情報
に相当している。さらに、文章データ部分４と図データ
部分５に対して文字認識処理６を行い、文章データ部分
４中の文字および図データ部分５中の文字をそれぞれコ
ード化する。このコード化によって作成されたのが文字
情報７であるが、その文字情報７に対して言語処理８を
施すことによって複数のキーワード９を抽出する。これ
らのキーワード９は、元の文書１に対応している。

【００１０】次いで、抽出した複数のキーワード９に対
して点数付け処理１０を行う。この点数付け処理１０に
ついては次のように行う。すなわち、図の辺の付近にお
いて他の文章とは離れており、しかも、図の辺と平行に
記載されている文章から抽出したキーワードに対しては
最も大きな点数を与える。図中にある文字から抽出した
キーワードには次に大きな点数を与える。図の周辺に存
在する文章から抽出したキーワードに対して次に大きな
点数を与えるが、この場合、図から位置的に近い順に大
きな点数を与える。さらに、出現頻度の高いキーワード
ほど大きな点数を与える。以上のようにして、さまざま
のキーワード９に対してそれぞれ独自の点数が付与され
ることになる。

【００１１】次に、点数判別処理１１により各キーワー
ド９に付与されている点数が基準点に達しているか否か
を判断し、基準点以上の点数をもつキーワード９をそれ
に該当する図データ部分５に対して付加する付加処理１
２を施すことによって図のデータベース１３を作成す
る。

【００１２】以上のようにして作成された図のデータベ
ース１３を分類する場合には上記のキーワード９に従っ
て分類する。また、そのデータベース１３を検索する場
合には、検索者が検索したい図に関連した言葉を入力
し、入力した言葉に合致するキーワード９またはそれに
近いキーワード９を付加されている図データ部分５を読
み出す。この検索の場合において、付与されている点数
が高いキーワード９から順に検索するのである。

【００１３】（第２実施例）この第２実施例は、動画像
についてのデータベースの作成に関するものである。図
２は第２実施例に係る非コード化情報の検索方式の構成
を示すブロック線図である。

【００１４】非コード化情報の顕著な例である音声を伴
う動画像２１に対して分割処理２２を施すことにより、
動画像２１を任意の一定時間またはシーンごとに分割
し、分割動画像２３を得る。次に、分割動画像２３が伴
っている音声に対して音声認識処理２４を施し、その分
割動画像２３の中で話されている会話や音声の内容を認
識する。この音声認識処理２４によって音声情報２５が
得られるが、この音声情報２５に対して言語処理２６を
施すことによって複数のキーワード２７を抽出する。こ
れらのキーワード２７は、分割動画像２３に対応してい
る。

【００１５】次いで、抽出した複数のキーワード２７に
対して点数付け処理２８を施す。この点数付け処理２８
は、出現頻度の高いキーワードほど大きな点数を与える
ものとする。これにより、各キーワード２７に対してそ
れぞれ独自の点数が付与されることになる。

【００１６】次に、点数判別処理２９により各キーワー
ド２７に付与されている点数が基準点に達しているか否
かを判断し、基準点以上の点数をもつキーワード２７を
それに該当する分割動画像２３またはその分割動画像２
３に付随して音声が記録されている部分に対して付加す
る付加処理３０を施すことによって動画像のデータベー
ス３１を作成する。

【００１７】以上のようにして作成された動画像のデー
タベース３１を分類する場合には上記のキーワード２７
に従って分類する。また、そのデータベース３１を検索
する場合には、検索者が検索したい動画像に関連した言
葉を入力し、入力した言葉に合致するキーワード２７ま
たはそれに近いキーワード２７を付加されている分割動
画像２３を読み出す。この検索の場合において、付与さ
れている点数が高いキーワード２７から順に検索するの
である。

【００１８】以上説明した第１実施例および第２実施例
によれば、次の利点がある。

【００１９】データベースの作成を完全自動化する
ことにより大幅な省力化を図ることができる。

【００２０】キーワードの付加を自動的に行うた
め、人間の主観が入り込む余地がなく、キーワードのバ
ラツキのない均質で精度の高いデータベース化が可能と
なっている。

【００２１】キーワードの付加を自動的に負うた
め、人手作業の場合に比べて大幅な高速化を図ることが
できる。

【００２２】人間では分からないか判断しにくいよ
うな情報に対しても、客観的なキーワードを付加するこ
とができる。

【００２３】前後に存在する多くの言語情報を用い
ることにより、幅広いキーワードが付加でき、漏れのな
い分類や検索が可能になる。

【００２４】（第３実施例）この第３実施例はマルチメ
ディアデータベースの検索に関するものである。具体的
には、ＣＤ−ＲＯＭのようにすでに作られており、読み
出しはできるが書き込みができないデータベースに示し
た有効な検索方式である。ＣＤ−ＲＯＭ等に記録された
マルチメディアデータベースの中から特定の図面や画像
や動画像の一部を検索するシステムである。図３は第３
実施例に係る非コード化情報の検索方式の構成を示すブ
ロック線図である。

【００２５】検索者４１は自分が欲する情報に関連した
言葉や文章を自然言語４２としてシステムに入力する。
システムは、入力された自然言語４２に対して言語処理
４３を施すことにより、その自然言語４２の中から適切
な複数のキーワード４４を自動的に抽出する。そして、
そのキーワード４４を用いてまずＣＤ−ＲＯＭ等のマル
チメディアデータベース４５の中のコード化された文字
情報４５ａを検索し、キーワード４４と同一または同様
の意味もしくは近い意味の文字データを抽出する。

【００２６】次に、システムは、抽出した文字データに
対して位置的に近い部位にある画像情報４５ｂを近い順
に検索する。あるいは、抽出した文字データに対して時
間的に近い部位にある動画像を一定シーン切り出して抽
出する。切り出すシーンの長さは検索者４１の指示によ
り任意に設定でき、また、抽出後も任意に変更できる。
この図面や画像や動画像の抽出においては、抽出されて
きたものとキーワード４４とのマッチング処理４６を行
い、一定の度合い以上にマッチングしておれば、画像サ
ーチ処理４７を行って抽出すべき対象を絞り込んでい
き、最終的に画像抽出処理４８により抽出対象を検索者
４１に提供する。

【００２７】検索者４１は、以上の処理によって得られ
た情報が満足できないものであったり、あるいはさらに
詳細な情報を得たい場合には、システムに対して次のス
テップの指示をする。システムは、画像認識処理４９に
よってデータベース４５中の画像情報４５ｂを分析し文
字認識によりイメージ状の文字を文字コードに変換す
る。また、音声認識処理５０によってデータベース４５
中の音声情報４５ｃを分析し音声認識により音声を文字
コードに変換する。そして、この新たに生成された文字
コードの少なくともいずれか一方に基づいてデータベー
ス４５を前記と同様に検索し、関連する文字データに対
して位置的もしくは時間的に近い部位にある画像情報４
５ｂや動画像の一部のシーンを抽出し、前述と同様の手
順を経て検索者４１に提供する。

【００２８】この第３実施例の検索方式によれば、ＣＤ
−ＲＯＭだけでなく、分類やキーワード付けのなされて
いないどのようなデータベースからでも検索者が必要と
する任意の非コード化情報を高速かつ的確に検索するこ
とができる。

【００２９】（第４実施例）この第４実施例はインタラ
クティブムービーの作成および検索に係るものである。
図４はインタラクティブムービーのデータベースの概念
図、図５はキーワード画像対照表を示す図である。デー
タベース５１は、画像データ記録部５２とキーワード画
像対照表５３とを有している。画像データ記録部５２に
は、画像データ番号が割り当てられた複数の画像データ
５２ａ，５２ｂ，……，５２ｉ，…が記録されている。
キーワード画像対照表５３においては、キーワードと画
像データ番号との対応だけでなく、次に接続して行うべ
き抽出対象となるキーワードとの対応を付けたキーワー
ドリンクが確保されている。

【００３０】この方式は第２実施例とよく似ている。ま
ず最初に、動画像情報とともに同時記録されている音声
情報の分析を行って、ナレーションや会話などの音声部
分を抽出し、音声認識処理によって文字コードに変換す
る。次いで、変換した文字コード列に言語処理を施して
キーワードを抽出する。次に、動画像情報に画像処理を
行い、画面内に文字情報の記録されている動画像を切り
出す。そして、１つの文字情報に関して、文字情報それ
ぞれについて最も鮮明に文字情報が記録されている画像
を１枚ずつ自動的に抽出する。今度は、その画像に対し
て文字認識処理を行い、画面内の文字を認識し文字コー
ドに変換する。次いで、上記と同様に変換した文字コー
ド列に言語処理を施してキーワードを抽出する。以上に
より、音声情報に基づいたキーワードと画像情報に基づ
いたキーワードとが抽出されたことになる。

【００３１】動画像情報の中の音声および文字からキー
ワードを抽出した部位に対して検索用の識別信号を記録
し、データベース５１において動画像情報の前部（また
は後部）に、キーワードと識別信号（画像データ番号）
との組み合わせよりなるキーワード画像対照表５３を付
加する。

【００３２】インタラクティブムービーを作成する場合
には、このようにして作成した１つまたは複数の動画像
情報を組み合わせて作成する。ユーザーは、そのときに
見たいストーリーや場面を自然言語で入力する。する
と、システムが言語処理を行ってキーワードを抽出し、
そのキーワードと同じまたは同様の意味もしくは近い意
味をもつキーワードをキーワード画像対照表５３より選
択する。その結果、ユーザーが求める内容に最も近い動
画像情報が抽出され、その動画像情報の先頭または必要
部位からの再生が開始される。

【００３３】このようにユーザーがインタラクティブに
自分の見たい内容の動画像情報を抽出することができ
る。さらに、ユーザーが複数のキーワードを順次に入力
することにより、複数の動画像を接続して任意のストー
リーのムービーを作ることができる。

【００３４】また、動画像情報から抽出した複数のキー
ワード相互間に、キーワードリンクという多様な関連付
けを行うことにより複雑なインタラクティブムービーの
作成も可能となる。

【００３５】

【発明の効果】本発明によれば、動画像のデータベース
化が自動的に行われるから、ほぼ全般的に人為的作業に
頼っていた従来方式に比べて大幅な省力化を図ることが
でき、また、高精度な検索も可能になった。

【図面の簡単な説明】

【図1】本発明の第１実施例に係る非コード化情報のデ
ータベース化方式の構成を示すブロック線図である。

【図２】本発明の第２実施例に係る非コード化情報のデ
ータベース化方式の構成を示すブロック線図である。

【図３】本発明の第３実施例に係る非コード化情報の検
索方式の構成を示すブロック線図である。

【図４】本発明の第４実施例に係るインタラクティブム
ービーのデータベースの概念図である。

【図５】本発明の第４実施例におけるキーワード画像対
照表を示す図である。

【符号の説明】

１図を含む文書２スキャナ３画像処理４文章データ部分５図データ部分６文字認識処理７文字情報８言語処理９キーワード１０点数付け処理１１点数判別処理１２付加処理１３図のデータベース２１動画像２２分割処理２３分割動画像２４音声認識処理２５音声情報２６言語処理２７キーワード２８点数付け処理２９点数判別処理３０付加処理３１動画像のデータベース４１検索者４２自然言語４３言語処理４４キーワード４５マルチメディアデータベース４５ａ文字情報４５ｂ画像情報４５ｃ音声情報４６マッチング処理４７画像サーチ処理４８画像抽出処理４９画像認識処理５０音声認識処理５１インタラクティブムービーデータベース５２画像データ記録部５３キーワード画像対照表

Claims

【特許請求の範囲】

【請求項１】音声を伴う動画像に対して任意の一定時
間またはシーンごとに分割動画像を得る分割処理と、そ
の分割動画像が伴っている音声に対してその中に含まれ
ている音声の内容を認識し、その音声内容から音声情報
を取得する音声認識処理と、その音声情報から複数のキ
ーワードを抽出する言語処理と、その抽出された各キー
ワードに対してその出現頻度が高いものほど大きな点数
を付与する点数付け処理と、各キーワードに付与された
点数が基準点に達しているか否かを判断する点数判別処
理と、基準点以上の点数を持つと判断されたキーワード
に対してはそれに該当する分割画像またはその分割画像
に付随して音声が記録されている部分に付加する付加処
理と、を順次施すことで、動画像のデータベースを作成
することを特徴とする非コード化情報のデータベース化
方式。