JP2009239630A

JP2009239630A - Ｅｐｇデータ検索システムとｅｐｇデータ検索方法

Info

Publication number: JP2009239630A
Application number: JP2008083290A
Authority: JP
Inventors: Toshiyuki Koga; 敏之古賀; Miwako Doi; 美和子土井; Kaoru Suzuki; 薫鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-03-27
Filing date: 2008-03-27
Publication date: 2009-10-15

Abstract

【課題】ＥＰＧデータのうち番組のタイトルのテキストデータを入力することにより、要求に応じた対象の番組データを検索することができるＥＰＧデータ検索システムとＥＰＧデータ検索方法を提供すること。
【解決手段】検索キーワードを入力してデータベース６に登録された１つ以上のサブワードを検出し、検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施して新規検索キーワードを生成し、その新規検索キーワードを用いて公開データベース７からＥＰＧデータに関連する情報を検索する。
【選択図】図５

Description

本発明は、電子番組ガイド（ＥＰＧ）情報のような番組データのタイトル文字列情報及び詳細文字列情報から、テキスト解析技術を用いて番組情報を検索するＥＰＧデータ検索システムとＥＰＧデータ検索方法に関する。

近年本格化しているデジタルテレビジョン放送では、番組の映像・音声データとともに、テレビの番組表をデータ化したＥＰＧデータとして、番組（コンテンツ）のタイトルを示す情報（タイトル文字列情報）や番組の詳細を説明する情報（詳細文字列情報）や番組のジャンルを示す情報等が放送局から送信されている。

このＥＰＧデータは、地上波放送やインターネット経由で提供を受けることができ、デジタル放送に対応したテレビジョン受信機では、このＥＰＧデータに基づいて画面上に電子番組ガイドを表示させることができる。なお、アナログテレビジョン放送でも、こうしたＥＰＧデータが送信されているものもある。

ユーザは、見たい番組を検索したり、好みの番組についてのデータベースを作成したい場合、ＥＰＧデータを利用して、大まかなジャンル（例えば、スポーツ、ドラマ等）を選んだ後、タイトル（タイトル文字列情報）から検索したり、詳細文字列情報を読んで検索したりしている。

しかし、番組のタイトルの付け方は、タイトル付与者や放送局により千差万別である。ＥＰＧデータで得られる番組名はタイトルが一部省略されていたり、独自の表記方法が用いられたりして正確な番組タイトルと合わない場合が多々あり、番組情報を検索するために障害となっていた。したがって、タイトルからの検索は、ユーザにとって、所望の検索をおこなうためには必ずしも好適な手段とは言い難い。

また、番組の詳細文字列情報からの検索は、詳細文字列情報は文章の形式で記述されており、何ページにも亘ることが少なくないので、詳細文字列情報からの検索もユーザにとって面倒である。

そのため、例えば芸能人名等のキーワードを用いて番組を検索できるようにすれば、ユーザにとって検索が非常に容易になる。ただし、検索の際は、ＥＰＧデータからキーワードを抽出することが必要になる。ＥＰＧデータの記載内容からキーワードを抽出する手法も提案されているが（例えば、特許文献１を参照。）、具体的な抽出方法は記載されていない。

また、ＥＰＧデータのフリーテキスト検索および属性検索手法について、提案がなされている（例えば、特許文献２を参照。）。これによれば、入力されたテキスト検索文字列をテキスト語と属性語に分割し、それらの組み合わせによって得られる文字列を用いて検索をおこなっている。それにより検索結果の数と検索精度を確保している。

また、ＥＰＧデータに基づいて予約録画を行なうシステムも知られている。一例を挙げれば、リモコンからテキスト入力される番組名等のキーワードにより番組検索を行うＤＶＤレコーダ等である。この技術では、音声認識技術を用いて番組名等のキーワードを音声入力することで、番組検索の利便性を図ろうとしている（例えば、特許文献３を参照。）。

さらに、音声認識技術のアプリケーションの一つとして、ＴＶでのＥＰＧの操作が考えられている。電源のＯＮ／ＯＦＦやチャンネルの切換などＴＶの機能の操作や、視聴する番組の選択のために用いられることが検討されている。
特開２０００−１１５６５２号公報特開２００４−２８９８４８号公報特開２００７−１４０１９４号公報

しかしながら、上述のように、ＥＰＧデータのうち、番組（コンテンツ）のタイトル（タイトル文字列情報）によって検索する場合、番組のタイトルの付け方は、タイトル付与者や放送局により千差万別である。すなわち、ＥＰＧで得られる番組名はタイトルが一部省略されていたり、独自の表記方法を用いていたりして正確な番組タイトルと合わない場合が多々あり、番組情報を検索するために障害となっていた。したがって、ＥＰＧデータのタイトルからの検索はユーザにとって、所望の検索をおこなうためには、必ずしも好適な手段とは言い難い。

また、番組の詳細文字列情報からの検索は、詳細文字列情報は文章の形式で記述されており何ページにも亘ることが少なくない。したがって、詳細文字列情報からの検索もユーザにとっては面倒な作業を強いられることになる。

また、特許文献２に開示されているような、ＥＰＧデータのフリーテキスト検索および属性検索では、入力されたテキスト検索文字列がテキスト語と属性語から成っているという前提があることや、さらに、属性語の入力でも検索可能となるということ等から実用性の面では、まだ課題が残っている。

そこで、本発明は、ＥＰＧデータのうち番組のタイトルのテキストデータを入力することにより、要求に応じた対象の番組情報を検索することができるＥＰＧデータ検索システムとＥＰＧデータ検索方法を提供することを目的とする。

本発明の一態様によれば、検索に関与する複数種のデータが格納されているデータベースと、検索に用いる検索キーワードを入力する検索キーワード入力部と、前記検索キーワードから前記データベースに登録されたデータから１つ以上のサブワードの検出を行うサブワード検出部と、前記サブワード検出部により検出された前記サブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことにより新規検索キーワードを生成する新規検索キーワード生成部と、前記新規検索キーワード生成部にて生成された前記新規検索キーワードを用いて外部データベースから前記新規検索キーワードに関連する情報を検索する情報検索部とが形成されていることを特徴とする。

また、本発明の別の一態様によれば、キーワード入力部により検索に用いる検索キーワードを入力する入力ステップと、前記入力ステップにより入力された前記検索キーワードからサブワード検出部によりデータベースに登録された１つ以上のサブワードを検出するサブワード検出ステップと、前記サブワード検出ステップによって検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことによって新規検索キーワードを生成する新規検索キーワード生成ステップと、前記新規検索キーワード生成ステップにて生成された前記新規検索キーワードを用いて外部データベースから情報を検索する情報検索ステップとであることを特徴とするＥＰＧデータ検索方法が提供される。

本発明によれば、ＥＰＧデータのうち番組のタイトルのテキストデータを入力することにより、要求に応じた対象の番組情報を検索することができるＥＰＧデータ検索システムとＥＰＧデータ検索方法とが提供される。

以下、本発明の実施の形態について、図面を参照しながら説明する。

最初に、本明細書で用いる用語について説明する。

まず、「サブワード」の語について説明する。

一般に、「サブワード」の語は音声認識の分野でよく用いられている。音声認識の分野では、入力テキストから言語解析をおこなう際、入力テキストを構成している単語、サブワード又は音節を抽出し、読み付与辞書から当該単語、サブワード又は音節に対応する語彙知識を取得し、入力テキスト全体の読み方と韻律記号を推定している場合が多い。

この場合、「単語」は言語的な意味単位であり、通常、日本語の言語的最小単位である形態素や形態素の組合せ等の単位が用いられる。「単語情報」はテキスト表記と、対応する中間言語（読み方・韻律記号）と、品詞・意味・接続スコア等の解析を行うための付随情報とを有している。

また、「サブワード」は、テキスト表記又は読み１文字以上に対応する中間言語の表記であり、通常、単語より短い単位である。また、「サブワード情報」も単語情報と同様であるが、サブワード情報はアクセント情報（韻律記号）を含まず、単語登録されていない未知語に読み方を付与する際に用いられる。例えば、表記が「神奈川」であれば、予め「神（カ）」「奈（ナ）」「川（ガワ）」の３つのサブワードが定義されている。例えば、表記が「神奈」であれば、読み方として「カナ」を推定するのに用いられている。

これに対して、本明細書で用いる「サブワード」の語は、上述の区分とは少し異なる。すなわち、「サブワード」は、上述のように「単語」に対しての階層構造による下位細分類ではなく、本明細書では、上述の「単語」レベルのものをサブワードとして取扱っている。

例示すると、本明細書では、ＥＰＧデータでの番組のタイトル名が「神奈川・東京の名店！」である場合、それぞれ、「神奈川」、「・」、「東京」、「の」「名店」および「！」を全て「サブワード」として取扱っている。

次に、「接頭辞」、「接尾辞」および「サブタイトル指示語」について説明する。

図１は、ＥＰＧデータでの番組のタイトル名のサンプルを例示したものである。

本明細書で用いる「接頭辞」はタイトルの冒頭の語句で、グループＡでは、「アニメ」を指し、グループＢでは、「ＮＭＫ」を指し、グループＣでは、「趣味楽々」を指している。

また、「接尾辞」はタイトルの末尾の語句で、グループＤで表示されている「！」、「再」および「終」を指している。

なお、「サブタイトル指示語」は、サブタイトルの前に用いられサブタイトルを引導する記号である。グループＣの「趣味楽々・遺跡ウオッチング〜古代のロマンを訪ねて」におけるサブタイトル「古代のロマンを訪ねて」を引導する印である「〜」が該当する。一般に、サブタイトルは括弧（「−」）やダブルクォーテーション（“−”）等の記号で括られることが多く、ここでいうサブタイトル指示語はこのような記号を指している。

次に、本発明の実施形態に係るＥＰＧデータ検索システムの構成について説明する。

図２は、本発明の実施形態に係るＥＰＧデータ検索システムの機能を模式的に示すブロック図である。

ＥＰＧデータ検索システム１は、ＥＰＧデータのうち番組のタイトルの情報を入力して、要求に応じた対象のコンテンツを検索することができるシステムである。なお、ＥＰＧデータ検索システム１を機能的に構成する各部である検索キーワード入力部２、サブワード検出部３、新規検索キーワード生成部４および情報検索部５は、検索キーワード入力部２以外は何れもサブワードデータベース６（以下、「サブワードＤＢ」と略す）と接続されている。

サブワードＤＢ６は、検索に関与する複数種のデータがそれぞれ格納されている複数のデータベース群を有している。それらのデータベース群は、接頭辞を収納した接頭辞ＤＢ６ａ、接尾辞を収納した接尾辞ＤＢ６ｂ、サブタイトル指示語を収納したサブタイトル指示語ＤＢ６ｃ、数詞を収納した数詞ＤＢ６ｄ、新規検索キーワードを収納した新規検索キーワードＤＢ６ｅ、更に、特に図示はしないが、情報検索部５での検索結果を収納する検索結果ＤＢ等である。

図３は、接頭辞ＤＢと接尾辞ＤＢのデータ構造を示す説明図である。図３に示すように、接頭辞ＤＢ６ａと接尾辞ＤＢ６ｂのデータ構造は、データの項目としては、「ＩＤ」、「キーワード」、「出現回数」、対処方法である「削除ｏｒ検索語句」の４項目が格納されている。「キーワード」は登録している接頭辞・接尾辞を指し、「ＩＤ」はそれらに固有に与えられる番号となる。対処方法は検索キーワード生成の際において各シチュエーションにおいて用いられる方法であり、“サブワードを「放置」する”、“サブワードを「削除」する”、“サブワードを検索語句とする（それ以外の文字列部分を「削除」する）”の３つから選択する。「出現回数」に関しては、後述する学習処理の中で説明する。

図４は、サブタイトル指示語ＤＢ６ｃのデータ構造を示す説明図である。図４に示すように、データの項目として、「ＩＤ」、「指示記号」、対処方法である「削除ｏｒ検索語句」の３項目が格納されている。

なお、後述するが、サブワードＤＢ６は学習するものと学習しないものがあり、学習しないサブワードＤＢ６の場合、初期に与えられたサブワードＤＢ６を用いてサブワード検出処理を行う。そのため、データベースの生成時期以降に新しく発生したサブワードに対して検出処理を行うことが出来ないが、既存のサブワードに対しては十分効果を発揮できる。

これらのサブワードＤＢ６は、ＥＰＧデータ検索システム１により、ＥＰＧデータ検索システム１を機能的に構成する各部３、４、５からアクセスされる。それにより、ＥＰＧデータ検索システム１は、入力された検索キーワードを形態素解析し、１つ以上の新規検索キーワードを生成された結果よって得られたサブワード情報を、サブワードＤＢ６の新規検索キーワードＤＢ６ｅに登録する（詳細は後述する）。

検索キーワード入力部２は、所望のコンテンツデータを検索するために検索キーワードを入力する手段で、キーボードや音声入力手段である。

サブワード検出部３は、検索キーワード入力部２から入力された検索キーワードからサブワードＤＢ６を検索し、サブワードＤＢ６に登録された１つ以上のサブワードを検出し、それに伴う処理をおこなう。

それらは、具体的に以下の処理である。

（イ）接頭辞をサブワードとして、検索キーワードから接頭辞ＤＢ６ａに登録された接頭辞を検出する処理をおこなう。

（ロ）接尾辞をサブワードとして、検索キーワードから接尾辞ＤＢ６ｂに登録された接尾辞を検出する処理をおこなう。

（ハ）サブタイトル指示語をサブワードとして、検索キーワードからサブタイトル指示語ＤＢ６ｃに登録されたサブタイトル指示語を検出する処理をおこなう。

（ニ）数詞をサブワードとして、形態素解析によって数詞を検出する処理をおこなう。

（ホ）検索キーワードを形態素解析し、１つ以上の新規検索キーワードを検出し、それらの結果よって得られたサブワード情報をサブワードＤＢ６に登録する。

新規検索キーワード生成部４は、サブワード検出部３によるサブワードの検出処理によって検出されたサブワードに対して、「削除」または「変更」または「放置」の処理を施すことによって、新しい新規検索キーワードを生成する処理をおこなう。なお、個々のサブワードと、それに対する「削除」または「変更」または「放置」の処理との対応は、予めサブワードＤＢ６の中に関係付けて収納されている。

具体的な処理の内容は、以下のようになる。

（イ）サブワード検出部３によって検出された接頭辞を、「削除」または「変更」または「放置」することによって、新しい検索キーワードを生成する。

（ロ）サブワード検出部３によって検出された接尾辞を、「削除」または「変更」または「放置」することによって、新しい検索キーワードを生成する。

（ハ）サブワード検出部３によって検出されたサブタイトル指示語によって指示されたサブタイトルを、「削除」または「変更」または「放置」することによって、新しい検索キーワードを生成する。

（ニ）サブワード検出部３によって検出された数詞を、「削除」または「変更」または「放置」することによって、新しい検索キーワードを「新規検索キーワード」として生成する。

情報検索部５は、新規検索キーワード生成部４で生成された新規検索キーワードを用いて、公開された公開ＤＢ（または、所定のセキュリティ範囲でアクセス可能な外部ＤＢ）７の専用サイト（例えば、「Ｗｉｋｉｐｅｄｉａ」や「はてなダイアリー」等）に格納されている番組データを検索する。

次に、上述の構成に係るＥＰＧデータ検索システム１による検索動作について説明する。なお、検索動作について説明では、ＥＰＧデータ検索システム１の各部については、図１で説明した各部と符号を用いている。

ＥＰＧは、放送波あるいはインターネットを通じて、デジタルテレビ受信機に向けて定期的に送信（例えば、一日に１０回あるいは定時刻に送信）されている。デジタルテレビ受信機では、このＥＰＧを受信して番組表として画面に表示する。インターネットの場合も、同様に番組表として画面に表示される。

受信したＥＰＧには、ＴＶ局、放送日、開始時間、終了時間、タイトル、副題、出演者、内容などの項目に対応した情報が含まれており、これらの情報を番組単位でまとめたものがＥＰＧの番組情報となっている。

まず、ＥＰＧデータのうち、番組のタイトルの情報を入力することにより、要求に応じた対象の番組情報を検索する、検索動作の基本的な考え方について説明する。

上述したように、ＥＰＧデータのうち、番組（コンテンツ）のタイトル（タイトル文字列情報）によって検索する場合、番組のタイトルの付け方は、タイトル付与者や放送局により千差万別である。

そこで、本実施形態では、番組のタイトル（タイトル文字列情報）の表記の仕方のパターンを検出し、番組記事の検索キーワードを検索可能なキーワードへ「変更」することで、検索の際の齟齬を解消するようにしている。

この「変更」のパターンとしては、主に以下の５つが挙げられる。

（１）接頭辞を「削除」する、あるいは、検索キーワードとする。

（２）接尾辞を「削除」する。

（３）サブタイトルを「削除」する。

（４）話数を「削除」する。

（５）検索キーワードを形態素に分割した後、それぞれ接頭辞・接尾辞・サブタイトル指示語の文字列・記号を収録したデータベースを参照して照合処理を行い、必要に応じて「変更」処理を加える。

これによって、公開された公開ＤＢ７の専門サイトに格納されている正確でない番組タイトルからでも番組情報を検索することが可能となる。

以下に、具体的に上述の構成のＥＰＧデータ検索システム１による検索動作の処理等について、順次、処理全体、接頭辞、接尾辞、サブタイトル指示語、数詞およびサブワードＤＢ６の学習についてそれぞれ説明する。

（処理全体）
図５は、ＥＰＧデータ検索システム１による検索動作における全体処理を示すフローチャートである。

まず、操作者は、キーボードや音声入力部による検索キーワード入力部２から、求める情報を検索するために用いられるキーワードとなるＥＰＧのタイトルとなっているテキストデータを入力する（ステップＳ１；入力ステップ）。

検索キーワード入力部２から入力されたテキストデータはサブワード検出部３に入力され、サブワード検出部３では、入力されたテキストデータを形態素解析によって形態素列に分解する。この形態素列の部分列とサブワードＤＢ６に格納されたサブワード文字列とを比較して、一致するものがあればその部分列をサブワードと判別する。

なお、サブワードＤＢ６には、接頭辞、接尾辞、サブタイトル指示語および話数（数詞）の４種類のサブワード分類があり、それぞれ接頭辞として頻出する文字列、接尾辞として頻出する文字列、サブタイトル指示語を示す語として頻出する文字列が格納されている。また末尾に登場する数詞に関しても話数としてサブワードと同じ扱いをして検出対象としている（ステップＳ２；サブワード検出ステップ）。

サブワード検出部３で検出されたサブワードは新規検索キーワード生成部４に入力される。新規検索キーワード生成部４では入力されたサブワードに対して、そのサブワードに応じた処理を行う。例えば、“そのサブワードを「削除」する”、“そのサブワードを検索キーワードとする「変更」”、“サブワードはそのまま残す「放置」”などである。この処理によって新規検索キーワードを生成する（ステップＳ３；新規検索キーワード生成ステップ）。

新規検索キーワード生成部４により生成された新規検索キーワードにより、情報検索部５により公開ＤＢ７の専用サイト（例えば、「Ｗｉｋｉｐｅｄｉａ」や「はてなダイアリー」）に対して検索をおこなう（ステップＳ４；情報検索ステップ）。

検索結果の検索情報収集により、所望の検索結果を得る（ステップＳ５）。

次に、「接頭辞」を検索する際の処理動作について説明する。

（接頭辞）
図６は、接頭辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図５における全体の動作の流れの内、新規検索キーワードによる検索Ｓ４以降のステップは、図５と同様であるので省略している。

まず、操作者は、キーボードや音声入力部による検索キーワード入力部２から、求める情報を検索するために用いられるキーワードとなるＥＰＧのタイトルとなっているテキストデータを入力する（ステップＳ１１）。

検索キーワード入力部２から入力されたテキストデータはサブワード検出部３に入力され、サブワード検出部３では、入力されたテキストデータを形態素解析によって形態素列に分解する（ステップＳ１２ａ）。

サブワードＤＢ６の接頭辞ＤＢ６ａに格納されている接頭辞群の接頭辞が検索される（ステップＳ１２ｂ）。

接頭辞ＤＢ６ａに格納されている接頭辞群と、形態素解析によって得られた形態素列の冒頭部とを比較する。もし形態素列の冒頭部が接頭辞ＤＢ６ａに格納されている接頭辞群の中にあったなら、その形態素列の冒頭部を接頭辞と判断する（ステップＳ１２ｃ）。

ステップＳ１２ｃでの判断により、入力された検索キーワードの形態素列の冒頭部が接頭辞ＤＢ６ａに格納されている接頭辞群の中にあるので、冒頭部を接頭辞と判断した場合、すなわち「Ｙｅｓ」と判断した場合、接頭辞と判断された語は新規検索キーワード生成部４に入力される。

新規検索キーワード生成部４では、入力された検索キーワードに対して、予め語毎に処理が対応付けられている（ワード毎にどの処理を選択するかが接頭辞ＤＢ６ａに項目として格納されている）対応処理をおこない「新規生成キーワード」を生成する。なお、対応処理とは、“接頭辞を残す「放置」”、“接頭辞を「削除」する”、“接頭辞を「検索語句」として扱う（接頭辞より後ろの文字列を「削除」する）”の３つのいずれかである（ステップＳ１３）。

以上の処理によって得られた検索キーワードを新規検索キーワードとして情報検索部５へ出力する。

例えば、図１において、グループＡの語句、“アニメ・”という接頭辞を持つ番組タイトルが多種現れるが、情報を検索する際はこの“アニメ・”の部分は不必要で、検索の障害となる。よって、この接頭辞に関しては「削除」する処理を行う。

また、グループＢの語句、“ＮＭＫ”という接頭辞を持つ番組タイトルは検索に必要であるため、接頭辞を残す処理を行う。

また、グループＣの語句“趣味楽々”は番組タイトルとして採用可能な文字列で、以降の文字列はサブタイトルになる。検索する際は“趣味楽々”の部分を使わないと検索できないため、このキーワードに関してはこの接頭辞を検索語句として扱うようにする。

また、Ｓ１２ｃでの判断により、入力された検索キーワードの形態素列の冒頭部が接頭辞ＤＢ６ａに格納されている接頭辞群の中に無い場合も、冒頭部を接頭辞として見做して放置することにしている。すなわち「Ｎｏ」と判断した場合、接頭辞を残す「放置」処理をおこない、処理によって得られた検索キーワードを新規検索キーワードとして情報検索部５へ出力する。

次に、「接尾辞」を検索する際の処理動作について説明する。

（接尾辞）
接尾辞の処理動作は、基本的には接頭辞と同様である。

図７は、接尾辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図５における全体の動作の流れの内、新規検索キーワードによる検索Ｓ４以降のステップは、図５と同様であるので省略している。

まず、操作者は、キーボードや音声入力部による検索キーワード入力部２から、求める情報を検索するために用いられるキーワードとなるＥＰＧのタイトルとなっているテキストデータを入力する（ステップＳ２１）。

検索キーワード入力部２から入力されたテキストデータはサブワード検出部３に入力され、サブワード検出部３では、入力されたテキストデータを形態素解析によって形態素列に分解する（ステップＳ２２ａ）。

サブワードＤＢ６の接尾辞ＤＢ６ｂに格納されている接尾辞群の接尾辞が検索される（ステップＳ２２ｂ）。

接尾辞ＤＢ６ｂに格納されている接尾辞群と、形態素解析によって得られた形態素列の末尾部とを比較する。もし形態素列の末尾部が接尾辞ＤＢ６ｂに格納されている接尾辞群の中にあったなら、その形態素列の末尾部を接尾辞と判断する（ステップＳ２２ｃ）。

ステップＳ２２ｃでの判断により、入力された検索キーワードの形態素列の末尾部を接尾辞と判断した場合、すなわち「Ｙｅｓ」と判断した場合、接尾辞と判断された語は新規検索キーワード生成部４に入力される。

新規検索キーワード生成部４では、入力された検索キーワードに対して、予め語毎に処理が対応付けられている（ワード毎にどの処理を選択するかが接尾辞ＤＢ６ｂに項目として格納されている）対応処理をおこない「新規生成キーワード」を生成する。なお、対応処理とは、“接尾辞を残す「放置」”、“接尾辞を「削除」する”、“接尾辞を「検索語句」として扱う（接尾辞より後ろの文字列を「削除」する）”の３つのいずれかである（ステップＳ２３）。

また、Ｓ２２ｃでの判断により、入力された検索キーワードの形態素列の冒頭部が接尾辞ＤＢ６ｂに格納されている接頭尾群の中に無い場合も、冒頭部を接尾辞として見做して放置することにしている。

その後、処理によって得られた検索キーワードを新規検索キーワードとして情報検索部５へ出力する（ステップＳ２４）。

次に、「サブタイトル指示語」を検索する際の処理動作について説明する。

（サブタイトル指示語）
サブタイトル指示語の処理動作は、基本的な処理の流れとしては、接頭辞に関する処理、サブタイトル指示語に関する処理と同様であるが、前述のように、サブタイトルは、「サブタイトル指示語」である括弧（「−」）やダブルクォーテーション（“−”）等の記号で括られることが多い。

図８は、サブタイトル指示語を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図５における全体の動作の流れの内、新規検索キーワードによる検索Ｓ４以降のステップは、図５と同様であるので省略している。

まず、操作者は、キーボードや音声入力部による検索キーワード入力部２から、求める情報を検索するために用いられるキーワードとなるＥＰＧのタイトルとなっているテキストデータを入力する（ステップＳ３１）。

検索キーワード入力部２から入力されたテキストデータはサブワード検出部３に入力され、サブワード検出部３では、入力されたテキストデータを形態素解析によって形態素列に分解する（ステップＳ３２ａ）。

サブワードＤＢ６のサブタイトル指示語ＤＢ６ｃに格納されているサブタイトル指示語群からサブタイトル指示語が検索される（ステップＳ３２ｂ）。

サブタイトル指示語ＤＢ６ｃに格納されているサブタイトル指示語群のサブタイトル指示語と、形態素解析によって得られた形態素列とを比較する。もし形態素列の記号がサブタイトル指示語ＤＢ６ｃに格納されているサブタイトル指示語群の中にあったなら、その形態素列の記号をサブタイトル指示語と判断する（ステップＳ３２ｃ）。

ステップＳ３２ｃでの判断により、入力された検索キーワードの形態素列の記号がサブタイトル指示語ＤＢ６ｃに格納されているサブワード指示語群の中にあるので、冒頭部をサブタイトル指示語と判断した場合、サブタイトル指示語と判断された記号は新規検索キーワード生成部４に入力される。

新規検索キーワード生成部４では、入力された検索キーワードに対して、予め語毎に処理が対応付けられている（ワード毎にどの処理を選択するかがサブタイトル指示語ＤＢ６ｃに項目として格納されている）。

なお、対応処理とは、“サブタイトル指示語を「削除」する”、あるいは、“サブタイトル指示語を残す「放置」”の２つのいずれかである（ステップＳ３３）。

また、Ｓ３２ｃでの判断により、入力された検索キーワードの形態素列の冒頭部がサブタイトル指示語ＤＢ６ｃに格納されているサブタイトル指示語群の中に無い場合も、冒頭部をサブタイトル指示語として見做して放置することにしている。したがって、サブタイトル指示語を残す「放置」処理をおこない、処理によって得られた検索キーワードを新規検索キーワードとして情報検索部５へ出力する（ステップＳ３４）。

次に、「数詞」を検索する際の処理動作について説明する。

（数詞）
番組タイトルとして入力された検索キーワードにおいて、末尾に数詞が登場する場合が多い。例えば、図１のグループＢでの「ＮＭＫ短歌−１２」において、数字で表示されている「１２」等である。

まず、数詞の取り扱いの原則について説明する。

数詞が表示されるシチュエーションとして、以下の典型例が考えられる。

（イ）その数詞が話数（第○話）を表す（連続ドラマ、２時間ドラマなど）
（ロ）その数詞が時刻を表す（ニュース番組などに多い）
この場合、（イ）に関しては数詞が無くても、または無い方が適切な検索処理を行うことができる。一方、（ロ）に関してはこの数詞が無い場合は、目的の情報を検索できないことが多い。したがって、数詞が時刻を表すかどうかを判断することによって、このシチュエーションの判断をおこなうようにしている。

また番組タイトルの末尾に番組制作の意図から数詞を加える場合もある。これに対しては別途データベースを用意し、数詞処理動作の以前に除外することにする。

図９は、数詞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図５における全体の動作の流れの内、新規検索キーワードによる検索Ｓ４以降のステップは、図５と同様であるので省略している。

まず、操作者は、キーボードや音声入力部による検索キーワード入力部２から、求める情報を検索するために用いられるキーワードとなるＥＰＧのタイトルとなっているテキストデータを入力する（ステップＳ４１）。

検索キーワード入力部２から入力されたテキストデータはサブワード検出部３に入力され、サブワード検出部３では、入力されたテキストデータを形態素解析によって形態素列に分解する（ステップＳ４１ａ）。

サブワードＤＢ６の数詞ＤＢ６ｄに格納されている数詞データから数詞を検索する（Ｓ４２ｂ）。

検索された数詞が時刻であるか否かを判断する。なお、時刻の情報はＥＰＧにおいて、番組タイトルと同列に付記されているので、このデータを用いる（ステップＳ４２ｃ）。

ステップＳ４２ｃでの判断により、数詞が時刻であると判断した場合、すなわち「Ｙｅｓ」と判断した場合、判断された数詞は新規検索キーワードとして出力される。

一方、ステップＳ４２ｃでの判断により、数詞が時刻でないと判断した場合、数詞を話数と判断し、当該話数（数詞）を削除する（ステップＳ４３）。

当該話数（数詞）を削除した語は、新規検索キーワードとして出力される（ステップＳ４４）。

次に、サブワードＤＢ６の学習について説明する。

（サブワードＤＢ６の学習）
図１０は、サブワードＤＢ６の学習の処理を示すフローチャートである。

サブワードＤＢ６の学習は、まず、操作者は、キーボードや音声入力部による検索キーワード入力部２から、求める情報を検索するために用いられるキーワードとなるＥＰＧからの番組のタイトルとなっているテキストデータを入力する（ステップＳ５１）。

なお、サブワードＤＢ６には、接頭辞、接尾辞、サブタイトル指示語の３種類のサブワード分類があり、それぞれ接頭辞として頻出する文字列、接尾辞として頻出する文字列、サブタイトル指示語を示す語として頻出する文字列が格納されている。また末尾に登場する数詞に関してもサブワードと同じ扱いをして検出対象としている（ステップＳ５２）。

サブワード検出部３で検出されたサブワードは新規検索キーワード生成部４に入力される。新規検索キーワード生成部４では入力されたサブワードに対して、そのサブワードに応じた処理を行う。例えば、“そのサブワードを「削除」する”、“そのサブワードを検索キーワードとする「変更」”、“サブワードはそのまま残す「放置」”などである。この処理によって新規検索キーワードを生成する（ステップＳ５３）。

次に、生成した新規検索キーワードを用いた公開ＤＢ７の専用サイトによる検索をおこなう。すなわち、新規検索キーワード関して、元の入力されたキーワードと共に、番組の説明を行っているページを検索できる公開ＤＢ７の専用サイトによって、各々の検索を行う（ステップＳ５４）。

検索の結果により、それぞれのキーワードに関して、キーワードをタイトルとする番組の説明を行っているページを収集する。例えば、該当するページに“出演者”“コーナー”など番組説明用の語句が含まれている場合、このページが番組の説明を行っていると判断できる（ステップＳ５５）。

収集したページを検索した語彙を元に、新規検索用キーワードに含まれるサブワードをサブワードＤＢ６に登録する。つまり、収集した検索結果を元に、入力用検索キーワードに含まれるサブワードについての扱いを決定し、サブワードＤＢ６に登録する(ステップＳ５６)。

例えば、接頭辞を削除した検索キーワードを用いて番組情報を検索することができれば、その接頭辞を削除すべきサブワードとしてサブワードＤＢ６に登録する。また接頭辞を残した検索キーワードを用いて番組情報を検索できればその接頭辞を検索語句として使用するようサブワードＤＢ６に登録する。

また、登録しようとしているサブワードについてデータベース上のデータがあった場合、出現回数に一つ加算する。この出現回数は、例えば、同じキーワードに対して複数の処理の可能性が考えられる場合などに判断の材料となる。

なお、本発明は上記の実施形態のそのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記の実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

ＥＰＧデータでの番組のタイトル名のサンプル例。本発明の実施形態に係るＥＰＧデータ検索システムの機能を模式的に示すブロック図。本発明の実施形態に係るＥＰＧデータ検索システムに用いられている接頭辞ＤＢと接尾辞ＤＢのデータ構造の説明図。本発明の実施形態に係るＥＰＧデータ検索システムに用いられているサブタイトル指示語ＤＢのデータ構造の説明図。本発明の実施形態に係るＥＰＧデータ検索システムによる検索動作の全体処理を示すフローチャート。本発明の実施形態に係るＥＰＧデータ検索システムおいて、接頭辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャート。本発明の実施形態に係るＥＰＧデータ検索システムおいて、接尾辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャート。本発明の実施形態に係るＥＰＧデータ検索システムおいて、サブタイトル指示語を新規検索キーワードとして出力するまでの処理動作を示すフローチャート。本発明の実施形態に係るＥＰＧデータ検索システムおいて、数詞を新規検索キーワードとして出力するまでの処理動作を示すフローチャート。本発明の実施形態に係るＥＰＧデータ検索システムおいて、サブワードＤＢの学習の処理を示すフローチャート。

符号の説明

１…ＥＰＧデータ検索システム、２…検索キーワード入力部、３…サブワード検出部、４…新規検索キーワード生成部、５…情報検索部、６…サブワードデータベース、６ａ…接頭辞ＤＢ、６ｂ…接尾辞ＤＢ、６ｃ…サブタイトル指示語ＤＢ、６ｄ…数詞ＤＢ、６ｅ…新規検索キーワードＤＢ、７…公開データベース。

Claims

検索に関与する複数種のデータが格納されているデータベースと、
検索に用いる検索キーワードを入力する検索キーワード入力部と、
前記検索キーワードから前記データベースに登録されたデータから１つ以上のサブワードの検出を行うサブワード検出部と、
前記サブワード検出部により検出された前記サブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことにより新規検索キーワードを生成する新規検索キーワード生成部と、
前記新規検索キーワード生成部にて生成された前記新規検索キーワードを用いて外部データベースから前記新規検索キーワードに関連する情報を検索する情報検索部と、
を具備したことを特徴とするＥＰＧデータ検索システム。
前記データベースは、接頭辞を収納した接頭辞データベース、接尾辞を収納した接尾辞データベース、サブタイトル指示語を収納したサブタイトル指示語データベース、数詞を収納した数詞データベース、新規検索キーワードを収納した新規検索キーワードデータベースを具備していることを特徴とする請求項１記載のＥＰＧデータ検索システム。
前記サブワード検出部は、接頭辞をサブワードとして、前記検索キーワードから接頭辞データベースに登録された接頭辞を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出された接頭辞に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項２に記載のＥＰＧデータ検索システム。
前記サブワード検出部は、接尾辞をサブワードとして、前記検索キーワードから接尾辞データベースに登録された接尾辞を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出された接尾辞に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項２に記載のＥＰＧデータ検索システム。
前記サブワード検出部は、サブタイトル指示語をサブワードとして、前記検索キーワードからサブタイトル指示語データベースに登録されたサブタイトル指示語を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出されたサブタイトル指示語に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項２に記載のＥＰＧデータ検索システム。
前記サブワード検出部は、数詞をサブワードとして、前記検索キーワードから数詞データベースに登録された数詞を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出された数詞に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項２に記載のＥＰＧデータ検索システム。
前記サブワード検出部は検索キーワードを形態素解析し、その結果を前記新規検索キーワード生成部によって１つ以上の前記新規検索キーワードを生成し、それらの結果よって得られた情報を前記データベースに登録することを特徴とする請求項２に記載のＥＰＧデータ検索システム。
キーワード入力部により検索に用いる検索キーワードを入力する入力ステップと、
前記入力ステップにより入力された前記検索キーワードからサブワード検出部によりデータベースに登録された１つ以上のサブワードを検出するサブワード検出ステップと、
前記サブワード検出ステップによって検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことによって新規検索キーワードを生成する新規検索キーワード生成ステップと、
前記新規検索キーワード生成ステップにて生成された前記新規検索キーワードを用いて外部データベースから情報を検索する情報検索ステップと、
を具備したことを特徴とするＥＰＧデータ検索方法。