JP2009239630A - Epgデータ検索システムとepgデータ検索方法 - Google Patents
Epgデータ検索システムとepgデータ検索方法 Download PDFInfo
- Publication number
- JP2009239630A JP2009239630A JP2008083290A JP2008083290A JP2009239630A JP 2009239630 A JP2009239630 A JP 2009239630A JP 2008083290 A JP2008083290 A JP 2008083290A JP 2008083290 A JP2008083290 A JP 2008083290A JP 2009239630 A JP2009239630 A JP 2009239630A
- Authority
- JP
- Japan
- Prior art keywords
- search keyword
- subword
- search
- database
- new search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】EPGデータのうち番組のタイトルのテキストデータを入力することにより、要求に応じた対象の番組データを検索することができるEPGデータ検索システムとEPGデータ検索方法を提供すること。
【解決手段】検索キーワードを入力してデータベース6に登録された1つ以上のサブワードを検出し、検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施して新規検索キーワードを生成し、その新規検索キーワードを用いて公開データベース7からEPGデータに関連する情報を検索する。
【選択図】図5
【解決手段】検索キーワードを入力してデータベース6に登録された1つ以上のサブワードを検出し、検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施して新規検索キーワードを生成し、その新規検索キーワードを用いて公開データベース7からEPGデータに関連する情報を検索する。
【選択図】図5
Description
本発明は、電子番組ガイド(EPG)情報のような番組データのタイトル文字列情報及び詳細文字列情報から、テキスト解析技術を用いて番組情報を検索するEPGデータ検索システムとEPGデータ検索方法に関する。
近年本格化しているデジタルテレビジョン放送では、番組の映像・音声データとともに、テレビの番組表をデータ化したEPGデータとして、番組(コンテンツ)のタイトルを示す情報(タイトル文字列情報)や番組の詳細を説明する情報(詳細文字列情報)や番組のジャンルを示す情報等が放送局から送信されている。
このEPGデータは、地上波放送やインターネット経由で提供を受けることができ、デジタル放送に対応したテレビジョン受信機では、このEPGデータに基づいて画面上に電子番組ガイドを表示させることができる。なお、アナログテレビジョン放送でも、こうしたEPGデータが送信されているものもある。
ユーザは、見たい番組を検索したり、好みの番組についてのデータベースを作成したい場合、EPGデータを利用して、大まかなジャンル(例えば、スポーツ、ドラマ等)を選んだ後、タイトル(タイトル文字列情報)から検索したり、詳細文字列情報を読んで検索したりしている。
しかし、番組のタイトルの付け方は、タイトル付与者や放送局により千差万別である。EPGデータで得られる番組名はタイトルが一部省略されていたり、独自の表記方法が用いられたりして正確な番組タイトルと合わない場合が多々あり、番組情報を検索するために障害となっていた。したがって、タイトルからの検索は、ユーザにとって、所望の検索をおこなうためには必ずしも好適な手段とは言い難い。
また、番組の詳細文字列情報からの検索は、詳細文字列情報は文章の形式で記述されており、何ページにも亘ることが少なくないので、詳細文字列情報からの検索もユーザにとって面倒である。
そのため、例えば芸能人名等のキーワードを用いて番組を検索できるようにすれば、ユーザにとって検索が非常に容易になる。ただし、検索の際は、EPGデータからキーワードを抽出することが必要になる。EPGデータの記載内容からキーワードを抽出する手法も提案されているが(例えば、特許文献1を参照。)、具体的な抽出方法は記載されていない。
また、EPGデータのフリーテキスト検索および属性検索手法について、提案がなされている(例えば、特許文献2を参照。)。これによれば、入力されたテキスト検索文字列をテキスト語と属性語に分割し、それらの組み合わせによって得られる文字列を用いて検索をおこなっている。それにより検索結果の数と検索精度を確保している。
また、EPGデータに基づいて予約録画を行なうシステムも知られている。一例を挙げれば、リモコンからテキスト入力される番組名等のキーワードにより番組検索を行うDVDレコーダ等である。この技術では、音声認識技術を用いて番組名等のキーワードを音声入力することで、番組検索の利便性を図ろうとしている(例えば、特許文献3を参照。)。
さらに、音声認識技術のアプリケーションの一つとして、TVでのEPGの操作が考えられている。電源のON/OFFやチャンネルの切換などTVの機能の操作や、視聴する番組の選択のために用いられることが検討されている。
特開2000−115652号公報
特開2004−289848号公報
特開2007−140194号公報
しかしながら、上述のように、EPGデータのうち、番組(コンテンツ)のタイトル(タイトル文字列情報)によって検索する場合、番組のタイトルの付け方は、タイトル付与者や放送局により千差万別である。すなわち、EPGで得られる番組名はタイトルが一部省略されていたり、独自の表記方法を用いていたりして正確な番組タイトルと合わない場合が多々あり、番組情報を検索するために障害となっていた。したがって、EPGデータのタイトルからの検索はユーザにとって、所望の検索をおこなうためには、必ずしも好適な手段とは言い難い。
また、番組の詳細文字列情報からの検索は、詳細文字列情報は文章の形式で記述されており何ページにも亘ることが少なくない。したがって、詳細文字列情報からの検索もユーザにとっては面倒な作業を強いられることになる。
また、特許文献2に開示されているような、EPGデータのフリーテキスト検索および属性検索では、入力されたテキスト検索文字列がテキスト語と属性語から成っているという前提があることや、さらに、属性語の入力でも検索可能となるということ等から実用性の面では、まだ課題が残っている。
そこで、本発明は、EPGデータのうち番組のタイトルのテキストデータを入力することにより、要求に応じた対象の番組情報を検索することができるEPGデータ検索システムとEPGデータ検索方法を提供することを目的とする。
本発明の一態様によれば、検索に関与する複数種のデータが格納されているデータベースと、検索に用いる検索キーワードを入力する検索キーワード入力部と、前記検索キーワードから前記データベースに登録されたデータから1つ以上のサブワードの検出を行うサブワード検出部と、前記サブワード検出部により検出された前記サブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことにより新規検索キーワードを生成する新規検索キーワード生成部と、前記新規検索キーワード生成部にて生成された前記新規検索キーワードを用いて外部データベースから前記新規検索キーワードに関連する情報を検索する情報検索部とが形成されていることを特徴とする。
また、本発明の別の一態様によれば、キーワード入力部により検索に用いる検索キーワードを入力する入力ステップと、前記入力ステップにより入力された前記検索キーワードからサブワード検出部によりデータベースに登録された1つ以上のサブワードを検出するサブワード検出ステップと、前記サブワード検出ステップによって検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことによって新規検索キーワードを生成する新規検索キーワード生成ステップと、前記新規検索キーワード生成ステップにて生成された前記新規検索キーワードを用いて外部データベースから情報を検索する情報検索ステップとであることを特徴とするEPGデータ検索方法が提供される。
本発明によれば、EPGデータのうち番組のタイトルのテキストデータを入力することにより、要求に応じた対象の番組情報を検索することができるEPGデータ検索システムとEPGデータ検索方法とが提供される。
以下、本発明の実施の形態について、図面を参照しながら説明する。
最初に、本明細書で用いる用語について説明する。
まず、「サブワード」の語について説明する。
一般に、「サブワード」の語は音声認識の分野でよく用いられている。音声認識の分野では、入力テキストから言語解析をおこなう際、入力テキストを構成している単語、サブワード又は音節を抽出し、読み付与辞書から当該単語、サブワード又は音節に対応する語彙知識を取得し、入力テキスト全体の読み方と韻律記号を推定している場合が多い。
この場合、「単語」は言語的な意味単位であり、通常、日本語の言語的最小単位である形態素や形態素の組合せ等の単位が用いられる。「単語情報」はテキスト表記と、対応する中間言語(読み方・韻律記号)と、品詞・意味・接続スコア等の解析を行うための付随情報とを有している。
また、「サブワード」は、テキスト表記又は読み1文字以上に対応する中間言語の表記であり、通常、単語より短い単位である。また、「サブワード情報」も単語情報と同様であるが、サブワード情報はアクセント情報(韻律記号)を含まず、単語登録されていない未知語に読み方を付与する際に用いられる。例えば、表記が「神奈川」であれば、予め「神(カ)」「奈(ナ)」「川(ガワ)」の3つのサブワードが定義されている。例えば、表記が「神奈」であれば、読み方として「カナ」を推定するのに用いられている。
これに対して、本明細書で用いる「サブワード」の語は、上述の区分とは少し異なる。すなわち、「サブワード」は、上述のように「単語」に対しての階層構造による下位細分類ではなく、本明細書では、上述の「単語」レベルのものをサブワードとして取扱っている。
例示すると、本明細書では、EPGデータでの番組のタイトル名が「神奈川・東京の名店!」である場合、それぞれ、「神奈川」、「・」、「東京」、「の」「名店」および「!」を全て「サブワード」として取扱っている。
次に、「接頭辞」、「接尾辞」および「サブタイトル指示語」について説明する。
図1は、EPGデータでの番組のタイトル名のサンプルを例示したものである。
本明細書で用いる「接頭辞」はタイトルの冒頭の語句で、グループAでは、「アニメ」を指し、グループBでは、「NMK」を指し、グループCでは、「趣味楽々」を指している。
また、「接尾辞」はタイトルの末尾の語句で、グループDで表示されている「!」、「再」および「終」を指している。
なお、「サブタイトル指示語」は、サブタイトルの前に用いられサブタイトルを引導する記号である。グループCの「趣味楽々・遺跡ウオッチング〜古代のロマンを訪ねて」におけるサブタイトル「古代のロマンを訪ねて」を引導する印である「〜」が該当する。一般に、サブタイトルは括弧(「−」)やダブルクォーテーション(“−”)等の記号で括られることが多く、ここでいうサブタイトル指示語はこのような記号を指している。
次に、本発明の実施形態に係るEPGデータ検索システムの構成について説明する。
図2は、本発明の実施形態に係るEPGデータ検索システムの機能を模式的に示すブロック図である。
EPGデータ検索システム1は、EPGデータのうち番組のタイトルの情報を入力して、要求に応じた対象のコンテンツを検索することができるシステムである。なお、EPGデータ検索システム1を機能的に構成する各部である検索キーワード入力部2、サブワード検出部3、新規検索キーワード生成部4および情報検索部5は、検索キーワード入力部2以外は何れもサブワードデータベース6(以下、「サブワードDB」と略す)と接続されている。
サブワードDB6は、検索に関与する複数種のデータがそれぞれ格納されている複数のデータベース群を有している。それらのデータベース群は、接頭辞を収納した接頭辞DB6a、接尾辞を収納した接尾辞DB6b、サブタイトル指示語を収納したサブタイトル指示語DB6c、数詞を収納した数詞DB6d、新規検索キーワードを収納した新規検索キーワードDB6e、更に、特に図示はしないが、情報検索部5での検索結果を収納する検索結果DB等である。
図3は、接頭辞DBと接尾辞DBのデータ構造を示す説明図である。図3に示すように、接頭辞DB6aと接尾辞DB6bのデータ構造は、データの項目としては、「ID」、「キーワード」、「出現回数」、対処方法である「削除or検索語句」の4項目が格納されている。「キーワード」は登録している接頭辞・接尾辞を指し、「ID」はそれらに固有に与えられる番号となる。対処方法は検索キーワード生成の際において各シチュエーションにおいて用いられる方法であり、“サブワードを「放置」する”、“サブワードを「削除」する”、“サブワードを検索語句とする(それ以外の文字列部分を「削除」する)”の3つから選択する。「出現回数」に関しては、後述する学習処理の中で説明する。
図4は、サブタイトル指示語DB6cのデータ構造を示す説明図である。図4に示すように、データの項目として、「ID」、「指示記号」、対処方法である「削除or検索語句」の3項目が格納されている。
なお、後述するが、サブワードDB6は学習するものと学習しないものがあり、学習しないサブワードDB6の場合、初期に与えられたサブワードDB6を用いてサブワード検出処理を行う。そのため、データベースの生成時期以降に新しく発生したサブワードに対して検出処理を行うことが出来ないが、既存のサブワードに対しては十分効果を発揮できる。
これらのサブワードDB6は、EPGデータ検索システム1により、EPGデータ検索システム1を機能的に構成する各部3、4、5からアクセスされる。それにより、EPGデータ検索システム1は、入力された検索キーワードを形態素解析し、1つ以上の新規検索キーワードを生成された結果よって得られたサブワード情報を、サブワードDB6の新規検索キーワードDB6eに登録する(詳細は後述する)。
検索キーワード入力部2は、所望のコンテンツデータを検索するために検索キーワードを入力する手段で、キーボードや音声入力手段である。
サブワード検出部3は、検索キーワード入力部2から入力された検索キーワードからサブワードDB6を検索し、サブワードDB6に登録された1つ以上のサブワードを検出し、それに伴う処理をおこなう。
それらは、具体的に以下の処理である。
(イ)接頭辞をサブワードとして、検索キーワードから接頭辞DB6aに登録された接頭辞を検出する処理をおこなう。
(ロ)接尾辞をサブワードとして、検索キーワードから接尾辞DB6bに登録された接尾辞を検出する処理をおこなう。
(ハ)サブタイトル指示語をサブワードとして、検索キーワードからサブタイトル指示語DB6cに登録されたサブタイトル指示語を検出する処理をおこなう。
(ニ)数詞をサブワードとして、形態素解析によって数詞を検出する処理をおこなう。
(ホ)検索キーワードを形態素解析し、1つ以上の新規検索キーワードを検出し、それらの結果よって得られたサブワード情報をサブワードDB6に登録する。
新規検索キーワード生成部4は、サブワード検出部3によるサブワードの検出処理によって検出されたサブワードに対して、「削除」または「変更」または「放置」の処理を施すことによって、新しい新規検索キーワードを生成する処理をおこなう。なお、個々のサブワードと、それに対する「削除」または「変更」または「放置」の処理との対応は、予めサブワードDB6の中に関係付けて収納されている。
具体的な処理の内容は、以下のようになる。
(イ)サブワード検出部3によって検出された接頭辞を、「削除」または「変更」または「放置」することによって、新しい検索キーワードを生成する。
(ロ)サブワード検出部3によって検出された接尾辞を、「削除」または「変更」または「放置」することによって、新しい検索キーワードを生成する。
(ハ)サブワード検出部3によって検出されたサブタイトル指示語によって指示されたサブタイトルを、「削除」または「変更」または「放置」することによって、新しい検索キーワードを生成する。
(ニ)サブワード検出部3によって検出された数詞を、「削除」または「変更」または「放置」することによって、新しい検索キーワードを「新規検索キーワード」として生成する。
情報検索部5は、新規検索キーワード生成部4で生成された新規検索キーワードを用いて、公開された公開DB(または、所定のセキュリティ範囲でアクセス可能な外部DB)7の専用サイト(例えば、「Wikipedia」や「はてなダイアリー」等)に格納されている番組データを検索する。
次に、上述の構成に係るEPGデータ検索システム1による検索動作について説明する。なお、検索動作について説明では、EPGデータ検索システム1の各部については、図1で説明した各部と符号を用いている。
EPGは、放送波あるいはインターネットを通じて、デジタルテレビ受信機に向けて定期的に送信(例えば、一日に10回あるいは定時刻に送信)されている。デジタルテレビ受信機では、このEPGを受信して番組表として画面に表示する。インターネットの場合も、同様に番組表として画面に表示される。
受信したEPGには、TV局、放送日、開始時間、終了時間、タイトル、副題、出演者、内容などの項目に対応した情報が含まれており、これらの情報を番組単位でまとめたものがEPGの番組情報となっている。
まず、EPGデータのうち、番組のタイトルの情報を入力することにより、要求に応じた対象の番組情報を検索する、検索動作の基本的な考え方について説明する。
上述したように、EPGデータのうち、番組(コンテンツ)のタイトル(タイトル文字列情報)によって検索する場合、番組のタイトルの付け方は、タイトル付与者や放送局により千差万別である。
そこで、本実施形態では、番組のタイトル(タイトル文字列情報)の表記の仕方のパターンを検出し、番組記事の検索キーワードを検索可能なキーワードへ「変更」することで、検索の際の齟齬を解消するようにしている。
この「変更」のパターンとしては、主に以下の5つが挙げられる。
(1)接頭辞を「削除」する、あるいは、検索キーワードとする。
(2)接尾辞を「削除」する。
(3)サブタイトルを「削除」する。
(4)話数を「削除」する。
(5)検索キーワードを形態素に分割した後、それぞれ接頭辞・接尾辞・サブタイトル指示語の文字列・記号を収録したデータベースを参照して照合処理を行い、必要に応じて「変更」処理を加える。
これによって、公開された公開DB7の専門サイトに格納されている正確でない番組タイトルからでも番組情報を検索することが可能となる。
以下に、具体的に上述の構成のEPGデータ検索システム1による検索動作の処理等について、順次、処理全体、接頭辞、接尾辞、サブタイトル指示語、数詞およびサブワードDB6の学習についてそれぞれ説明する。
(処理全体)
図5は、EPGデータ検索システム1による検索動作における全体処理を示すフローチャートである。
図5は、EPGデータ検索システム1による検索動作における全体処理を示すフローチャートである。
まず、操作者は、キーボードや音声入力部による検索キーワード入力部2から、求める情報を検索するために用いられるキーワードとなるEPGのタイトルとなっているテキストデータを入力する(ステップS1;入力ステップ)。
検索キーワード入力部2から入力されたテキストデータはサブワード検出部3に入力され、サブワード検出部3では、入力されたテキストデータを形態素解析によって形態素列に分解する。この形態素列の部分列とサブワードDB6に格納されたサブワード文字列とを比較して、一致するものがあればその部分列をサブワードと判別する。
なお、サブワードDB6には、接頭辞、接尾辞、サブタイトル指示語および話数(数詞)の4種類のサブワード分類があり、それぞれ接頭辞として頻出する文字列、接尾辞として頻出する文字列、サブタイトル指示語を示す語として頻出する文字列が格納されている。また末尾に登場する数詞に関しても話数としてサブワードと同じ扱いをして検出対象としている(ステップS2;サブワード検出ステップ)。
サブワード検出部3で検出されたサブワードは新規検索キーワード生成部4に入力される。新規検索キーワード生成部4では入力されたサブワードに対して、そのサブワードに応じた処理を行う。例えば、“そのサブワードを「削除」する”、“そのサブワードを検索キーワードとする「変更」”、“サブワードはそのまま残す「放置」”などである。この処理によって新規検索キーワードを生成する(ステップS3;新規検索キーワード生成ステップ)。
新規検索キーワード生成部4により生成された新規検索キーワードにより、情報検索部5により公開DB7の専用サイト(例えば、「Wikipedia」や「はてなダイアリー」)に対して検索をおこなう(ステップS4;情報検索ステップ)。
検索結果の検索情報収集により、所望の検索結果を得る(ステップS5)。
次に、「接頭辞」を検索する際の処理動作について説明する。
(接頭辞)
図6は、接頭辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図5における全体の動作の流れの内、新規検索キーワードによる検索S4以降のステップは、図5と同様であるので省略している。
図6は、接頭辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図5における全体の動作の流れの内、新規検索キーワードによる検索S4以降のステップは、図5と同様であるので省略している。
まず、操作者は、キーボードや音声入力部による検索キーワード入力部2から、求める情報を検索するために用いられるキーワードとなるEPGのタイトルとなっているテキストデータを入力する(ステップS11)。
検索キーワード入力部2から入力されたテキストデータはサブワード検出部3に入力され、サブワード検出部3では、入力されたテキストデータを形態素解析によって形態素列に分解する(ステップS12a)。
サブワードDB6の接頭辞DB6aに格納されている接頭辞群の接頭辞が検索される(ステップS12b)。
接頭辞DB6aに格納されている接頭辞群と、形態素解析によって得られた形態素列の冒頭部とを比較する。もし形態素列の冒頭部が接頭辞DB6aに格納されている接頭辞群の中にあったなら、その形態素列の冒頭部を接頭辞と判断する(ステップS12c)。
ステップS12cでの判断により、入力された検索キーワードの形態素列の冒頭部が接頭辞DB6aに格納されている接頭辞群の中にあるので、冒頭部を接頭辞と判断した場合、すなわち「Yes」と判断した場合、接頭辞と判断された語は新規検索キーワード生成部4に入力される。
新規検索キーワード生成部4では、入力された検索キーワードに対して、予め語毎に処理が対応付けられている(ワード毎にどの処理を選択するかが接頭辞DB6aに項目として格納されている)対応処理をおこない「新規生成キーワード」を生成する。なお、対応処理とは、“接頭辞を残す「放置」”、“接頭辞を「削除」する”、“接頭辞を「検索語句」として扱う(接頭辞より後ろの文字列を「削除」する)”の3つのいずれかである(ステップS13)。
以上の処理によって得られた検索キーワードを新規検索キーワードとして情報検索部5へ出力する。
例えば、図1において、グループAの語句、“アニメ・”という接頭辞を持つ番組タイトルが多種現れるが、情報を検索する際はこの“アニメ・”の部分は不必要で、検索の障害となる。よって、この接頭辞に関しては「削除」する処理を行う。
また、グループBの語句、“NMK”という接頭辞を持つ番組タイトルは検索に必要であるため、接頭辞を残す処理を行う。
また、グループCの語句“趣味楽々”は番組タイトルとして採用可能な文字列で、以降の文字列はサブタイトルになる。検索する際は“趣味楽々”の部分を使わないと検索できないため、このキーワードに関してはこの接頭辞を検索語句として扱うようにする。
また、S12cでの判断により、入力された検索キーワードの形態素列の冒頭部が接頭辞DB6aに格納されている接頭辞群の中に無い場合も、冒頭部を接頭辞として見做して放置することにしている。すなわち「No」と判断した場合、接頭辞を残す「放置」処理をおこない、処理によって得られた検索キーワードを新規検索キーワードとして情報検索部5へ出力する。
次に、「接尾辞」を検索する際の処理動作について説明する。
(接尾辞)
接尾辞の処理動作は、基本的には接頭辞と同様である。
接尾辞の処理動作は、基本的には接頭辞と同様である。
図7は、接尾辞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図5における全体の動作の流れの内、新規検索キーワードによる検索S4以降のステップは、図5と同様であるので省略している。
まず、操作者は、キーボードや音声入力部による検索キーワード入力部2から、求める情報を検索するために用いられるキーワードとなるEPGのタイトルとなっているテキストデータを入力する(ステップS21)。
検索キーワード入力部2から入力されたテキストデータはサブワード検出部3に入力され、サブワード検出部3では、入力されたテキストデータを形態素解析によって形態素列に分解する(ステップS22a)。
サブワードDB6の接尾辞DB6bに格納されている接尾辞群の接尾辞が検索される(ステップS22b)。
接尾辞DB6bに格納されている接尾辞群と、形態素解析によって得られた形態素列の末尾部とを比較する。もし形態素列の末尾部が接尾辞DB6bに格納されている接尾辞群の中にあったなら、その形態素列の末尾部を接尾辞と判断する(ステップS22c)。
ステップS22cでの判断により、入力された検索キーワードの形態素列の末尾部を接尾辞と判断した場合、すなわち「Yes」と判断した場合、接尾辞と判断された語は新規検索キーワード生成部4に入力される。
新規検索キーワード生成部4では、入力された検索キーワードに対して、予め語毎に処理が対応付けられている(ワード毎にどの処理を選択するかが接尾辞DB6bに項目として格納されている)対応処理をおこない「新規生成キーワード」を生成する。なお、対応処理とは、“接尾辞を残す「放置」”、“接尾辞を「削除」する”、“接尾辞を「検索語句」として扱う(接尾辞より後ろの文字列を「削除」する)”の3つのいずれかである(ステップS23)。
また、S22cでの判断により、入力された検索キーワードの形態素列の冒頭部が接尾辞DB6bに格納されている接頭尾群の中に無い場合も、冒頭部を接尾辞として見做して放置することにしている。
その後、処理によって得られた検索キーワードを新規検索キーワードとして情報検索部5へ出力する(ステップS24)。
次に、「サブタイトル指示語」を検索する際の処理動作について説明する。
(サブタイトル指示語)
サブタイトル指示語の処理動作は、基本的な処理の流れとしては、接頭辞に関する処理、サブタイトル指示語に関する処理と同様であるが、前述のように、サブタイトルは、「サブタイトル指示語」である括弧(「−」)やダブルクォーテーション(“−”)等の記号で括られることが多い。
サブタイトル指示語の処理動作は、基本的な処理の流れとしては、接頭辞に関する処理、サブタイトル指示語に関する処理と同様であるが、前述のように、サブタイトルは、「サブタイトル指示語」である括弧(「−」)やダブルクォーテーション(“−”)等の記号で括られることが多い。
図8は、サブタイトル指示語を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図5における全体の動作の流れの内、新規検索キーワードによる検索S4以降のステップは、図5と同様であるので省略している。
まず、操作者は、キーボードや音声入力部による検索キーワード入力部2から、求める情報を検索するために用いられるキーワードとなるEPGのタイトルとなっているテキストデータを入力する(ステップS31)。
検索キーワード入力部2から入力されたテキストデータはサブワード検出部3に入力され、サブワード検出部3では、入力されたテキストデータを形態素解析によって形態素列に分解する(ステップS32a)。
サブワードDB6のサブタイトル指示語DB6cに格納されているサブタイトル指示語群からサブタイトル指示語が検索される(ステップS32b)。
サブタイトル指示語DB6cに格納されているサブタイトル指示語群のサブタイトル指示語と、形態素解析によって得られた形態素列とを比較する。もし形態素列の記号がサブタイトル指示語DB6cに格納されているサブタイトル指示語群の中にあったなら、その形態素列の記号をサブタイトル指示語と判断する(ステップS32c)。
ステップS32cでの判断により、入力された検索キーワードの形態素列の記号がサブタイトル指示語DB6cに格納されているサブワード指示語群の中にあるので、冒頭部をサブタイトル指示語と判断した場合、サブタイトル指示語と判断された記号は新規検索キーワード生成部4に入力される。
新規検索キーワード生成部4では、入力された検索キーワードに対して、予め語毎に処理が対応付けられている(ワード毎にどの処理を選択するかがサブタイトル指示語DB6cに項目として格納されている)。
なお、対応処理とは、“サブタイトル指示語を「削除」する”、あるいは、“サブタイトル指示語を残す「放置」”の2つのいずれかである(ステップS33)。
また、S32cでの判断により、入力された検索キーワードの形態素列の冒頭部がサブタイトル指示語DB6cに格納されているサブタイトル指示語群の中に無い場合も、冒頭部をサブタイトル指示語として見做して放置することにしている。したがって、サブタイトル指示語を残す「放置」処理をおこない、処理によって得られた検索キーワードを新規検索キーワードとして情報検索部5へ出力する(ステップS34)。
次に、「数詞」を検索する際の処理動作について説明する。
(数詞)
番組タイトルとして入力された検索キーワードにおいて、末尾に数詞が登場する場合が多い。例えば、図1のグループBでの「NMK短歌−12」において、数字で表示されている「12」等である。
番組タイトルとして入力された検索キーワードにおいて、末尾に数詞が登場する場合が多い。例えば、図1のグループBでの「NMK短歌−12」において、数字で表示されている「12」等である。
まず、数詞の取り扱いの原則について説明する。
数詞が表示されるシチュエーションとして、以下の典型例が考えられる。
(イ)その数詞が話数(第○話)を表す(連続ドラマ、2時間ドラマなど)
(ロ)その数詞が時刻を表す(ニュース番組などに多い)
この場合、(イ)に関しては数詞が無くても、または無い方が適切な検索処理を行うことができる。一方、(ロ)に関してはこの数詞が無い場合は、目的の情報を検索できないことが多い。したがって、数詞が時刻を表すかどうかを判断することによって、このシチュエーションの判断をおこなうようにしている。
(ロ)その数詞が時刻を表す(ニュース番組などに多い)
この場合、(イ)に関しては数詞が無くても、または無い方が適切な検索処理を行うことができる。一方、(ロ)に関してはこの数詞が無い場合は、目的の情報を検索できないことが多い。したがって、数詞が時刻を表すかどうかを判断することによって、このシチュエーションの判断をおこなうようにしている。
また番組タイトルの末尾に番組制作の意図から数詞を加える場合もある。これに対しては別途データベースを用意し、数詞処理動作の以前に除外することにする。
図9は、数詞を新規検索キーワードとして出力するまでの処理動作を示すフローチャートである。このフローチャートでは、図5における全体の動作の流れの内、新規検索キーワードによる検索S4以降のステップは、図5と同様であるので省略している。
まず、操作者は、キーボードや音声入力部による検索キーワード入力部2から、求める情報を検索するために用いられるキーワードとなるEPGのタイトルとなっているテキストデータを入力する(ステップS41)。
検索キーワード入力部2から入力されたテキストデータはサブワード検出部3に入力され、サブワード検出部3では、入力されたテキストデータを形態素解析によって形態素列に分解する(ステップS41a)。
サブワードDB6の数詞DB6dに格納されている数詞データから数詞を検索する(S42b)。
検索された数詞が時刻であるか否かを判断する。なお、時刻の情報はEPGにおいて、番組タイトルと同列に付記されているので、このデータを用いる(ステップS42c)。
ステップS42cでの判断により、数詞が時刻であると判断した場合、すなわち「Yes」と判断した場合、判断された数詞は新規検索キーワードとして出力される。
一方、ステップS42cでの判断により、数詞が時刻でないと判断した場合、数詞を話数と判断し、当該話数(数詞)を削除する(ステップS43)。
当該話数(数詞)を削除した語は、新規検索キーワードとして出力される(ステップS44)。
次に、サブワードDB6の学習について説明する。
(サブワードDB6の学習)
図10は、サブワードDB6の学習の処理を示すフローチャートである。
図10は、サブワードDB6の学習の処理を示すフローチャートである。
サブワードDB6の学習は、まず、操作者は、キーボードや音声入力部による検索キーワード入力部2から、求める情報を検索するために用いられるキーワードとなるEPGからの番組のタイトルとなっているテキストデータを入力する(ステップS51)。
検索キーワード入力部2から入力されたテキストデータはサブワード検出部3に入力され、サブワード検出部3では、入力されたテキストデータを形態素解析によって形態素列に分解する。この形態素列の部分列とサブワードDB6に格納されたサブワード文字列とを比較して、一致するものがあればその部分列をサブワードと判別する。
なお、サブワードDB6には、接頭辞、接尾辞、サブタイトル指示語の3種類のサブワード分類があり、それぞれ接頭辞として頻出する文字列、接尾辞として頻出する文字列、サブタイトル指示語を示す語として頻出する文字列が格納されている。また末尾に登場する数詞に関してもサブワードと同じ扱いをして検出対象としている(ステップS52)。
サブワード検出部3で検出されたサブワードは新規検索キーワード生成部4に入力される。新規検索キーワード生成部4では入力されたサブワードに対して、そのサブワードに応じた処理を行う。例えば、“そのサブワードを「削除」する”、“そのサブワードを検索キーワードとする「変更」”、“サブワードはそのまま残す「放置」”などである。この処理によって新規検索キーワードを生成する(ステップS53)。
次に、生成した新規検索キーワードを用いた公開DB7の専用サイトによる検索をおこなう。すなわち、新規検索キーワード関して、元の入力されたキーワードと共に、番組の説明を行っているページを検索できる公開DB7の専用サイトによって、各々の検索を行う(ステップS54)。
検索の結果により、それぞれのキーワードに関して、キーワードをタイトルとする番組の説明を行っているページを収集する。例えば、該当するページに“出演者”“コーナー”など番組説明用の語句が含まれている場合、このページが番組の説明を行っていると判断できる(ステップS55)。
収集したページを検索した語彙を元に、新規検索用キーワードに含まれるサブワードをサブワードDB6に登録する。つまり、収集した検索結果を元に、入力用検索キーワードに含まれるサブワードについての扱いを決定し、サブワードDB6に登録する(ステップS56)。
例えば、接頭辞を削除した検索キーワードを用いて番組情報を検索することができれば、その接頭辞を削除すべきサブワードとしてサブワードDB6に登録する。また接頭辞を残した検索キーワードを用いて番組情報を検索できればその接頭辞を検索語句として使用するようサブワードDB6に登録する。
また、登録しようとしているサブワードについてデータベース上のデータがあった場合、出現回数に一つ加算する。この出現回数は、例えば、同じキーワードに対して複数の処理の可能性が考えられる場合などに判断の材料となる。
なお、本発明は上記の実施形態のそのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記の実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1…EPGデータ検索システム、2…検索キーワード入力部、3…サブワード検出部、4…新規検索キーワード生成部、5…情報検索部、6…サブワードデータベース、6a…接頭辞DB、6b…接尾辞DB、6c…サブタイトル指示語DB、6d…数詞DB、6e…新規検索キーワードDB、7…公開データベース。
Claims (8)
- 検索に関与する複数種のデータが格納されているデータベースと、
検索に用いる検索キーワードを入力する検索キーワード入力部と、
前記検索キーワードから前記データベースに登録されたデータから1つ以上のサブワードの検出を行うサブワード検出部と、
前記サブワード検出部により検出された前記サブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことにより新規検索キーワードを生成する新規検索キーワード生成部と、
前記新規検索キーワード生成部にて生成された前記新規検索キーワードを用いて外部データベースから前記新規検索キーワードに関連する情報を検索する情報検索部と、
を具備したことを特徴とするEPGデータ検索システム。 - 前記データベースは、接頭辞を収納した接頭辞データベース、接尾辞を収納した接尾辞データベース、サブタイトル指示語を収納したサブタイトル指示語データベース、数詞を収納した数詞データベース、新規検索キーワードを収納した新規検索キーワードデータベースを具備していることを特徴とする請求項1記載のEPGデータ検索システム。
- 前記サブワード検出部は、接頭辞をサブワードとして、前記検索キーワードから接頭辞データベースに登録された接頭辞を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出された接頭辞に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項2に記載のEPGデータ検索システム。
- 前記サブワード検出部は、接尾辞をサブワードとして、前記検索キーワードから接尾辞データベースに登録された接尾辞を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出された接尾辞に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項2に記載のEPGデータ検索システム。
- 前記サブワード検出部は、サブタイトル指示語をサブワードとして、前記検索キーワードからサブタイトル指示語データベースに登録されたサブタイトル指示語を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出されたサブタイトル指示語に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項2に記載のEPGデータ検索システム。
- 前記サブワード検出部は、数詞をサブワードとして、前記検索キーワードから数詞データベースに登録された数詞を検出する処理をおこない、かつ、前記新規検索キーワード生成部は、前記サブワード検出部によって検出された数詞に対して削除または変更または放置の処理を施すことによって前記新規検索キーワードを生成することを特徴とする請求項2に記載のEPGデータ検索システム。
- 前記サブワード検出部は検索キーワードを形態素解析し、その結果を前記新規検索キーワード生成部によって1つ以上の前記新規検索キーワードを生成し、それらの結果よって得られた情報を前記データベースに登録することを特徴とする請求項2に記載のEPGデータ検索システム。
- キーワード入力部により検索に用いる検索キーワードを入力する入力ステップと、
前記入力ステップにより入力された前記検索キーワードからサブワード検出部によりデータベースに登録された1つ以上のサブワードを検出するサブワード検出ステップと、
前記サブワード検出ステップによって検出されたサブワードに対して、削除、変更および放置のうちのいずれかの処理を該サブワードごとに予め定められた関係によって施すことによって新規検索キーワードを生成する新規検索キーワード生成ステップと、
前記新規検索キーワード生成ステップにて生成された前記新規検索キーワードを用いて外部データベースから情報を検索する情報検索ステップと、
を具備したことを特徴とするEPGデータ検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008083290A JP2009239630A (ja) | 2008-03-27 | 2008-03-27 | Epgデータ検索システムとepgデータ検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008083290A JP2009239630A (ja) | 2008-03-27 | 2008-03-27 | Epgデータ検索システムとepgデータ検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009239630A true JP2009239630A (ja) | 2009-10-15 |
Family
ID=41253058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008083290A Pending JP2009239630A (ja) | 2008-03-27 | 2008-03-27 | Epgデータ検索システムとepgデータ検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009239630A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022643A (ja) * | 2010-07-16 | 2012-02-02 | Toshiba Corp | 表示装置及び表示方法 |
JP2018519555A (ja) * | 2016-04-27 | 2018-07-19 | 北京小米移動軟件有限公司Beijing Xiaomi Mobile Software Co.,Ltd. | 資源検索方法、装置、プログラム、及び記録媒体 |
-
2008
- 2008-03-27 JP JP2008083290A patent/JP2009239630A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012022643A (ja) * | 2010-07-16 | 2012-02-02 | Toshiba Corp | 表示装置及び表示方法 |
JP2018519555A (ja) * | 2016-04-27 | 2018-07-19 | 北京小米移動軟件有限公司Beijing Xiaomi Mobile Software Co.,Ltd. | 資源検索方法、装置、プログラム、及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5178109B2 (ja) | 検索装置、方法及びプログラム | |
Arisoy et al. | Turkish broadcast news transcription and retrieval | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
CN107741928A (zh) | 一种基于领域识别的对语音识别后文本纠错的方法 | |
KR20120113717A (ko) | 검색 장치, 검색 방법, 및 프로그램 | |
JP2011100355A (ja) | 発言記録装置、発言記録方法、プログラム及び記録媒体 | |
CN1965319A (zh) | 信息检索装置、输入辅助装置、方法及程序 | |
JP2007087397A (ja) | 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 | |
WO2010109709A1 (ja) | コンテンツ推薦装置及び方法 | |
JP2012043000A (ja) | 検索装置、検索方法、及び、プログラム | |
JP2008083952A (ja) | 辞書作成支援システム、方法及びプログラム | |
JP2009140466A (ja) | 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム | |
JP4977241B2 (ja) | 表示装置及び表示方法 | |
JP2009080576A (ja) | 検索装置、方法及びプログラム | |
JP5404726B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP2009239630A (ja) | Epgデータ検索システムとepgデータ検索方法 | |
JP2009187048A (ja) | 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム | |
JP2007199315A (ja) | コンテンツ提供装置 | |
JP6126965B2 (ja) | 発話生成装置、方法、及びプログラム | |
JP2005227545A (ja) | 辞書作成装置、番組案内装置及び辞書作成方法 | |
WO2008044669A1 (fr) | Programme de recherche d'informations audio et son support d'enregistrement, système de recherche d'informations audio, et procédé de recherche d'informations audio | |
JP2007257369A (ja) | 情報検索装置 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP2010044614A (ja) | キーフレーズ抽出装置、シーン分割装置およびプログラム |