JP2015215681A

JP2015215681A - キーワード抽出装置およびプログラム

Info

Publication number: JP2015215681A
Application number: JP2014096836A
Authority: JP
Inventors: 苗村　昌秀; Masahide Naemura; 昌秀苗村; 山内　結子; Yuiko Yamauchi; 結子山内; クリピングデルサイモン; Clippingdale Simon; 高橋　正樹; Masaki Takahashi; 正樹高橋
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-05-08
Filing date: 2014-05-08
Publication date: 2015-12-03
Anticipated expiration: 2034-05-08
Also published as: JP6433045B2

Abstract

【課題】与えられたテキストデータから、精度よくキーワードの抽出を行う。
【解決手段】キーワード抽出装置は、キーワードの集合を格納しておくコーパスデータ記憶部、テキストデータを取得するテキスト取得部と、テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、テキスト取得部が取得した第１のテキストデータを元にキーワードを抽出し、抽出したキーワードを、ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、コーパスデータ記憶部およびローカルコーパスデータ記憶部のそれぞれから読み出したキーワードと、テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって、第２のテキストデータに含まれるキーワードを抽出するキーワード抽出部と、を具備する。
【選択図】図１

Description

本発明は、コンピューター等による自然言語処理技術を用いた、キーワード抽出装置およびそのプログラムに関する。

コンピューター等を用いて、放送番組を検索したり、放送番組に関連する文書を検索したり、放送番組を推薦したりする処理のために、放送番組の字幕等のテキスト文から意味のあるキーワードを抽出する処理がよく行われている。テキストからキーワードを抽出するために、よく行われる手法の基本は、テキストに含まれる文を形態素解析し、形態素の品詞を分類し、名詞ないしは名詞句を取り出すという処理である。そして、名詞または名詞句を取り出した後には、コーパスデータとのマッチングを行ったり、対象とする文書に関して暗黙的または明示的に定められたルールを適用したりすることによって、所望の名詞等の部分をキーワードとして抽出する。

例えば、特許文献１には、字幕情報から抽出したキーワード情報を映像再生装置の再生時に利用して、簡単に再生内容がわかるように、再生コンテンツのナビゲーションを行う技術が開示されている。ここでのキーワード抽出処理は、字幕文に形態素解析を行い、名詞部分を取り出す。この後に、括弧やクオーテーションなどの記号で囲まれている名詞部分を重要語として抽出する処理と、該当名詞の意味があらかじめ作成していたジャンルデータベースに登録されているかどうかを調べて抽出する処理とを含む。

また、例えば、特許文献２には、番組内容に関連したキーワードから、番組内容に関連した詳細情報をインターネットなど介して提供するシステムが開示されており、ここで、キーワード抽出処理が使われている。この場合も、形態素解析を基本処理として行ってから、形態素解析処理で取り出した名詞部分とごく辞書との照合処理でキーワード抽出処理を実現している。

特開２０１２−０３４２３５号公報特開２０１３−１６８０９１号公報

前述の通り、従来の技術によるキーワード抽出処理では、形態素解析処理が基本となっている。したがって、形態素解析処理そのものが抱えている問題がそのまま、キーワード抽出処理の課題として残る。形態素解析処理の問題とは、例えば、複合語、外来語、固有表現、口語文などへの対応等に問題を有する点である。

本発明は、上記のような課題を解決すべく為されたものであり、形態素解析処理を前提とせずに、文を含むテキストから、キーワードを抽出することのできるキーワード抽出装置およびそのプログラムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様によるキーワード抽出装置は、キーワードの集合を格納しておくコーパスデータ記憶部と、テキストデータを取得するテキスト取得部と、前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、前記テキスト取得部が取得した第１のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって、前記第２のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、を具備することを特徴とするものである。

［２］また、本発明の一態様は、上記のキーワード抽出装置において、前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、前記キーワード抽出部は、前記第２のテキストデータが属する範囲を越えて変更されたときには、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第２のテキストデータとのマッチングに用いる、ことを特徴とする。

［３］また、本発明の一態様は、上記のキーワード抽出装置において、テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、前記第１のテキストデータは、テレビの番組に関する番組説明文のデータであり、前記第２のテキストデータは、前記番組における字幕テキストのデータであり、前記所定範囲は、前記番組内における前記字幕テキストの範囲である、ことを特徴とする。

［４］また、本発明の一態様は、上記のキーワード抽出装置において、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせる、ことを特徴とする。
この構成により、キーワード抽出部は長いキーワードを優先的にマッチングさせる処理を行う。長いキーワードは、マッチング処理の結果の精度が良いため、装置全体としてのキーワード抽出の精度が上がる。

［５］また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワードは、名詞または名詞句であり、前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第２のテキストデータとマッチングさせることによって前記第２のテキストデータに含まれるキーワードを抽出し、次に、前記第２のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、ことを特徴とする。
この構成により、所定の長さ以上のキーワードについては、形態素解析処理前にマッチング行う。これにより、長いキーワードの抽出の精度がより向上する。これは形態素解析処理自体の特性として、語長の長い名詞部分を正しく出力するのが困難である、という問題を回避することにもつながる。

［６］また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第２のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、ことを特徴とする。
この構成により、第１のテキストデータだけでなく、第２のテキストデータをも用いて、つまり第２のテキストデータに含まれていたキーワードをも用いて、ローカルコーパスデータを生成することができる。

［７］また、本発明の一態様は、上記のキーワード抽出装置において、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第２のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、ことを特徴とする。
この構成により、テキストデータ内における言い換えや表現の揺れなどに対応して、名寄せした結果を出力することができる。

［８］また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、ことを特徴とする。
この構成により、キーワード検出の精度を上げることができる。つまり、キーワードの誤検出を防ぐことができる。また、キーワードの種類（例えば、漢字、ひらかな、カタカナ、英数字、特殊文字等の、文字の種別による分類）ごとに、キーワードに関する知識を適用することができる。

［９］また、本発明の一態様は、コンピューターを、キーワードの集合を格納しておくコーパスデータ記憶部、テキストデータを取得するテキスト取得部、前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部、前記テキスト取得部が取得した第１のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって、前記第２のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部、として機能させるためのプログラムである。

本発明によれば、ローカルコーパスデータを、所定の範囲内のみで局所的に用いた形で、精度の高いキーワード抽出を行うことができる。
また、本発明によれば、形態素解析処理において正しく処理されにくい、長いキーワードの検出も、精度よく行うことができる。
また、本発明によれば、テレビの字幕等のテキストデータから精度よくキーワードを抽出し、テレビ放送と連携したサービスにおいて、そのようなキーワードを利用することができるようになる。

本発明の実施形態によるキーワード抽出装置の機能構成を示すブロック図である。同実施形態によるコーパスデータベース（大規模コーパスデータベースおよびローカルコーパスデータベース）の基本構成を示す概略図である。同実施形態によるキーワード抽出装置が字幕テキストからキーワードを抽出する処理の手順を示すフローチャートである。同実施形態による大規模コーパスデータベースを構築する手順を示す概略図である。同実施形態におけるローカルコーパスデータベース生成部１３による、ローカルコーパスデータベースの構築手順を示したフローチャートである。同実施形態による段階的キーワードマッチングの処理の手順を示すフローチャートの一部分（１／２）である。同実施形態による段階的キーワードマッチングの処理の手順を示すフローチャートの一部分（２／２）である。

次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、本実施形態によるキーワード抽出装置の機能構成を示すブロック図である。この図において、符号１はキーワード抽出装置である。図示するように、キーワード抽出装置１は、コーパスデータベース構築処理部１１と、大規模コーパスデータベース記憶部１２（コーパスデータ記憶部）と、ローカルコーパスデータベース生成部１３（ローカルコーパスデータ生成部）と、ローカルコーパスデータベース記憶部１４（ローカルコーパスデータ記憶部）と、字幕・番組説明文抽出部１６（テキスト取得部）と、キーワード抽出部１７と、カテゴリー抽出部１８と、を含んで構成される。

なお、このキーワード抽出装置１は、例えば、テレビ受像機の内部に設けられたり、ケーブル等によってテレビ受像機と接続されたりする。これにより、キーワード抽出装置１は、テレビ受像機が受信するデジタル放送信号を利用して、キーワードの抽出を行う。
また、このキーワード抽出装置１の機能は、大別してオフラインで行うオフライン処理部と、リアルタイム処理を行うオンライン処理部とから構成される。オフライン処理の典型的なものは、コーパスデータベース構築処理部１１による、大規模コーパスデータベースの構築の処理である。オンライン処理の中心は、受信中のデジタル放送信号を元に、リアルタイムに字幕テキストからキーワードを抽出する処理（キーワード抽出部１７）である。

コーパスデータベース構築処理部１１は、例えば外部から取得可能な辞書リソースのデータを元に、大規模コーパスデータベースを構築し、大規模コーパスデータベース記憶部１２に書き込みを行う。
大規模コーパスデータベース記憶部１２は、テキストとのマッチング処理に使用するためのキーワードの集合を格納しておく記憶手段である。

ローカルコーパスデータベース生成部１３は、番組内にローカルなコーパスを生成し、ローカルコーパスデータベース記憶部１４に書き込む。ローカルコーパスデータベース生成部１３は、２種類のデータを元として、このローカルコーパスデータベースを生成する。その第１は、字幕・番組説明文抽出部１６から得られる番組説明文を解析することによって抽出される情報である。また、その第２は、キーワード抽出部１７が番組の字幕から抽出したキーワードの情報である。番組説明文のテキストは、その番組の特徴を表すデータである。
別の観点では、ローカルコーパスデータベース生成部１３は、字幕・番組説明文抽出部１６が取得した第１のテキストデータ（番組説明文）を元にキーワードを抽出し、抽出したキーワードを、ローカルコーパスデータベース記憶部１４に登録する。

ローカルコーパスデータベース記憶部１４は、対象とする番組内にローカルなコーパスデータを記憶するものである。例えば、名詞（典型的には、番組の出演者の氏名などといったもの）の言い換えや短縮形などが、ローカルコーパスデータベースに含まれる。氏名の言い換えとは、例えば、ニックネームや、姓・名のうちの片方のみに接尾語の「ちゃん」などを付加して得られる愛称などである。ローカルコーパスデータベース記憶部１４が記憶するローカルコーパスデータは、番組内で局所的に出現しやすい表現の揺れなどの名寄せの目的のために用いられ得る。
なお、ローカルコーパスデータベースは、番組ごとに区別した形で存在する。後述する通り、利用者がテレビ番組を視聴中に番組を切り替えた場合には、使用するローカルコーパスデータベースも切り替えられる。
ローカルコーパスデータベース記憶部１４は、現在処理中の（字幕・番組説明文抽出部１６が取得中の）所定範囲内のテキストデータのみを対象とするために、キーワードの集合を格納しておく。所定範囲とは、例えば、テレビ放送における一つの番組の範囲である。

字幕・番組説明文抽出部１６は、外部からデジタルテレビ放送の信号を取得し、その信号からテキストデータを抽出する。ここで抽出するテキストデータは、デジタル放送の信号に所定の形式で含まれている、放送番組の説明文や、字幕テキストである。なお、デジタルテレビ放送の信号の構成については、周知であるため、ここでの説明を省略する。字幕・番組説明文抽出部１６は、抽出した番組説明文のテキスト（第１のテキストデータ）を、ローカルコーパスデータベース生成部１３に渡す。また、字幕・番組説明文抽出部１６は、抽出した字幕のテキスト（第２のテキストデータ）を、キーワード抽出部１７に渡す。

キーワード抽出部１７は、大規模コーパスデータベース記憶部１２から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部１４から読み出すローカルコーパスデータとのマッチング処理を行うことにより、字幕・番組説明文抽出部１６から受け取った字幕テキストに含まれるキーワードを抽出する。
また、キーワード抽出部１７は、語長の長いものから優先させて大規模コーパスデータベース記憶部１２から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部１４から読み出すローカルコーパスデータのそれぞれから読み出したキーワードと、字幕・番組説明文抽出部１６から受け取った字幕テキストとをマッチングさせる。
また、キーワード抽出部１７は、大規模コーパスデータベースおよびローカルコーパスデータベースが保持するキーワード間の関連付け情報（言い換え可能な関係）を参照することによって、字幕テキストデータから抽出した複数のキーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数のキーワードを統合する名寄せ処理を行ってから出力する。

カテゴリー抽出部１８は、キーワード抽出部１７によって抽出されたキーワードに、カテゴリー情報を付加して出力する。なお、カテゴリー抽出部１８は、キーワードに対応するカテゴリー情報を、コーパスデータベースから取得する。

図２は、コーパスデータベースの基本構造を示す概略図である。同図に示すデータ構成は、大規模コーパスデータベース（大規模コーパスデータベース記憶部１２）とローカルコーパスデータベース（ローカルコーパスデータベース記憶部１４）の両方に共通のものである。図示するように、コーパスデータベースは、語長と単語情報とを関連付けた表形式のデータとして表現されている。語長とは、単語の長さ（文字数）である。本実施形態では、語長が大きい（長い）順に、整列された状態で、データベースが構築されている。なお、各エントリーを語長順に並べるための具体的な実現方法としては、例えば、データの記録媒体上で物理的に語長の長い順にデータを配置するようにしても良いし、語長についてのインデックス（索引）データ等を用いて、論理的に語長の長い順にデータを配置するようにしても良い。
つまり、コーパスデータベースは、各々のキーワードと、そのキーワードの語長とを関連付けて格納する。

同図では、語長の長い順にデータが配置されており、全部でＭ個の単語ｗ（１），ｗ（２），・・・，ｗ（Ｍ）が登録されている。図示する例では、単語ｗ（ｉ＋１）までは、語長がＫ（Ｋは正整数）である。そして、単語ｗ（ｉ＋２）からは、語長が（Ｋ−１）である。なお、後述する通り、Ｋは予め設定された値であり、語長がＫ以上のコーパス要素と、語長がＫ未満のコーパス要素とでは、使い方が少し異なる。

各々の単語（キーワード）に関して、コーパスデータベースは、単語そのもののほかに、その単語が属するカテゴリーの情報、名寄せ処理に用いるための言い換え用の単語の集合の情報を持っている。
また、コーパスデータベースでは、キーワードは、その種類ごとにまとめて格納されている。ここで、キーワードの種類とは、漢字、ひらがな、カタカナ、英数字、その他特殊文字などといった、タイプの別である。この種類の使い方については、後述する。

また、ローカルコーパスデータベースにおけるあるエントリーの元が、大規模コーパスデータベースにおけるエントリーである場合には、ローカルコーパスデータベース側のエントリーから大規模コーパスデータベース上のエントリーへのリンク情報（所在場所を指し示す情報）も付属的に保持されている。
また、コーパスデータベースは、言い換えによるキーワードに関しては、言い換え前のキーワードへのリンク情報をも保持する。

図３は、キーワード抽出装置１が字幕テキストからキーワードを抽出する処理の手順を示すフローチャートである。以下、このフローチャートに沿って、キーワード抽出の処理の手順を説明する。
なお、このフローチャートの処理に入る前に、大規模コーパスデータベースおよびローカルコーパスデータベースは、それぞれ既に構築されている。それらそれぞれの構築方法等については、後で別の図を参照しながら説明する。特に、大規模コーパスデータベースはオフライン処理として最初に構築されている。

まずステップＳ１において、字幕・番組説明文抽出部１６は、取得したデジタル放送信号から、字幕テキストのデータを抽出し、キーワード抽出部１７に渡す。キーワード抽出部１７は、その字幕テキストを、一時的にバッファ記憶手段に蓄積する。
次にステップＳ２において、キーワード抽出部１７が、字幕・番組説明文抽出部１６から渡された字幕テキストを、大規模コーパスデータベース（大規模コーパスデータベース記憶部１２）およびローカルコーパスデータベース（ローカルコーパスデータベース記憶部１４）とマッチングさせることによる、段階的なキーワード抽出を行う。このキーワード抽出処理の詳細については、別の図を参照しながら後で説明する。

次にステップＳ３において、キーワード抽出部１７は、ステップＳ２でマッチしたキーワードを、前記のバッファ記憶手段から除去する。また、キーワード抽出部１７は、そのキーワードをローカルコーパスデータベース生成部１３に渡す。そして、ローカルコーパスデータベース生成部１３は、そのキーワードが未登録である場合には、ローカルコーパスデータベース（ローカルコーパスデータベース記憶部１４）に追加登録する。

なお、補足すると、ステップＳ２で記載した「段階的な」という意味は、次の通りである。即ち、ステップＳ２においてあるキーワードがマッチして、ステップＳ３ではそのキーワードが前記のバッファ記憶手段上の字幕テキストデータから除去される。その後、処理のループ（後述の、ステップＳ５からＳ２へ戻る制御）によって再びステップＳ２に戻ってきたときに、また、除去後の字幕テキストデータを対象としたキーワードマッチングを行う。このようにキーワードを１個ずつマッチさせながら、そのキーワードをローカルコーパスデータベースに登録するとともに、バッファ記憶手段上の字幕テキストデータから削除し、その削除後の字幕テキストデータを対象としたマッチングを次の段階で行う。
言い換えると、キーワード抽出装置１は、字幕から検出されたキーワードを除いた字幕文に対して、引き続き、キーワードの検出を行う。そして、検出対象となる字幕要素がなくなるか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がなくなるか、のいずれかまで同じ処理を繰り返し行う。

ステップＳ３の後、ステップＳ４において、カテゴリー抽出部１８は、キーワード抽出部１７によって抽出されたキーワードが属するカテゴリーの情報を抽出する。そして、カテゴリー抽出部１８は、キーワードと、そのカテゴリー情報との対を、外部に出力する。

次にステップＳ５において、キーワード抽出装置１は、現在の字幕テキストにおいて、キーワード検出の最終段階に達しているか否かを判定する。ここで、最終段階とは、キーワードマッチングの対象となる要素がなくなった段階である。具体的には、最終段階とは、バッファ記憶手段における字幕テキストの中にもう要素がないか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がないか、のいずれかの状態である。既に最終段階に達していれば（ステップＳ５：ＹＥＳ）次のステップＳ６に進み、まだ最終段階でなければ（ステップＳ５：ＮＯ）さらなるマッチングのためにステップＳ２に戻る。

次にステップＳ６において、キーワード抽出装置１は、処理した字幕テキストが最後の字幕テキストであるか否かを判断する。言い換えれば、キーワード抽出装置１は、残っているか否かを判断する。最後の字幕テキストである場合（ステップＳ６：ＹＥＳ）には、キーワード抽出装置１は、このフローチャート全体の処理を終了する。まだ処理すべき字幕テキストが残っている場合（ステップＳ６：ＮＯ）には、次の字幕テイストを処理するためにステップＳ１に戻る。

図４は、大規模コーパスデータベースを構築する手順を示す概略図である。この処理は、コーパスデータベース構築処理部１１によって予めオフラインで行われる。大規模コーパスデータベースは、本実施形態によるキーワード抽出処理において利用しやすい構造を有する。コーパスデータベース構築処理部１１は、外部から取得する辞書リソースのデータを、そのような構造に整形する。大規模コーパスデータベースの元となる情報は、例えば、ウィキペディア（Wikipedia）などといった、オープンリソースの辞書データベースである。もちろん、こういった既存のデータベースを用いる代わりに、コーパスの要素を収集することによって大規模コーパスデータベースを構築しても良い。なお、本実施形態が想定する大規模コーパスデータベースが保持する単語数は、百万語から百数十万語程度であるが、実際には、その範囲より多い単語数、あるいは少ない単語数で、コーパスデータベースを構築しても良い。

同図に示す通り、コーパスデータベース構築処理部１１は、辞書リソースのデータを取得し、まず、辞書リソースに含まれる各々のキーワードを種類別に分類する処理を行う（符号８１の処理）。ここで、種類とは、漢字、ひらがな、カタカナ、英数字、特殊文字など、キーワードを構成する文字の種別による分類である。これは、文字コードにより判別可能である。そして、次に、コーパスデータベース構築処理部１１は、分類された種類ごとに、キーワードの長さ（字数）によるソーティング処理を行う（符号８２の処理）。これは、図２で説明したとおり、コーパスデータベース中の単語を語長順に使用するためである。ソーティング処理は、語長をキーとして、降順の結果が得られるように行われる。そして、ソーティング後の各キーワードについて、単語の付属情報を付加する処理を行う。付属情報を付加する処理とは、語長インデックス情報を生成して付加する処理（符号８３）と、その単語のエイリアス（別名，言い換え）情報を付加する処理（符号８４）と、単語のカテゴリー情報を付加する処理（符号８５）である。
なお、上の処理におけるエイリアス情報は、名寄せ処理のために用いることができる。

辞書リソースとして前記のウィキペディアを選択する場合には、辞書データ全体をダウンロードして利用することができる。また、キーワードごとのカテゴリー情報やエイリアス情報は、ダウンロードしたファイルから直接得ることもでき、また辞書本文（解説文）を解析することによって得ることもできる。

図５は、ローカルコーパスデータベース生成部１３による、ローカルコーパスデータベースの構築手順を示したフローチャートである。以下、このフローチャートに沿って処理を説明する。

まずステップＳ３１において、ローカルコーパスデータベース生成部１３は、字幕・番組説明文抽出部１６から番組説明文を取得する。この番組説明文は、典型的には番組の開始時に、字幕・番組説明文抽出部１６によってデジタル放送信号から抽出されるものである。また、本ステップにおいて、ローカルコーパスデータベース生成部１３は、現在の番組に対応するローカルコーパスデータベースを選択する。
次にステップＳ３２において、ローカルコーパスデータベース生成部１３は、受け取った番組説明文のテキストから、主要なキーワードを抽出する。

次にステップＳ３３において、ローカルコーパスデータベース生成部１３は、抽出されたキーワードの言い換えとなり得るエイリアス情報を大規模コーパスデータベース（大規模コーパスデータベース記憶部１２）から読み出す。そして、ローカルコーパスデータベース生成部１３は、当該キーワードに関連する言い換え用のキーワードの集合を、ローカルコーパスデータベース（ローカルコーパスデータベース記憶部１４）に追加登録する。

次にステップＳ３４において、ローカルコーパスデータベース生成部１３は、番組が切り替えられたか否かを判断する。この判断は、例えば、テレビ受像機側から得られる信号に基づいて行うことができる。利用者によるリモコン操作等により、テレビ受像機は受信するチャンネルを切り替える。
判断の結果、番組が切り替えられていた場合（ステップＳ３４：ＹＥＳ）にはステップＳ３５に進む。番組が切り替えられていなかった場合（ステップＳ３４：ＮＯ）にはステップＳ３７に飛ぶ。

ステップＳ３５に進んだ場合には、同ステップにおいて、ローカルコーパスデータベース生成部１３は、ローカルコーパスデータベースを切り替える。つまり、番組切り替え前に使用していたローカルコーパスデータベースと番組切り替え後に使用するローカルコーパスデータベースは、異なる。既に述べたとおり、ローカルコーパスデータベースは、番組ごとに存在する。

次にステップＳ３６において、ローカルコーパスデータベース生成部１３は、番組が終了したか否かを判断する。この判断も、テレビ受像機側から得られる信号に基づいて行うことができる。テレビ放送信号に含まれる制御情報に基づいて、テレビ受像機は、番組の終了を検知することができる。
判断の結果、番組が終了した場合（ステップＳ３６：ＹＥＳ）にはステップＳ３８に進む。番組が終了していない場合（ステップＳ３６：ＮＯ）にはステップＳ３７に進む。

ステップＳ３７に進んだ場合、同ステップにおいて、キーワード抽出部１７は、字幕テキストからの段階的なキーワード抽出の処理を行う。キーワード抽出部１７によるキーワード抽出の処理の手順については、別の図で説明する通りである。

ステップＳ３８に進んだ場合、同ステップにおいて、ローカルコーパスデータベース生成部１３は、ローカルコーパスデータベースをリセットする。なお番組が終了した場合には、次の番組の開始に伴って、その番組に対応したローカルコーパスデータベースが対象となるように選択される（ステップＳ３１において記載の通り）。

上の処理手順で説明した通り、番組の切り替えも、番組の終了も生じなかった場合には、キーワード抽出装置１は、字幕テキストからのキーワード抽出を行っていく（ステップＳ３７）。そして、抽出されたキーワードに関して、その言い換えキーワードがまだローカルコーパスデータベースに登録されていない場合には、ローカルコーパスデータベースに言い換えキーワードの登録を行う（ステップＳ３３）。なお、ローカルコーパスデータベースに登録されたキーワードは、キーワード抽出部１７が字幕からキーワードを抽出する処理を行う際の、マッチングの対象となる。つまり、キーワード抽出部１７は、大規模コーパスデータベースとローカルコーパスデータベースの両方を同等に扱い、キーワードのマッチング用に使用する。

図６および図７は、段階的キーワードマッチングの処理の手順を示すフローチャートである。なお、ステップＳ５１からＳ６８までで表される一連の処理がこれら両図に分けて示されている。以下、このフローチャートに沿って説明する。

まずステップＳ５１（図６）において、キーワード抽出部１７は、字幕テキストとコーパスデータ（大規模コーパスデータベースとローカルコーパスデータベースの両方。以下も同様。）とのマッチングを行う。このとき、キーワード抽出部１７は、コーパスデータベース内で語長の長い要素から順にマッチングを行う。つまり、最初は、コーパスデータベース内で最も語長さの長い要素がマッチング対象となる。

次にステップＳ５２において、キーワード抽出部１７は、ステップＳ５１のマッチング処理において、字幕テキストとコーパスデータベースとの間のマッチングが検出されたか否かを判断する。検出された場合、即ち、現在のコーパスデータベースの要素が字幕テキスト内に存在した場合（ステップＳ５２：ＹＥＳ）には、次のステップＳ５３に進む。検出されなかった場合、即ち、現在の要素が字幕テキスト内に存在しなかった場合（ステップＳ５２：ＮＯ）には、ステップＳ５７に飛ぶ。

次にステップＳ５３において、キーワード抽出部１７は、単語の種類に応じた確認を行う。これは、ステップＳ５２におけるキーワードの検出が誤りである場合に訂正するためである。ここでの確認は、キーワードの種類ごとに行われる。図４において説明したように、コーパスデータベースではキーワードの種類ごとでの登録が行われているため、キーワード抽出部１７はその種類を利用して、マッチしたキーワードの種類に応じた確認を行う。キーワード抽出部１７は、確認すべき事項についてのルールを、キーワードの種類ごとに保持しており、それらのルールを適用する。つまり、キーワード抽出部１７は、キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出結果とする。

ルールの一例は、次の（ａ）および（ｂ）通りである。
（ａ）漢字のキーワードの場合：テキスト中で検出されたそのキーワードの前または後にカタカナまたは英数字がある場合は、その検出は正しい。
（ｂ）漢字のキーワードの場合：４文字以上の漢字が連続している場合は、その検出は正しい。
（ｃ）カタカナのキーワードの場合：テキスト中で検出されたそのキーワードの前または後にカタカナがある場合は、その検出は誤りである。
なお、ルールはこれらに限定されない。

次にステップＳ５４において、キーワード抽出部１７は、上のステップＳ５３における確認の結果を判断する。そして、ステップＳ５２の判定で検出されたキーワードが、誤検出であった場合（ステップＳ５４：ＹＥＳ）には、ステップＳ５７に飛ぶ。ステップＳ５２の判定で検出されたキーワードが正しく検出されたものである場合（ステップＳ５４：ＮＯ）には、次のステップＳ５５に進む。

ステップＳ５５に進んだ場合、同ステップにおいて、キーワード抽出部１７は、字幕テキストの一時的バッファ記憶手段から、検出に成功したキーワードを除去する。

そして、ステップＳ５６において、キーワード抽出部１７は、次のコーパス要素の語長をチェックする。具体的には、次の要素の語長が、Ｋより小さいか否かを判定する。ここで、Ｋは予め設定された値である。この語長のチェックは、コーパスデータベース内に格納されているキーワードのうち、長さ（文字数）がＫ以上のものだけをマッチングの対象とするために行うものである。そして、「語長＜Ｋ」が真（ＴＲＵＥ）である場合（ステップＳ５６：ＹＥＳ）、ステップＳ５８に進む。そして、「語長＜Ｋ」が偽（ＦＡＬＳＥ）である場合（ステップＳ５６：ＮＯ）には、つまり次のコーパス要素の語長も充分に長い場合には、ステップＳ５７に進む。

ステップＳ５７に進んだ場合、キーワード抽出部１７は、コーパスデータベースから、次の要素を選択する。ここで、キーワード抽出部１７は、語長を最優先し、まだマッチングに使用していないコーパス要素の中から最も語長の長い要素を選択する。つまり、次の要素の選択において、語長が長いことは、キーワードの種類（漢字、ひらかな、カタカナ、英数字、特殊記号の別）よりも優先される。

次にステップＳ５８において、キーワード抽出部１７は、字幕テキストのうち、既に検出されたキーワードの箇所（除去されたキーワードが元々存在していた箇所）を名詞部分と特定するという制約の下で、制限付き形態素解析処理を実行する。この形態素解析処理の結果、字幕テキストは、形態素に分解されるとともに、各形態素の品詞の情報が得られる。なお、形態素解析処理自体は既存技術を用いて行うことができる。

次に図７に移り、ステップＳ５９において、キーワード抽出部１７は、ステップＳ５８での形態素解析処理の結果から、名詞部分を１つ取り出す。以下の処理では、取り出した名詞部分と、コーパスデータベースとの、キーワードマッチングを行っていく。

次にステップＳ６０において、キーワード抽出部１７は、ステップＳ５９で取り出された名詞部分と、コーパスデータベースの要素とのマッチングを行う。なお、本ステップでは、まだここまでにマッチングに用いられていない、長さがＫ未満のコーパス要素が対象となる。

次にステップＳ６１において、キーワード抽出部１７は、ステップＳ６０のマッチング処理において、名詞部分とコーパス要素との間のマッチングが検出されたか否かを判断する。検出された場合、即ち、現在のコーパスデータベースの要素が現在の名詞部分にあたる場合（ステップＳ６１：ＹＥＳ）には、次のステップＳ６２に進む。検出されなかった場合、即ち、現在のコーパス要素が現在の名詞部分と異なる場合（ステップＳ６１：ＮＯ）には、ステップＳ６７に飛ぶ。

ステップＳ６２に進んだ場合、同ステップにおいて、キーワード抽出部１７は、単語の種類に応じた確認を行う。これは、ステップＳ６１で検出されたキーワードについて確認を行うものである。その確認の方法は、キーワードの種類ごとのルールを用いるものであり、ステップＳ５３で記述した確認と同様である。

次にステップＳ６３において、キーワード抽出部１７は、キーワード抽出部１７は、上のステップＳ６２における確認の結果を判断する。そして、ステップＳ６１の判定で検出されたキーワードが、誤検出であった場合（ステップＳ５４：ＹＥＳ）には、ステップＳ６７に飛ぶ。ステップＳ６１の判定で検出されたキーワードが正しく検出されたものである場合（ステップＳ５４：ＮＯ）には、次のステップＳ６４に進む。

ステップＳ６４に進んだ場合、同ステップにおいて、キーワード抽出部１７は、形態素解析済みの字幕データにまだ名詞部分が残っているか否かを判定する。名詞部分が存在している場合（ステップＳ６４：ＹＥＳ）には、ステップＳ６５に進む。名詞部分がもう存在していない場合（ステップＳ６４：ＮＯ）には、ステップＳ６８に進む。

ステップＳ６５に進んだ場合、キーワード抽出部１７は、形態素解析済の字幕の中に未処理で残っている名詞部分のうちの一つを次の名詞として選択する。そして、その選択された名詞を取り出すために、ステップＳ５９に戻る。

ステップＳ６６に進んだ場合、キーワード抽出部１７は、コーパスデータベース内の全要素をチェックしたか否かを判定する。全要素をチェックした場合（ステップＳ６６：ＹＥＳ）にはステップＳ６８に進む。未チェックの要素がある場合（ステップＳ６６：ＮＯ）にはステップＳ６７に進む。

ステップＳ６７に進んだ場合、キーワード抽出部１７は、コーパスデータベース内の次の要素をマッチング対象として選択する。そして、ステップＳ６０に戻る。
ステップＳ６８に進んだ場合、キーワード抽出部１７は、次の字幕テキストの処理のために図６のステップＳ５１に戻る。なお、次の字幕テキストのデータも、字幕・番組説明文抽出部１６から渡される。

以上、フローチャートに沿って処理を説明したが、ステップＳ５２からＳ５７に進む場合、またはステップＳ５４からＳ５７に進む場合にも、ステップＳ５６と同様の判断をするようにしても良い。つまり、次のコーパス要素の語長がＫより小さい場合には、次のコーパス要素を用いたマッチングを行わず、ステップＳ５８の制限付き形態素解析の処理に移るようにしても良い。

以上、説明したように、キーワード抽出部１７は、まずコーパスデータベースの中から語長の長い順に、所定の長さ（Ｋ）以上の語長のコーパス要素について、字幕テキストとのマッチング処理を順次行っていく。そして、Ｋ以上の長さのコーパス要素とのマッチングが終了したら、形態素解析処理を行い、その結果得られる名詞部分について、長さＫ未満のコーパス要素とのマッチングを順次行っていく。これにより、所定の長さより長い名詞部分について形態素解析処理を回避しながらキーワードとしての抽出を行うことができる。つまり、形態素解析処理の弱点である長い名詞の問題を解決することができる。また、所定の長さより短い名詞部分については、形態素解析処理を行うことによって、単純な文字列のマッチングよりも精度の高いキーワード抽出を行うことができる。
つまり、キーワード抽出部１７は、先ず語長の長いものから優先させて、所定の下限語長（Ｋ）までのキーワードを字幕テキストデータとマッチングさせることによって字幕テキストデータに含まれるキーワードを抽出し、次に、字幕テキストデータについて抽出済みのキーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに大規模コーパスデータベースおよびローカルコーパスデータベースのそれぞれから読み出したキーワードとマッチングさせることによって形態素解析処理の結果に含まれるキーワードを抽出する。

言い換えれば、キーワード抽出装置の処理としては、まず形態素解析処理を行わない状態で語長がK以上であるキーワードを抽出した後に、形態素解析処理を行い、その結果として得られる名詞部分とコーパスデータベースのキーワードマッチング処理を行って、語長がＫより小さいキーワードを抽出する。このキーワード抽出処理は、字幕の名詞部分がすべてなくなるか、コーパスデータベースの全構成要素とのキーワードマッチング処理が終了するかまで繰り返される。対象の字幕との処理が終了すると、デジタル放送から読み込んだ次の字幕について同様の処理を行う。

このような過程で抽出したキーワードについては、単にキーワードのみが抽出されているのでなく、キーワードに付随したカテゴリー情報も併せて抽出することになるので、抽出キーワードを提示する際にカテゴリー分けした提示を行うことができる。また、ユーザーインタフェースとして画面に表示されているキーワードを利用者が指等でタッチした時に付随カテゴリー情報を提示するなど、処理結果の効果的な見せ方が容易に実現できる利点がある。

なお、上述した実施形態におけるキーワード抽出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、記載した、実施形態について、以下に簡単にまとめる。
上記実施形態によるキーワード抽出手法では、大規模なカテゴリー情報付きの辞書コーパスデータベースとの網羅的な照合処理で字幕などのテキスト文からキーワードを抽出する処理で、従来のキーワード抽出処理の課題を解決するもので、以下の項目よりなる。
（１）大規模な辞書コーパスデータベースの各要素との照合処理。照合処理を語長順、単語の種類別に行うことにより、照合精度を向上させる。
（２）名寄せ処理用のローカル辞書コーパスの生成と利用。語句の言い換えなどに対応するために辞書コーパスデータベースのデータ構造を工夫して、名寄せ用情報を付加して、キーワード抽出時に必要に応じて名寄せ用辞書コーパスを生成し、その辞書コーパスとも照合処理することにより名寄せ処理を実現する。
（３）カテゴリー情報を伴うキーワード情報を出力することができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、ローカルコーパスデータベースは番組ごとに構築されるが、番組が終了するなどして不要となったローカルコーパスデータベースを、適切なタイミング（番組終了時、番組終了時から所定時間経過後、など）で削除するようにしても良い。これにより、キーワード抽出装置１内の記憶手段を効率的に使用できる。

また、説明した実施形態では、テレビの番組説明文データおよび字幕テキストデータを処理対象としたが、これに限らず、文を含むテキストデータ一般を処理対象としても良い。

また、上記の実施形態は、課題を解決するための手段において記述した構成の特徴をすべて含むものであるが、それらの一部のみを含む構成として実施するようにしても良い。また、それらのうちの複数の構成を組み合わせて実施するようにしても良い。

本発明は、例えば、放送受信設備を構成する機器の一部として利用可能である。例えば、一般家庭等におけるテレビ受像機で、視聴中の番組を良く表すキーワードを自動的に抽出するために利用できる。また、そのキーワードが属するカテゴリーを自動的に抽出することができる。それらのキーワード情報やカテゴリー情報を蓄積すると、そのテレビ受像機を利用する利用者の好みを良く表すキーワード集合ないしは概念集合を抽出することができる。またさらに、これらのキーワード集合や概念集合に基づくリコメンデーションの精度を上げる目的で本発明を利用することもできる。

１キーワード抽出装置
１１コーパスデータベース構築処理部
１２大規模コーパスデータベース記憶部（コーパスデータ記憶部）
１３ローカルコーパスデータベース生成部（ローカルコーパスデータ生成部）
１４ローカルコーパスデータベース記憶部（ローカルコーパスデータ記憶部）
１６字幕・番組説明文抽出部（テキスト取得部）
１７キーワード抽出部
１８カテゴリー抽出部

Claims

キーワードの集合を格納しておくコーパスデータ記憶部と、
テキストデータを取得するテキスト取得部と、
前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、
前記テキスト取得部が取得した第１のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって、前記第２のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、
を具備することを特徴とするキーワード抽出装置。
前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、
前記キーワード抽出部は、前記第２のテキストデータが属する範囲を越えて変更されたときには、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第２のテキストデータとのマッチングに用いる、
ことを特徴とする請求項１に記載のキーワード抽出装置。
テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、
前記第１のテキストデータは、テレビの番組に関する番組説明文のデータであり、
前記第２のテキストデータは、前記番組における字幕テキストのデータであり、
前記所定範囲は、前記番組内における前記字幕テキストの範囲である、
ことを特徴とする請求項２に記載のキーワード抽出装置。
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、
前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせる、
ことを特徴とする請求項１から３までのいずれか一項に記載のキーワード抽出装置。
前記キーワードは、名詞または名詞句であり、
前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第２のテキストデータとマッチングさせることによって前記第２のテキストデータに含まれるキーワードを抽出し、次に、前記第２のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、
ことを特徴とする請求項４に記載のキーワード抽出装置。
前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、
前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第２のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、
ことを特徴とする請求項１から５までのいずれか一項に記載のキーワード抽出装置。
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、
前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第２のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、
ことを特徴とする請求項１から６までのいずれか一項に記載のキーワード抽出装置。
前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、
ことを特徴とする請求項１から７までのいずれか一項に記載のキーワード抽出装置。
コンピューターを、
キーワードの集合を格納しておくコーパスデータ記憶部、
テキストデータを取得するテキスト取得部、
前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部、
前記テキスト取得部が取得した第１のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部、
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第２のテキストデータとをマッチングさせることによって、前記第２のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部、
として機能させるためのプログラム。