JP2015215681A - キーワード抽出装置およびプログラム - Google Patents

キーワード抽出装置およびプログラム Download PDF

Info

Publication number
JP2015215681A
JP2015215681A JP2014096836A JP2014096836A JP2015215681A JP 2015215681 A JP2015215681 A JP 2015215681A JP 2014096836 A JP2014096836 A JP 2014096836A JP 2014096836 A JP2014096836 A JP 2014096836A JP 2015215681 A JP2015215681 A JP 2015215681A
Authority
JP
Japan
Prior art keywords
keyword
text
storage unit
data storage
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014096836A
Other languages
English (en)
Other versions
JP6433045B2 (ja
Inventor
苗村 昌秀
Masahide Naemura
昌秀 苗村
山内 結子
Yuiko Yamauchi
結子 山内
クリピングデル サイモン
Clippingdale Simon
クリピングデル サイモン
高橋 正樹
Masaki Takahashi
正樹 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014096836A priority Critical patent/JP6433045B2/ja
Publication of JP2015215681A publication Critical patent/JP2015215681A/ja
Application granted granted Critical
Publication of JP6433045B2 publication Critical patent/JP6433045B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】与えられたテキストデータから、精度よくキーワードの抽出を行う。
【解決手段】キーワード抽出装置は、キーワードの集合を格納しておくコーパスデータ記憶部、テキストデータを取得するテキスト取得部と、テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出したキーワードを、ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、コーパスデータ記憶部およびローカルコーパスデータ記憶部のそれぞれから読み出したキーワードと、テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、第2のテキストデータに含まれるキーワードを抽出するキーワード抽出部と、を具備する。
【選択図】図1

Description

本発明は、コンピューター等による自然言語処理技術を用いた、キーワード抽出装置およびそのプログラムに関する。
コンピューター等を用いて、放送番組を検索したり、放送番組に関連する文書を検索したり、放送番組を推薦したりする処理のために、放送番組の字幕等のテキスト文から意味のあるキーワードを抽出する処理がよく行われている。テキストからキーワードを抽出するために、よく行われる手法の基本は、テキストに含まれる文を形態素解析し、形態素の品詞を分類し、名詞ないしは名詞句を取り出すという処理である。そして、名詞または名詞句を取り出した後には、コーパスデータとのマッチングを行ったり、対象とする文書に関して暗黙的または明示的に定められたルールを適用したりすることによって、所望の名詞等の部分をキーワードとして抽出する。
例えば、特許文献1には、字幕情報から抽出したキーワード情報を映像再生装置の再生時に利用して、簡単に再生内容がわかるように、再生コンテンツのナビゲーションを行う技術が開示されている。ここでのキーワード抽出処理は、字幕文に形態素解析を行い、名詞部分を取り出す。この後に、括弧やクオーテーションなどの記号で囲まれている名詞部分を重要語として抽出する処理と、該当名詞の意味があらかじめ作成していたジャンルデータベースに登録されているかどうかを調べて抽出する処理とを含む。
また、例えば、特許文献2には、番組内容に関連したキーワードから、番組内容に関連した詳細情報をインターネットなど介して提供するシステムが開示されており、ここで、キーワード抽出処理が使われている。この場合も、形態素解析を基本処理として行ってから、形態素解析処理で取り出した名詞部分とごく辞書との照合処理でキーワード抽出処理を実現している。
特開2012−034235号公報 特開2013−168091号公報
前述の通り、従来の技術によるキーワード抽出処理では、形態素解析処理が基本となっている。したがって、形態素解析処理そのものが抱えている問題がそのまま、キーワード抽出処理の課題として残る。形態素解析処理の問題とは、例えば、複合語、外来語、固有表現、口語文などへの対応等に問題を有する点である。
本発明は、上記のような課題を解決すべく為されたものであり、形態素解析処理を前提とせずに、文を含むテキストから、キーワードを抽出することのできるキーワード抽出装置およびそのプログラムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様によるキーワード抽出装置は、キーワードの集合を格納しておくコーパスデータ記憶部と、テキストデータを取得するテキスト取得部と、前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、を具備することを特徴とするものである。
[2]また、本発明の一態様は、上記のキーワード抽出装置において、前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、前記キーワード抽出部は、前記第2のテキストデータが属する範囲を越えて変更されたときには、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第2のテキストデータとのマッチングに用いる、ことを特徴とする。
[3]また、本発明の一態様は、上記のキーワード抽出装置において、テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、前記第1のテキストデータは、テレビの番組に関する番組説明文のデータであり、前記第2のテキストデータは、前記番組における字幕テキストのデータであり、前記所定範囲は、前記番組内における前記字幕テキストの範囲である、ことを特徴とする。
[4]また、本発明の一態様は、上記のキーワード抽出装置において、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせる、ことを特徴とする。
この構成により、キーワード抽出部は長いキーワードを優先的にマッチングさせる処理を行う。長いキーワードは、マッチング処理の結果の精度が良いため、装置全体としてのキーワード抽出の精度が上がる。
[5]また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワードは、名詞または名詞句であり、前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第2のテキストデータとマッチングさせることによって前記第2のテキストデータに含まれるキーワードを抽出し、次に、前記第2のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、ことを特徴とする。
この構成により、所定の長さ以上のキーワードについては、形態素解析処理前にマッチング行う。これにより、長いキーワードの抽出の精度がより向上する。これは形態素解析処理自体の特性として、語長の長い名詞部分を正しく出力するのが困難である、という問題を回避することにもつながる。
[6]また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第2のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、ことを特徴とする。
この構成により、第1のテキストデータだけでなく、第2のテキストデータをも用いて、つまり第2のテキストデータに含まれていたキーワードをも用いて、ローカルコーパスデータを生成することができる。
[7]また、本発明の一態様は、上記のキーワード抽出装置において、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第2のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、ことを特徴とする。
この構成により、テキストデータ内における言い換えや表現の揺れなどに対応して、名寄せした結果を出力することができる。
[8]また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、ことを特徴とする。
この構成により、キーワード検出の精度を上げることができる。つまり、キーワードの誤検出を防ぐことができる。また、キーワードの種類(例えば、漢字、ひらかな、カタカナ、英数字、特殊文字等の、文字の種別による分類)ごとに、キーワードに関する知識を適用することができる。
[9]また、本発明の一態様は、コンピューターを、キーワードの集合を格納しておくコーパスデータ記憶部、テキストデータを取得するテキスト取得部、前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部、前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部、として機能させるためのプログラムである。
本発明によれば、ローカルコーパスデータを、所定の範囲内のみで局所的に用いた形で、精度の高いキーワード抽出を行うことができる。
また、本発明によれば、形態素解析処理において正しく処理されにくい、長いキーワードの検出も、精度よく行うことができる。
また、本発明によれば、テレビの字幕等のテキストデータから精度よくキーワードを抽出し、テレビ放送と連携したサービスにおいて、そのようなキーワードを利用することができるようになる。
本発明の実施形態によるキーワード抽出装置の機能構成を示すブロック図である。 同実施形態によるコーパスデータベース(大規模コーパスデータベースおよびローカルコーパスデータベース)の基本構成を示す概略図である。 同実施形態によるキーワード抽出装置が字幕テキストからキーワードを抽出する処理の手順を示すフローチャートである。 同実施形態による大規模コーパスデータベースを構築する手順を示す概略図である。 同実施形態におけるローカルコーパスデータベース生成部13による、ローカルコーパスデータベースの構築手順を示したフローチャートである。 同実施形態による段階的キーワードマッチングの処理の手順を示すフローチャートの一部分(1/2)である。 同実施形態による段階的キーワードマッチングの処理の手順を示すフローチャートの一部分(2/2)である。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるキーワード抽出装置の機能構成を示すブロック図である。この図において、符号1はキーワード抽出装置である。図示するように、キーワード抽出装置1は、コーパスデータベース構築処理部11と、大規模コーパスデータベース記憶部12(コーパスデータ記憶部)と、ローカルコーパスデータベース生成部13(ローカルコーパスデータ生成部)と、ローカルコーパスデータベース記憶部14(ローカルコーパスデータ記憶部)と、字幕・番組説明文抽出部16(テキスト取得部)と、キーワード抽出部17と、カテゴリー抽出部18と、を含んで構成される。
なお、このキーワード抽出装置1は、例えば、テレビ受像機の内部に設けられたり、ケーブル等によってテレビ受像機と接続されたりする。これにより、キーワード抽出装置1は、テレビ受像機が受信するデジタル放送信号を利用して、キーワードの抽出を行う。
また、このキーワード抽出装置1の機能は、大別してオフラインで行うオフライン処理部と、リアルタイム処理を行うオンライン処理部とから構成される。オフライン処理の典型的なものは、コーパスデータベース構築処理部11による、大規模コーパスデータベースの構築の処理である。オンライン処理の中心は、受信中のデジタル放送信号を元に、リアルタイムに字幕テキストからキーワードを抽出する処理(キーワード抽出部17)である。
コーパスデータベース構築処理部11は、例えば外部から取得可能な辞書リソースのデータを元に、大規模コーパスデータベースを構築し、大規模コーパスデータベース記憶部12に書き込みを行う。
大規模コーパスデータベース記憶部12は、テキストとのマッチング処理に使用するためのキーワードの集合を格納しておく記憶手段である。
ローカルコーパスデータベース生成部13は、番組内にローカルなコーパスを生成し、ローカルコーパスデータベース記憶部14に書き込む。ローカルコーパスデータベース生成部13は、2種類のデータを元として、このローカルコーパスデータベースを生成する。その第1は、字幕・番組説明文抽出部16から得られる番組説明文を解析することによって抽出される情報である。また、その第2は、キーワード抽出部17が番組の字幕から抽出したキーワードの情報である。番組説明文のテキストは、その番組の特徴を表すデータである。
別の観点では、ローカルコーパスデータベース生成部13は、字幕・番組説明文抽出部16が取得した第1のテキストデータ(番組説明文)を元にキーワードを抽出し、抽出したキーワードを、ローカルコーパスデータベース記憶部14に登録する。
ローカルコーパスデータベース記憶部14は、対象とする番組内にローカルなコーパスデータを記憶するものである。例えば、名詞(典型的には、番組の出演者の氏名などといったもの)の言い換えや短縮形などが、ローカルコーパスデータベースに含まれる。氏名の言い換えとは、例えば、ニックネームや、姓・名のうちの片方のみに接尾語の「ちゃん」などを付加して得られる愛称などである。ローカルコーパスデータベース記憶部14が記憶するローカルコーパスデータは、番組内で局所的に出現しやすい表現の揺れなどの名寄せの目的のために用いられ得る。
なお、ローカルコーパスデータベースは、番組ごとに区別した形で存在する。後述する通り、利用者がテレビ番組を視聴中に番組を切り替えた場合には、使用するローカルコーパスデータベースも切り替えられる。
ローカルコーパスデータベース記憶部14は、現在処理中の(字幕・番組説明文抽出部16が取得中の)所定範囲内のテキストデータのみを対象とするために、キーワードの集合を格納しておく。所定範囲とは、例えば、テレビ放送における一つの番組の範囲である。
字幕・番組説明文抽出部16は、外部からデジタルテレビ放送の信号を取得し、その信号からテキストデータを抽出する。ここで抽出するテキストデータは、デジタル放送の信号に所定の形式で含まれている、放送番組の説明文や、字幕テキストである。なお、デジタルテレビ放送の信号の構成については、周知であるため、ここでの説明を省略する。字幕・番組説明文抽出部16は、抽出した番組説明文のテキスト(第1のテキストデータ)を、ローカルコーパスデータベース生成部13に渡す。また、字幕・番組説明文抽出部16は、抽出した字幕のテキスト(第2のテキストデータ)を、キーワード抽出部17に渡す。
キーワード抽出部17は、大規模コーパスデータベース記憶部12から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部14から読み出すローカルコーパスデータとのマッチング処理を行うことにより、字幕・番組説明文抽出部16から受け取った字幕テキストに含まれるキーワードを抽出する。
また、キーワード抽出部17は、語長の長いものから優先させて大規模コーパスデータベース記憶部12から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部14から読み出すローカルコーパスデータのそれぞれから読み出したキーワードと、字幕・番組説明文抽出部16から受け取った字幕テキストとをマッチングさせる。
また、キーワード抽出部17は、大規模コーパスデータベースおよびローカルコーパスデータベースが保持するキーワード間の関連付け情報(言い換え可能な関係)を参照することによって、字幕テキストデータから抽出した複数のキーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数のキーワードを統合する名寄せ処理を行ってから出力する。
カテゴリー抽出部18は、キーワード抽出部17によって抽出されたキーワードに、カテゴリー情報を付加して出力する。なお、カテゴリー抽出部18は、キーワードに対応するカテゴリー情報を、コーパスデータベースから取得する。
図2は、コーパスデータベースの基本構造を示す概略図である。同図に示すデータ構成は、大規模コーパスデータベース(大規模コーパスデータベース記憶部12)とローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)の両方に共通のものである。図示するように、コーパスデータベースは、語長と単語情報とを関連付けた表形式のデータとして表現されている。語長とは、単語の長さ(文字数)である。本実施形態では、語長が大きい(長い)順に、整列された状態で、データベースが構築されている。なお、各エントリーを語長順に並べるための具体的な実現方法としては、例えば、データの記録媒体上で物理的に語長の長い順にデータを配置するようにしても良いし、語長についてのインデックス(索引)データ等を用いて、論理的に語長の長い順にデータを配置するようにしても良い。
つまり、コーパスデータベースは、各々のキーワードと、そのキーワードの語長とを関連付けて格納する。
同図では、語長の長い順にデータが配置されており、全部でM個の単語w(1),w(2),・・・,w(M)が登録されている。図示する例では、単語w(i+1)までは、語長がK(Kは正整数)である。そして、単語w(i+2)からは、語長が(K−1)である。なお、後述する通り、Kは予め設定された値であり、語長がK以上のコーパス要素と、語長がK未満のコーパス要素とでは、使い方が少し異なる。
各々の単語(キーワード)に関して、コーパスデータベースは、単語そのもののほかに、その単語が属するカテゴリーの情報、名寄せ処理に用いるための言い換え用の単語の集合の情報を持っている。
また、コーパスデータベースでは、キーワードは、その種類ごとにまとめて格納されている。ここで、キーワードの種類とは、漢字、ひらがな、カタカナ、英数字、その他特殊文字などといった、タイプの別である。この種類の使い方については、後述する。
また、ローカルコーパスデータベースにおけるあるエントリーの元が、大規模コーパスデータベースにおけるエントリーである場合には、ローカルコーパスデータベース側のエントリーから大規模コーパスデータベース上のエントリーへのリンク情報(所在場所を指し示す情報)も付属的に保持されている。
また、コーパスデータベースは、言い換えによるキーワードに関しては、言い換え前のキーワードへのリンク情報をも保持する。
図3は、キーワード抽出装置1が字幕テキストからキーワードを抽出する処理の手順を示すフローチャートである。以下、このフローチャートに沿って、キーワード抽出の処理の手順を説明する。
なお、このフローチャートの処理に入る前に、大規模コーパスデータベースおよびローカルコーパスデータベースは、それぞれ既に構築されている。それらそれぞれの構築方法等については、後で別の図を参照しながら説明する。特に、大規模コーパスデータベースはオフライン処理として最初に構築されている。
まずステップS1において、字幕・番組説明文抽出部16は、取得したデジタル放送信号から、字幕テキストのデータを抽出し、キーワード抽出部17に渡す。キーワード抽出部17は、その字幕テキストを、一時的にバッファ記憶手段に蓄積する。
次にステップS2において、キーワード抽出部17が、字幕・番組説明文抽出部16から渡された字幕テキストを、大規模コーパスデータベース(大規模コーパスデータベース記憶部12)およびローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)とマッチングさせることによる、段階的なキーワード抽出を行う。このキーワード抽出処理の詳細については、別の図を参照しながら後で説明する。
次にステップS3において、キーワード抽出部17は、ステップS2でマッチしたキーワードを、前記のバッファ記憶手段から除去する。また、キーワード抽出部17は、そのキーワードをローカルコーパスデータベース生成部13に渡す。そして、ローカルコーパスデータベース生成部13は、そのキーワードが未登録である場合には、ローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)に追加登録する。
なお、補足すると、ステップS2で記載した「段階的な」という意味は、次の通りである。即ち、ステップS2においてあるキーワードがマッチして、ステップS3ではそのキーワードが前記のバッファ記憶手段上の字幕テキストデータから除去される。その後、処理のループ(後述の、ステップS5からS2へ戻る制御)によって再びステップS2に戻ってきたときに、また、除去後の字幕テキストデータを対象としたキーワードマッチングを行う。このようにキーワードを1個ずつマッチさせながら、そのキーワードをローカルコーパスデータベースに登録するとともに、バッファ記憶手段上の字幕テキストデータから削除し、その削除後の字幕テキストデータを対象としたマッチングを次の段階で行う。
言い換えると、キーワード抽出装置1は、字幕から検出されたキーワードを除いた字幕文に対して、引き続き、キーワードの検出を行う。そして、検出対象となる字幕要素がなくなるか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がなくなるか、のいずれかまで同じ処理を繰り返し行う。
ステップS3の後、ステップS4において、カテゴリー抽出部18は、キーワード抽出部17によって抽出されたキーワードが属するカテゴリーの情報を抽出する。そして、カテゴリー抽出部18は、キーワードと、そのカテゴリー情報との対を、外部に出力する。
次にステップS5において、キーワード抽出装置1は、現在の字幕テキストにおいて、キーワード検出の最終段階に達しているか否かを判定する。ここで、最終段階とは、キーワードマッチングの対象となる要素がなくなった段階である。具体的には、最終段階とは、バッファ記憶手段における字幕テキストの中にもう要素がないか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がないか、のいずれかの状態である。既に最終段階に達していれば(ステップS5:YES)次のステップS6に進み、まだ最終段階でなければ(ステップS5:NO)さらなるマッチングのためにステップS2に戻る。
次にステップS6において、キーワード抽出装置1は、処理した字幕テキストが最後の字幕テキストであるか否かを判断する。言い換えれば、キーワード抽出装置1は、残っているか否かを判断する。最後の字幕テキストである場合(ステップS6:YES)には、キーワード抽出装置1は、このフローチャート全体の処理を終了する。まだ処理すべき字幕テキストが残っている場合(ステップS6:NO)には、次の字幕テイストを処理するためにステップS1に戻る。
図4は、大規模コーパスデータベースを構築する手順を示す概略図である。この処理は、コーパスデータベース構築処理部11によって予めオフラインで行われる。大規模コーパスデータベースは、本実施形態によるキーワード抽出処理において利用しやすい構造を有する。コーパスデータベース構築処理部11は、外部から取得する辞書リソースのデータを、そのような構造に整形する。大規模コーパスデータベースの元となる情報は、例えば、ウィキペディア(Wikipedia)などといった、オープンリソースの辞書データベースである。もちろん、こういった既存のデータベースを用いる代わりに、コーパスの要素を収集することによって大規模コーパスデータベースを構築しても良い。なお、本実施形態が想定する大規模コーパスデータベースが保持する単語数は、百万語から百数十万語程度であるが、実際には、その範囲より多い単語数、あるいは少ない単語数で、コーパスデータベースを構築しても良い。
同図に示す通り、コーパスデータベース構築処理部11は、辞書リソースのデータを取得し、まず、辞書リソースに含まれる各々のキーワードを種類別に分類する処理を行う(符号81の処理)。ここで、種類とは、漢字、ひらがな、カタカナ、英数字、特殊文字など、キーワードを構成する文字の種別による分類である。これは、文字コードにより判別可能である。そして、次に、コーパスデータベース構築処理部11は、分類された種類ごとに、キーワードの長さ(字数)によるソーティング処理を行う(符号82の処理)。これは、図2で説明したとおり、コーパスデータベース中の単語を語長順に使用するためである。ソーティング処理は、語長をキーとして、降順の結果が得られるように行われる。そして、ソーティング後の各キーワードについて、単語の付属情報を付加する処理を行う。付属情報を付加する処理とは、語長インデックス情報を生成して付加する処理(符号83)と、その単語のエイリアス(別名,言い換え)情報を付加する処理(符号84)と、単語のカテゴリー情報を付加する処理(符号85)である。
なお、上の処理におけるエイリアス情報は、名寄せ処理のために用いることができる。
辞書リソースとして前記のウィキペディアを選択する場合には、辞書データ全体をダウンロードして利用することができる。また、キーワードごとのカテゴリー情報やエイリアス情報は、ダウンロードしたファイルから直接得ることもでき、また辞書本文(解説文)を解析することによって得ることもできる。
図5は、ローカルコーパスデータベース生成部13による、ローカルコーパスデータベースの構築手順を示したフローチャートである。以下、このフローチャートに沿って処理を説明する。
まずステップS31において、ローカルコーパスデータベース生成部13は、字幕・番組説明文抽出部16から番組説明文を取得する。この番組説明文は、典型的には番組の開始時に、字幕・番組説明文抽出部16によってデジタル放送信号から抽出されるものである。また、本ステップにおいて、ローカルコーパスデータベース生成部13は、現在の番組に対応するローカルコーパスデータベースを選択する。
次にステップS32において、ローカルコーパスデータベース生成部13は、受け取った番組説明文のテキストから、主要なキーワードを抽出する。
次にステップS33において、ローカルコーパスデータベース生成部13は、抽出されたキーワードの言い換えとなり得るエイリアス情報を大規模コーパスデータベース(大規模コーパスデータベース記憶部12)から読み出す。そして、ローカルコーパスデータベース生成部13は、当該キーワードに関連する言い換え用のキーワードの集合を、ローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)に追加登録する。
次にステップS34において、ローカルコーパスデータベース生成部13は、番組が切り替えられたか否かを判断する。この判断は、例えば、テレビ受像機側から得られる信号に基づいて行うことができる。利用者によるリモコン操作等により、テレビ受像機は受信するチャンネルを切り替える。
判断の結果、番組が切り替えられていた場合(ステップS34:YES)にはステップS35に進む。番組が切り替えられていなかった場合(ステップS34:NO)にはステップS37に飛ぶ。
ステップS35に進んだ場合には、同ステップにおいて、ローカルコーパスデータベース生成部13は、ローカルコーパスデータベースを切り替える。つまり、番組切り替え前に使用していたローカルコーパスデータベースと番組切り替え後に使用するローカルコーパスデータベースは、異なる。既に述べたとおり、ローカルコーパスデータベースは、番組ごとに存在する。
次にステップS36において、ローカルコーパスデータベース生成部13は、番組が終了したか否かを判断する。この判断も、テレビ受像機側から得られる信号に基づいて行うことができる。テレビ放送信号に含まれる制御情報に基づいて、テレビ受像機は、番組の終了を検知することができる。
判断の結果、番組が終了した場合(ステップS36:YES)にはステップS38に進む。番組が終了していない場合(ステップS36:NO)にはステップS37に進む。
ステップS37に進んだ場合、同ステップにおいて、キーワード抽出部17は、字幕テキストからの段階的なキーワード抽出の処理を行う。キーワード抽出部17によるキーワード抽出の処理の手順については、別の図で説明する通りである。
ステップS38に進んだ場合、同ステップにおいて、ローカルコーパスデータベース生成部13は、ローカルコーパスデータベースをリセットする。なお番組が終了した場合には、次の番組の開始に伴って、その番組に対応したローカルコーパスデータベースが対象となるように選択される(ステップS31において記載の通り)。
上の処理手順で説明した通り、番組の切り替えも、番組の終了も生じなかった場合には、キーワード抽出装置1は、字幕テキストからのキーワード抽出を行っていく(ステップS37)。そして、抽出されたキーワードに関して、その言い換えキーワードがまだローカルコーパスデータベースに登録されていない場合には、ローカルコーパスデータベースに言い換えキーワードの登録を行う(ステップS33)。なお、ローカルコーパスデータベースに登録されたキーワードは、キーワード抽出部17が字幕からキーワードを抽出する処理を行う際の、マッチングの対象となる。つまり、キーワード抽出部17は、大規模コーパスデータベースとローカルコーパスデータベースの両方を同等に扱い、キーワードのマッチング用に使用する。
図6および図7は、段階的キーワードマッチングの処理の手順を示すフローチャートである。なお、ステップS51からS68までで表される一連の処理がこれら両図に分けて示されている。以下、このフローチャートに沿って説明する。
まずステップS51(図6)において、キーワード抽出部17は、字幕テキストとコーパスデータ(大規模コーパスデータベースとローカルコーパスデータベースの両方。以下も同様。)とのマッチングを行う。このとき、キーワード抽出部17は、コーパスデータベース内で語長の長い要素から順にマッチングを行う。つまり、最初は、コーパスデータベース内で最も語長さの長い要素がマッチング対象となる。
次にステップS52において、キーワード抽出部17は、ステップS51のマッチング処理において、字幕テキストとコーパスデータベースとの間のマッチングが検出されたか否かを判断する。検出された場合、即ち、現在のコーパスデータベースの要素が字幕テキスト内に存在した場合(ステップS52:YES)には、次のステップS53に進む。検出されなかった場合、即ち、現在の要素が字幕テキスト内に存在しなかった場合(ステップS52:NO)には、ステップS57に飛ぶ。
次にステップS53において、キーワード抽出部17は、単語の種類に応じた確認を行う。これは、ステップS52におけるキーワードの検出が誤りである場合に訂正するためである。ここでの確認は、キーワードの種類ごとに行われる。図4において説明したように、コーパスデータベースではキーワードの種類ごとでの登録が行われているため、キーワード抽出部17はその種類を利用して、マッチしたキーワードの種類に応じた確認を行う。キーワード抽出部17は、確認すべき事項についてのルールを、キーワードの種類ごとに保持しており、それらのルールを適用する。つまり、キーワード抽出部17は、キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出結果とする。
ルールの一例は、次の(a)および(b)通りである。
(a)漢字のキーワードの場合:テキスト中で検出されたそのキーワードの前または後にカタカナまたは英数字がある場合は、その検出は正しい。
(b)漢字のキーワードの場合:4文字以上の漢字が連続している場合は、その検出は正しい。
(c)カタカナのキーワードの場合:テキスト中で検出されたそのキーワードの前または後にカタカナがある場合は、その検出は誤りである。
なお、ルールはこれらに限定されない。
次にステップS54において、キーワード抽出部17は、上のステップS53における確認の結果を判断する。そして、ステップS52の判定で検出されたキーワードが、誤検出であった場合(ステップS54:YES)には、ステップS57に飛ぶ。ステップS52の判定で検出されたキーワードが正しく検出されたものである場合(ステップS54:NO)には、次のステップS55に進む。
ステップS55に進んだ場合、同ステップにおいて、キーワード抽出部17は、字幕テキストの一時的バッファ記憶手段から、検出に成功したキーワードを除去する。
そして、ステップS56において、キーワード抽出部17は、次のコーパス要素の語長をチェックする。具体的には、次の要素の語長が、Kより小さいか否かを判定する。ここで、Kは予め設定された値である。この語長のチェックは、コーパスデータベース内に格納されているキーワードのうち、長さ(文字数)がK以上のものだけをマッチングの対象とするために行うものである。そして、「語長<K」が真(TRUE)である場合(ステップS56:YES)、ステップS58に進む。そして、「語長<K」が偽(FALSE)である場合(ステップS56:NO)には、つまり次のコーパス要素の語長も充分に長い場合には、ステップS57に進む。
ステップS57に進んだ場合、キーワード抽出部17は、コーパスデータベースから、次の要素を選択する。ここで、キーワード抽出部17は、語長を最優先し、まだマッチングに使用していないコーパス要素の中から最も語長の長い要素を選択する。つまり、次の要素の選択において、語長が長いことは、キーワードの種類(漢字、ひらかな、カタカナ、英数字、特殊記号の別)よりも優先される。
次にステップS58において、キーワード抽出部17は、字幕テキストのうち、既に検出されたキーワードの箇所(除去されたキーワードが元々存在していた箇所)を名詞部分と特定するという制約の下で、制限付き形態素解析処理を実行する。この形態素解析処理の結果、字幕テキストは、形態素に分解されるとともに、各形態素の品詞の情報が得られる。なお、形態素解析処理自体は既存技術を用いて行うことができる。
次に図7に移り、ステップS59において、キーワード抽出部17は、ステップS58での形態素解析処理の結果から、名詞部分を1つ取り出す。以下の処理では、取り出した名詞部分と、コーパスデータベースとの、キーワードマッチングを行っていく。
次にステップS60において、キーワード抽出部17は、ステップS59で取り出された名詞部分と、コーパスデータベースの要素とのマッチングを行う。なお、本ステップでは、まだここまでにマッチングに用いられていない、長さがK未満のコーパス要素が対象となる。
次にステップS61において、キーワード抽出部17は、ステップS60のマッチング処理において、名詞部分とコーパス要素との間のマッチングが検出されたか否かを判断する。検出された場合、即ち、現在のコーパスデータベースの要素が現在の名詞部分にあたる場合(ステップS61:YES)には、次のステップS62に進む。検出されなかった場合、即ち、現在のコーパス要素が現在の名詞部分と異なる場合(ステップS61:NO)には、ステップS67に飛ぶ。
ステップS62に進んだ場合、同ステップにおいて、キーワード抽出部17は、単語の種類に応じた確認を行う。これは、ステップS61で検出されたキーワードについて確認を行うものである。その確認の方法は、キーワードの種類ごとのルールを用いるものであり、ステップS53で記述した確認と同様である。
次にステップS63において、キーワード抽出部17は、キーワード抽出部17は、上のステップS62における確認の結果を判断する。そして、ステップS61の判定で検出されたキーワードが、誤検出であった場合(ステップS54:YES)には、ステップS67に飛ぶ。ステップS61の判定で検出されたキーワードが正しく検出されたものである場合(ステップS54:NO)には、次のステップS64に進む。
ステップS64に進んだ場合、同ステップにおいて、キーワード抽出部17は、形態素解析済みの字幕データにまだ名詞部分が残っているか否かを判定する。名詞部分が存在している場合(ステップS64:YES)には、ステップS65に進む。名詞部分がもう存在していない場合(ステップS64:NO)には、ステップS68に進む。
ステップS65に進んだ場合、キーワード抽出部17は、形態素解析済の字幕の中に未処理で残っている名詞部分のうちの一つを次の名詞として選択する。そして、その選択された名詞を取り出すために、ステップS59に戻る。
ステップS66に進んだ場合、キーワード抽出部17は、コーパスデータベース内の全要素をチェックしたか否かを判定する。全要素をチェックした場合(ステップS66:YES)にはステップS68に進む。未チェックの要素がある場合(ステップS66:NO)にはステップS67に進む。
ステップS67に進んだ場合、キーワード抽出部17は、コーパスデータベース内の次の要素をマッチング対象として選択する。そして、ステップS60に戻る。
ステップS68に進んだ場合、キーワード抽出部17は、次の字幕テキストの処理のために図6のステップS51に戻る。なお、次の字幕テキストのデータも、字幕・番組説明文抽出部16から渡される。
以上、フローチャートに沿って処理を説明したが、ステップS52からS57に進む場合、またはステップS54からS57に進む場合にも、ステップS56と同様の判断をするようにしても良い。つまり、次のコーパス要素の語長がKより小さい場合には、次のコーパス要素を用いたマッチングを行わず、ステップS58の制限付き形態素解析の処理に移るようにしても良い。
以上、説明したように、キーワード抽出部17は、まずコーパスデータベースの中から語長の長い順に、所定の長さ(K)以上の語長のコーパス要素について、字幕テキストとのマッチング処理を順次行っていく。そして、K以上の長さのコーパス要素とのマッチングが終了したら、形態素解析処理を行い、その結果得られる名詞部分について、長さK未満のコーパス要素とのマッチングを順次行っていく。これにより、所定の長さより長い名詞部分について形態素解析処理を回避しながらキーワードとしての抽出を行うことができる。つまり、形態素解析処理の弱点である長い名詞の問題を解決することができる。また、所定の長さより短い名詞部分については、形態素解析処理を行うことによって、単純な文字列のマッチングよりも精度の高いキーワード抽出を行うことができる。
つまり、キーワード抽出部17は、先ず語長の長いものから優先させて、所定の下限語長(K)までのキーワードを字幕テキストデータとマッチングさせることによって字幕テキストデータに含まれるキーワードを抽出し、次に、字幕テキストデータについて抽出済みのキーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに大規模コーパスデータベースおよびローカルコーパスデータベースのそれぞれから読み出したキーワードとマッチングさせることによって形態素解析処理の結果に含まれるキーワードを抽出する。
言い換えれば、キーワード抽出装置の処理としては、まず形態素解析処理を行わない状態で語長がK以上であるキーワードを抽出した後に、形態素解析処理を行い、その結果として得られる名詞部分とコーパスデータベースのキーワードマッチング処理を行って、語長がKより小さいキーワードを抽出する。このキーワード抽出処理は、字幕の名詞部分がすべてなくなるか、コーパスデータベースの全構成要素とのキーワードマッチング処理が終了するかまで繰り返される。対象の字幕との処理が終了すると、デジタル放送から読み込んだ次の字幕について同様の処理を行う。
このような過程で抽出したキーワードについては、単にキーワードのみが抽出されているのでなく、キーワードに付随したカテゴリー情報も併せて抽出することになるので、抽出キーワードを提示する際にカテゴリー分けした提示を行うことができる。また、ユーザーインタフェースとして画面に表示されているキーワードを利用者が指等でタッチした時に付随カテゴリー情報を提示するなど、処理結果の効果的な見せ方が容易に実現できる利点がある。
なお、上述した実施形態におけるキーワード抽出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、記載した、実施形態について、以下に簡単にまとめる。
上記実施形態によるキーワード抽出手法では、大規模なカテゴリー情報付きの辞書コーパスデータベースとの網羅的な照合処理で字幕などのテキスト文からキーワードを抽出する処理で、従来のキーワード抽出処理の課題を解決するもので、以下の項目よりなる。
(1)大規模な辞書コーパスデータベースの各要素との照合処理。照合処理を語長順、単語の種類別に行うことにより、照合精度を向上させる。
(2)名寄せ処理用のローカル辞書コーパスの生成と利用。語句の言い換えなどに対応するために辞書コーパスデータベースのデータ構造を工夫して、名寄せ用情報を付加して、キーワード抽出時に必要に応じて名寄せ用辞書コーパスを生成し、その辞書コーパスとも照合処理することにより名寄せ処理を実現する。
(3)カテゴリー情報を伴うキーワード情報を出力することができる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、ローカルコーパスデータベースは番組ごとに構築されるが、番組が終了するなどして不要となったローカルコーパスデータベースを、適切なタイミング(番組終了時、番組終了時から所定時間経過後、など)で削除するようにしても良い。これにより、キーワード抽出装置1内の記憶手段を効率的に使用できる。
また、説明した実施形態では、テレビの番組説明文データおよび字幕テキストデータを処理対象としたが、これに限らず、文を含むテキストデータ一般を処理対象としても良い。
また、上記の実施形態は、課題を解決するための手段において記述した構成の特徴をすべて含むものであるが、それらの一部のみを含む構成として実施するようにしても良い。また、それらのうちの複数の構成を組み合わせて実施するようにしても良い。
本発明は、例えば、放送受信設備を構成する機器の一部として利用可能である。例えば、一般家庭等におけるテレビ受像機で、視聴中の番組を良く表すキーワードを自動的に抽出するために利用できる。また、そのキーワードが属するカテゴリーを自動的に抽出することができる。それらのキーワード情報やカテゴリー情報を蓄積すると、そのテレビ受像機を利用する利用者の好みを良く表すキーワード集合ないしは概念集合を抽出することができる。またさらに、これらのキーワード集合や概念集合に基づくリコメンデーションの精度を上げる目的で本発明を利用することもできる。
1 キーワード抽出装置
11 コーパスデータベース構築処理部
12 大規模コーパスデータベース記憶部(コーパスデータ記憶部)
13 ローカルコーパスデータベース生成部(ローカルコーパスデータ生成部)
14 ローカルコーパスデータベース記憶部(ローカルコーパスデータ記憶部)
16 字幕・番組説明文抽出部(テキスト取得部)
17 キーワード抽出部
18 カテゴリー抽出部

Claims (9)

  1. キーワードの集合を格納しておくコーパスデータ記憶部と、
    テキストデータを取得するテキスト取得部と、
    前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、
    前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、
    前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、
    を具備することを特徴とするキーワード抽出装置。
  2. 前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、
    前記キーワード抽出部は、前記第2のテキストデータが属する範囲を越えて変更されたときには、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第2のテキストデータとのマッチングに用いる、
    ことを特徴とする請求項1に記載のキーワード抽出装置。
  3. テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、
    前記第1のテキストデータは、テレビの番組に関する番組説明文のデータであり、
    前記第2のテキストデータは、前記番組における字幕テキストのデータであり、
    前記所定範囲は、前記番組内における前記字幕テキストの範囲である、
    ことを特徴とする請求項2に記載のキーワード抽出装置。
  4. 前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、
    前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせる、
    ことを特徴とする請求項1から3までのいずれか一項に記載のキーワード抽出装置。
  5. 前記キーワードは、名詞または名詞句であり、
    前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第2のテキストデータとマッチングさせることによって前記第2のテキストデータに含まれるキーワードを抽出し、次に、前記第2のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、
    ことを特徴とする請求項4に記載のキーワード抽出装置。
  6. 前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、
    前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第2のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、
    ことを特徴とする請求項1から5までのいずれか一項に記載のキーワード抽出装置。
  7. 前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、
    前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第2のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、
    ことを特徴とする請求項1から6までのいずれか一項に記載のキーワード抽出装置。
  8. 前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、
    ことを特徴とする請求項1から7までのいずれか一項に記載のキーワード抽出装置。
  9. コンピューターを、
    キーワードの集合を格納しておくコーパスデータ記憶部、
    テキストデータを取得するテキスト取得部、
    前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部、
    前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部、
    前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部、
    として機能させるためのプログラム。
JP2014096836A 2014-05-08 2014-05-08 キーワード抽出装置およびプログラム Expired - Fee Related JP6433045B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014096836A JP6433045B2 (ja) 2014-05-08 2014-05-08 キーワード抽出装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014096836A JP6433045B2 (ja) 2014-05-08 2014-05-08 キーワード抽出装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2015215681A true JP2015215681A (ja) 2015-12-03
JP6433045B2 JP6433045B2 (ja) 2018-12-05

Family

ID=54752535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014096836A Expired - Fee Related JP6433045B2 (ja) 2014-05-08 2014-05-08 キーワード抽出装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6433045B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753656A (zh) * 2018-12-29 2019-05-14 咪咕互动娱乐有限公司 一种数据处理方法、装置及存储介质
CN112015884A (zh) * 2020-08-28 2020-12-01 欧冶云商股份有限公司 一种用户走访数据关键词提取方法、装置及存储介质
CN116978384A (zh) * 2023-09-25 2023-10-31 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079745A (ja) * 2005-09-12 2007-03-29 Sharp Corp ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体
JP2008118232A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd 映像再生装置
JP2010087658A (ja) * 2008-09-30 2010-04-15 Kddi Corp 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079745A (ja) * 2005-09-12 2007-03-29 Sharp Corp ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体
JP2008118232A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd 映像再生装置
JP2010087658A (ja) * 2008-09-30 2010-04-15 Kddi Corp 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753656A (zh) * 2018-12-29 2019-05-14 咪咕互动娱乐有限公司 一种数据处理方法、装置及存储介质
CN112015884A (zh) * 2020-08-28 2020-12-01 欧冶云商股份有限公司 一种用户走访数据关键词提取方法、装置及存储介质
CN116978384A (zh) * 2023-09-25 2023-10-31 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统
CN116978384B (zh) * 2023-09-25 2024-01-02 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Also Published As

Publication number Publication date
JP6433045B2 (ja) 2018-12-05

Similar Documents

Publication Publication Date Title
US11636146B2 (en) Content analysis to enhance voice search
US11197036B2 (en) Multimedia stream analysis and retrieval
JP6484236B2 (ja) オンライン音声翻訳方法及び装置
US10504039B2 (en) Short message classification for video delivery service and normalization
JP4623985B2 (ja) 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
US9008489B2 (en) Keyword-tagging of scenes of interest within video content
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
CN103984772B (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
JP6433045B2 (ja) キーワード抽出装置およびプログラム
US20210126945A1 (en) Illegal content search device, illegal content search method, and program
CN111324705A (zh) 自适应性调整关连搜索词的系统及其方法
US11947635B2 (en) Illegal content search device, illegal content search method, and program
KR20020084302A (ko) 문자 메시지를 이용한 캐릭터 이미지 추출 및 전송 장치와그 방법
KR20160131730A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
JP6830917B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
WO2019187920A1 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
JP2016153975A (ja) 情報処理装置、侵害検知装置、情報処理方法、およびプログラム
JP6621437B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
KR100956413B1 (ko) 언어 교차 검색 방법 및 시스템
JP6625087B2 (ja) 違法コンテンツ探索装置及び違法コンテンツ探索方法
Vilaça et al. TV-Pulse: Improvements on detecting TV highlights in Social Networks using metadata and semantic similarity
KR20230082528A (ko) 머신러닝을 이용한 언어 교육을 위한 패턴, 영상 생성 및 학습 훈련 방법 및 그 시스템
JP2012022053A (ja) 音声認識装置
CN114281979A (zh) 生成文本摘要的文本处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181105

R150 Certificate of patent or registration of utility model

Ref document number: 6433045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees