JP6433045B2 - Keyword extraction apparatus and program - Google Patents

Keyword extraction apparatus and program Download PDF

Info

Publication number
JP6433045B2
JP6433045B2 JP2014096836A JP2014096836A JP6433045B2 JP 6433045 B2 JP6433045 B2 JP 6433045B2 JP 2014096836 A JP2014096836 A JP 2014096836A JP 2014096836 A JP2014096836 A JP 2014096836A JP 6433045 B2 JP6433045 B2 JP 6433045B2
Authority
JP
Japan
Prior art keywords
keyword
text
storage unit
data storage
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014096836A
Other languages
Japanese (ja)
Other versions
JP2015215681A (en
Inventor
苗村 昌秀
昌秀 苗村
山内 結子
結子 山内
クリピングデル サイモン
クリピングデル サイモン
高橋 正樹
正樹 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014096836A priority Critical patent/JP6433045B2/en
Publication of JP2015215681A publication Critical patent/JP2015215681A/en
Application granted granted Critical
Publication of JP6433045B2 publication Critical patent/JP6433045B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンピューター等による自然言語処理技術を用いた、キーワード抽出装置およびそのプログラムに関する。   The present invention relates to a keyword extraction device and a program thereof using a natural language processing technique using a computer or the like.

コンピューター等を用いて、放送番組を検索したり、放送番組に関連する文書を検索したり、放送番組を推薦したりする処理のために、放送番組の字幕等のテキスト文から意味のあるキーワードを抽出する処理がよく行われている。テキストからキーワードを抽出するために、よく行われる手法の基本は、テキストに含まれる文を形態素解析し、形態素の品詞を分類し、名詞ないしは名詞句を取り出すという処理である。そして、名詞または名詞句を取り出した後には、コーパスデータとのマッチングを行ったり、対象とする文書に関して暗黙的または明示的に定められたルールを適用したりすることによって、所望の名詞等の部分をキーワードとして抽出する。   Use keywords such as subtitles of broadcast programs for meaningful keywords to search for broadcast programs, search for documents related to broadcast programs, and recommend broadcast programs. The extraction process is often performed. In order to extract keywords from text, a basic technique that is often performed is a process in which sentences included in the text are morphologically analyzed to classify parts of speech of morphemes and to extract nouns or noun phrases. Then, after extracting the noun or noun phrase, matching with the corpus data or applying a rule defined implicitly or explicitly with respect to the target document, the part of the desired noun etc. Is extracted as a keyword.

例えば、特許文献1には、字幕情報から抽出したキーワード情報を映像再生装置の再生時に利用して、簡単に再生内容がわかるように、再生コンテンツのナビゲーションを行う技術が開示されている。ここでのキーワード抽出処理は、字幕文に形態素解析を行い、名詞部分を取り出す。この後に、括弧やクオーテーションなどの記号で囲まれている名詞部分を重要語として抽出する処理と、該当名詞の意味があらかじめ作成していたジャンルデータベースに登録されているかどうかを調べて抽出する処理とを含む。   For example, Patent Document 1 discloses a technique for navigating playback content so that playback information can be easily understood by using keyword information extracted from subtitle information during playback of a video playback device. In the keyword extraction process here, morphological analysis is performed on the caption sentence to extract a noun part. After this, the process of extracting the noun part surrounded by symbols such as parentheses and quotations as an important word, and the process of extracting whether the meaning of the corresponding noun is registered in the genre database created in advance Including.

また、例えば、特許文献2には、番組内容に関連したキーワードから、番組内容に関連した詳細情報をインターネットなど介して提供するシステムが開示されており、ここで、キーワード抽出処理が使われている。この場合も、形態素解析を基本処理として行ってから、形態素解析処理で取り出した名詞部分とごく辞書との照合処理でキーワード抽出処理を実現している。   Further, for example, Patent Document 2 discloses a system that provides detailed information related to program contents from keywords related to program contents via the Internet, and here, keyword extraction processing is used. . In this case as well, the keyword extraction process is realized by the matching process between the noun part extracted by the morpheme analysis process and the very dictionary after performing the morpheme analysis as a basic process.

特開2012−034235号公報JP 2012-034235 A 特開2013−168091号公報JP 2013-168091 A

前述の通り、従来の技術によるキーワード抽出処理では、形態素解析処理が基本となっている。したがって、形態素解析処理そのものが抱えている問題がそのまま、キーワード抽出処理の課題として残る。形態素解析処理の問題とは、例えば、複合語、外来語、固有表現、口語文などへの対応等に問題を有する点である。   As described above, the keyword extraction process according to the conventional technique is based on the morphological analysis process. Therefore, the problem of the morphological analysis process itself remains as a problem of the keyword extraction process. The problem of morphological analysis processing is that, for example, there is a problem in dealing with compound words, foreign words, specific expressions, colloquial sentences, and the like.

本発明は、上記のような課題を解決すべく為されたものであり、形態素解析処理を前提とせずに、文を含むテキストから、キーワードを抽出することのできるキーワード抽出装置およびそのプログラムを提供するものである。   The present invention has been made to solve the above-described problems, and provides a keyword extraction device and a program for extracting a keyword from text including a sentence without assuming morphological analysis processing. To do.

[1]上記の課題を解決するため、本発明の一態様によるキーワード抽出装置は、キーワードの集合を格納しておくコーパスデータ記憶部と、テキストデータを取得するテキスト取得部と、前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、を具備することを特徴とするものである。   [1] In order to solve the above problems, a keyword extraction device according to an aspect of the present invention includes a corpus data storage unit that stores a set of keywords, a text acquisition unit that acquires text data, and the text acquisition unit. Is applied to only text data within a predetermined range that is currently acquired by a local corpus data storage unit that stores a set of keywords, and a keyword based on the first text data acquired by the text acquisition unit A local corpus data generation unit that registers the extracted keyword in the local corpus data storage unit, the keyword read from each of the corpus data storage unit and the local corpus data storage unit, and the text acquisition Matching the second text data acquired by the department Therefore, it is characterized in that it comprises a and a keyword extraction section that extracts the keyword included in the second text data.

[2]また、本発明の一態様は、上記のキーワード抽出装置において、前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、前記キーワード抽出部は、前記第2のテキストデータが属する範囲を越えて変更されたときには、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第2のテキストデータとのマッチングに用いる、ことを特徴とする。   [2] Further, according to one aspect of the present invention, in the keyword extraction device, the local corpus data storage unit stores a set of keywords that differ for each of the predetermined ranges, and the keyword extraction unit includes: When the second text data is changed beyond the range to which the second text data belongs, the second text data is switched to the keyword set corresponding to the changed predetermined range, and the keyword is read from the local corpus data storage unit. It is used for matching with data.

[3]また、本発明の一態様は、上記のキーワード抽出装置において、テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、前記第1のテキストデータは、テレビの番組に関する番組説明文のデータであり、前記第2のテキストデータは、前記番組における字幕テキストのデータであり、前記所定範囲は、前記番組内における前記字幕テキストの範囲である、ことを特徴とする。   [3] Further, according to one aspect of the present invention, in the keyword extracting device, the text acquisition unit acquires text data based on a television broadcast signal, and the first text data is a television program. The second text data is subtitle text data in the program, and the predetermined range is a range of the subtitle text in the program.

[4]また、本発明の一態様は、上記のキーワード抽出装置において、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせる、ことを特徴とする。
この構成により、キーワード抽出部は長いキーワードを優先的にマッチングさせる処理を行う。長いキーワードは、マッチング処理の結果の精度が良いため、装置全体としてのキーワード抽出の精度が上がる。
[4] Further, according to one aspect of the present invention, in the keyword extraction device, each of the corpus data storage unit and the local corpus data storage unit stores the keyword in association with a word length of each keyword. The keyword extracting unit gives priority to the longest word length and reads the keyword read from each of the corpus data storage unit and the local corpus data storage unit, and the second text acquired by the text acquisition unit. It is characterized by matching data.
With this configuration, the keyword extraction unit performs processing for preferentially matching long keywords. Since long keywords have good accuracy in the result of the matching process, the accuracy of keyword extraction as a whole device increases.

[5]また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワードは、名詞または名詞句であり、前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第2のテキストデータとマッチングさせることによって前記第2のテキストデータに含まれるキーワードを抽出し、次に、前記第2のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、ことを特徴とする。
この構成により、所定の長さ以上のキーワードについては、形態素解析処理前にマッチング行う。これにより、長いキーワードの抽出の精度がより向上する。これは形態素解析処理自体の特性として、語長の長い名詞部分を正しく出力するのが困難である、という問題を回避することにもつながる。
[5] In addition, according to one aspect of the present invention, in the keyword extraction device, the keyword is a noun or a noun phrase, and the keyword extraction unit first gives priority to a long word length, A keyword included in the second text data is extracted by matching the keyword up to the lower limit word length with the second text data, and then the extracted keyword is extracted from the second text data. Alternatively, the morphological analysis process is performed under the premise that the phrase is a noun phrase, and the noun or noun phrase obtained as a result of the morphological analysis process is further obtained from each of the corpus data storage unit and the local corpus data storage unit. It is included in the result of the morphological analysis process by matching with the read keyword. Extracting a keyword, and wherein the.
With this configuration, keywords having a predetermined length or more are matched before morphological analysis processing. This further improves the accuracy of long keyword extraction. This leads to avoiding the problem that it is difficult to correctly output a noun part having a long word length as a characteristic of the morphological analysis process itself.

[6]また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第2のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、ことを特徴とする。
この構成により、第1のテキストデータだけでなく、第2のテキストデータをも用いて、つまり第2のテキストデータに含まれていたキーワードをも用いて、ローカルコーパスデータを生成することができる。
[6] Further, according to one aspect of the present invention, in the keyword extraction device, the keyword extraction unit passes the extracted keyword information to the local corpus data generation unit, and the local corpus data generation unit The keyword extracted from the second text data by the extraction unit is further registered in the local corpus data storage unit.
With this configuration, local corpus data can be generated using not only the first text data but also the second text data, that is, using the keywords included in the second text data.

[7]また、本発明の一態様は、上記のキーワード抽出装置において、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第2のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、ことを特徴とする。
この構成により、テキストデータ内における言い換えや表現の揺れなどに対応して、名寄せした結果を出力することができる。
[7] Further, according to one aspect of the present invention, in the keyword extraction device, the corpus data storage unit and the local corpus data storage unit may each have keywords in a relationship that can be paraphrased among the plurality of keywords to be stored. The keyword extraction unit refers to the association information held by the corpus data storage unit and the local corpus data storage unit, thereby extracting the plurality of keywords extracted from the second text data. Is in a paraphrasable relationship, it is output after performing a name identification process that integrates a plurality of the keywords in the paraphrased relationship.
With this configuration, it is possible to output a name identification result corresponding to paraphrasing or fluctuation of expression in text data.

[8]また、本発明の一態様は、上記のキーワード抽出装置において、前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、ことを特徴とする。
この構成により、キーワード検出の精度を上げることができる。つまり、キーワードの誤検出を防ぐことができる。また、キーワードの種類(例えば、漢字、ひらかな、カタカナ、英数字、特殊文字等の、文字の種別による分類)ごとに、キーワードに関する知識を適用することができる。
[8] Further, according to one aspect of the present invention, in the keyword extraction device, the keyword extraction unit reads the keyword read from each of the corpus data storage unit and the local corpus data storage unit, and the text acquisition unit. With respect to the keyword detected by matching with the second text data acquired by the above, it is confirmed whether or not it is a detection error by applying a rule according to the type of characters constituting the keyword. Only when it is confirmed that there is no keyword, the keyword is extracted.
With this configuration, the accuracy of keyword detection can be increased. That is, erroneous detection of keywords can be prevented. In addition, knowledge about the keyword can be applied for each type of keyword (for example, classification by character type such as kanji, hiragana, katakana, alphanumeric characters, special characters, etc.).

[9]また、本発明の一態様は、コンピューターを、キーワードの集合を格納しておくコーパスデータ記憶部、テキストデータを取得するテキスト取得部、前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部、前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部、として機能させるためのプログラムである。   [9] Further, according to one aspect of the present invention, the computer includes a corpus data storage unit that stores a set of keywords, a text acquisition unit that acquires text data, and a predetermined range currently acquired by the text acquisition unit. In order to apply only to the text data, a local corpus data storage unit that stores a set of keywords, a keyword is extracted based on the first text data acquired by the text acquisition unit, the extracted keyword, The local corpus data generation unit registered in the local corpus data storage unit, the keyword read from each of the corpus data storage unit and the local corpus data storage unit, and the second text data acquired by the text acquisition unit By matching, the second text data Keyword extracting unit for extracting the keyword included is a program for functioning as a.

本発明によれば、ローカルコーパスデータを、所定の範囲内のみで局所的に用いた形で、精度の高いキーワード抽出を行うことができる。
また、本発明によれば、形態素解析処理において正しく処理されにくい、長いキーワードの検出も、精度よく行うことができる。
また、本発明によれば、テレビの字幕等のテキストデータから精度よくキーワードを抽出し、テレビ放送と連携したサービスにおいて、そのようなキーワードを利用することができるようになる。
According to the present invention, highly accurate keyword extraction can be performed in a form in which local corpus data is locally used only within a predetermined range.
Further, according to the present invention, it is possible to accurately detect a long keyword that is difficult to be correctly processed in the morphological analysis process.
In addition, according to the present invention, keywords can be accurately extracted from text data such as subtitles of television, and such keywords can be used in a service linked with television broadcasting.

本発明の実施形態によるキーワード抽出装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the keyword extraction apparatus by embodiment of this invention. 同実施形態によるコーパスデータベース(大規模コーパスデータベースおよびローカルコーパスデータベース)の基本構成を示す概略図である。It is the schematic which shows the basic composition of the corpus database (large-scale corpus database and local corpus database) by the embodiment. 同実施形態によるキーワード抽出装置が字幕テキストからキーワードを抽出する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which the keyword extracting device by the embodiment extracts a keyword from a subtitle text. 同実施形態による大規模コーパスデータベースを構築する手順を示す概略図である。It is the schematic which shows the procedure which builds the large-scale corpus database by the same embodiment. 同実施形態におけるローカルコーパスデータベース生成部13による、ローカルコーパスデータベースの構築手順を示したフローチャートである。It is the flowchart which showed the construction procedure of the local corpus database by the local corpus database production | generation part 13 in the embodiment. 同実施形態による段階的キーワードマッチングの処理の手順を示すフローチャートの一部分(1/2)である。It is a part (1/2) of the flowchart which shows the procedure of the process of the stepwise keyword matching by the same embodiment. 同実施形態による段階的キーワードマッチングの処理の手順を示すフローチャートの一部分(2/2)である。It is a part (2/2) of the flowchart which shows the procedure of the process of the stepwise keyword matching by the same embodiment.

次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるキーワード抽出装置の機能構成を示すブロック図である。この図において、符号1はキーワード抽出装置である。図示するように、キーワード抽出装置1は、コーパスデータベース構築処理部11と、大規模コーパスデータベース記憶部12(コーパスデータ記憶部)と、ローカルコーパスデータベース生成部13(ローカルコーパスデータ生成部)と、ローカルコーパスデータベース記憶部14(ローカルコーパスデータ記憶部)と、字幕・番組説明文抽出部16(テキスト取得部)と、キーワード抽出部17と、カテゴリー抽出部18と、を含んで構成される。
Next, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of the keyword extracting apparatus according to the present embodiment. In this figure, reference numeral 1 denotes a keyword extracting device. As shown in the figure, the keyword extraction device 1 includes a corpus database construction processing unit 11, a large-scale corpus database storage unit 12 (corpus data storage unit), a local corpus database generation unit 13 (local corpus data generation unit), A corpus database storage unit 14 (local corpus data storage unit), a caption / program description sentence extraction unit 16 (text acquisition unit), a keyword extraction unit 17, and a category extraction unit 18 are configured.

なお、このキーワード抽出装置1は、例えば、テレビ受像機の内部に設けられたり、ケーブル等によってテレビ受像機と接続されたりする。これにより、キーワード抽出装置1は、テレビ受像機が受信するデジタル放送信号を利用して、キーワードの抽出を行う。
また、このキーワード抽出装置1の機能は、大別してオフラインで行うオフライン処理部と、リアルタイム処理を行うオンライン処理部とから構成される。オフライン処理の典型的なものは、コーパスデータベース構築処理部11による、大規模コーパスデータベースの構築の処理である。オンライン処理の中心は、受信中のデジタル放送信号を元に、リアルタイムに字幕テキストからキーワードを抽出する処理(キーワード抽出部17)である。
Note that the keyword extracting device 1 is provided, for example, inside a television receiver or connected to the television receiver by a cable or the like. Thereby, the keyword extracting device 1 extracts keywords using the digital broadcast signal received by the television receiver.
The function of the keyword extraction device 1 is roughly divided into an offline processing unit that performs offline and an online processing unit that performs real-time processing. A typical offline process is a process for constructing a large-scale corpus database by the corpus database construction processing unit 11. The center of online processing is processing (keyword extraction unit 17) that extracts keywords from subtitle text in real time based on the digital broadcast signal being received.

コーパスデータベース構築処理部11は、例えば外部から取得可能な辞書リソースのデータを元に、大規模コーパスデータベースを構築し、大規模コーパスデータベース記憶部12に書き込みを行う。
大規模コーパスデータベース記憶部12は、テキストとのマッチング処理に使用するためのキーワードの集合を格納しておく記憶手段である。
The corpus database construction processing unit 11 constructs a large-scale corpus database, for example, based on dictionary resource data that can be acquired from the outside, and writes the large-scale corpus database storage unit 12.
The large-scale corpus database storage unit 12 is a storage unit that stores a set of keywords for use in matching processing with text.

ローカルコーパスデータベース生成部13は、番組内にローカルなコーパスを生成し、ローカルコーパスデータベース記憶部14に書き込む。ローカルコーパスデータベース生成部13は、2種類のデータを元として、このローカルコーパスデータベースを生成する。その第1は、字幕・番組説明文抽出部16から得られる番組説明文を解析することによって抽出される情報である。また、その第2は、キーワード抽出部17が番組の字幕から抽出したキーワードの情報である。番組説明文のテキストは、その番組の特徴を表すデータである。
別の観点では、ローカルコーパスデータベース生成部13は、字幕・番組説明文抽出部16が取得した第1のテキストデータ(番組説明文)を元にキーワードを抽出し、抽出したキーワードを、ローカルコーパスデータベース記憶部14に登録する。
The local corpus database generation unit 13 generates a local corpus in the program and writes it in the local corpus database storage unit 14. The local corpus database generation unit 13 generates this local corpus database based on two types of data. The first is information extracted by analyzing the program description obtained from the caption / program description extractor 16. The second is keyword information extracted by the keyword extraction unit 17 from the subtitles of the program. The text of the program description is data representing the characteristics of the program.
In another aspect, the local corpus database generation unit 13 extracts keywords based on the first text data (program description) acquired by the caption / program description extraction unit 16, and uses the extracted keywords as a local corpus database. Register in the storage unit 14.

ローカルコーパスデータベース記憶部14は、対象とする番組内にローカルなコーパスデータを記憶するものである。例えば、名詞(典型的には、番組の出演者の氏名などといったもの)の言い換えや短縮形などが、ローカルコーパスデータベースに含まれる。氏名の言い換えとは、例えば、ニックネームや、姓・名のうちの片方のみに接尾語の「ちゃん」などを付加して得られる愛称などである。ローカルコーパスデータベース記憶部14が記憶するローカルコーパスデータは、番組内で局所的に出現しやすい表現の揺れなどの名寄せの目的のために用いられ得る。
なお、ローカルコーパスデータベースは、番組ごとに区別した形で存在する。後述する通り、利用者がテレビ番組を視聴中に番組を切り替えた場合には、使用するローカルコーパスデータベースも切り替えられる。
ローカルコーパスデータベース記憶部14は、現在処理中の(字幕・番組説明文抽出部16が取得中の)所定範囲内のテキストデータのみを対象とするために、キーワードの集合を格納しておく。所定範囲とは、例えば、テレビ放送における一つの番組の範囲である。
The local corpus database storage unit 14 stores local corpus data in the target program. For example, paraphrases or abbreviations of nouns (typically names of performers of programs) are included in the local corpus database. The paraphrasing of the name is, for example, a nickname or a nickname obtained by adding the suffix “chan” to only one of the surname / first name. The local corpus data stored in the local corpus database storage unit 14 can be used for name identification purposes such as shaking of expressions that are likely to appear locally in a program.
Note that the local corpus database exists in a form distinguished for each program. As will be described later, when the user switches the program while viewing the television program, the local corpus database to be used is also switched.
The local corpus database storage unit 14 stores a set of keywords in order to target only text data within a predetermined range currently being processed (acquired by the caption / program explanation extracting unit 16). The predetermined range is, for example, the range of one program in television broadcasting.

字幕・番組説明文抽出部16は、外部からデジタルテレビ放送の信号を取得し、その信号からテキストデータを抽出する。ここで抽出するテキストデータは、デジタル放送の信号に所定の形式で含まれている、放送番組の説明文や、字幕テキストである。なお、デジタルテレビ放送の信号の構成については、周知であるため、ここでの説明を省略する。字幕・番組説明文抽出部16は、抽出した番組説明文のテキスト(第1のテキストデータ)を、ローカルコーパスデータベース生成部13に渡す。また、字幕・番組説明文抽出部16は、抽出した字幕のテキスト(第2のテキストデータ)を、キーワード抽出部17に渡す。   The caption / program description extracting unit 16 obtains a digital television broadcast signal from the outside, and extracts text data from the signal. The text data extracted here is an explanatory text of a broadcast program or caption text included in a predetermined format in a digital broadcast signal. In addition, since the structure of the signal of digital television broadcasting is known, description here is abbreviate | omitted. The subtitle / program description sentence extraction unit 16 passes the extracted program description text (first text data) to the local corpus database generation unit 13. Also, the caption / program explanation extracting unit 16 passes the extracted caption text (second text data) to the keyword extracting unit 17.

キーワード抽出部17は、大規模コーパスデータベース記憶部12から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部14から読み出すローカルコーパスデータとのマッチング処理を行うことにより、字幕・番組説明文抽出部16から受け取った字幕テキストに含まれるキーワードを抽出する。
また、キーワード抽出部17は、語長の長いものから優先させて大規模コーパスデータベース記憶部12から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部14から読み出すローカルコーパスデータのそれぞれから読み出したキーワードと、字幕・番組説明文抽出部16から受け取った字幕テキストとをマッチングさせる。
また、キーワード抽出部17は、大規模コーパスデータベースおよびローカルコーパスデータベースが保持するキーワード間の関連付け情報(言い換え可能な関係)を参照することによって、字幕テキストデータから抽出した複数のキーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数のキーワードを統合する名寄せ処理を行ってから出力する。
The keyword extraction unit 17 performs matching processing on the large-scale corpus data read from the large-scale corpus database storage unit 12 and the local corpus data read from the local corpus database storage unit 14, so that the subtitle / program description sentence extraction unit 16 performs the matching process. Extract keywords included in the received subtitle text.
Further, the keyword extraction unit 17 gives priority to the keywords read from the large-scale corpus data read from the large-scale corpus database storage unit 12 and the local corpus data read from the local corpus database storage unit 14 in preference to those having a long word length. The subtitle text received from the subtitle / program explanation extractor 16 is matched.
In addition, the keyword extraction unit 17 refers to the association information (paraphrasable relationship) between keywords held in the large-scale corpus database and the local corpus database so that a plurality of keywords extracted from the caption text data can be rephrased. In some cases, a name identification process that integrates a plurality of keywords that can be paraphrased is performed and then output.

カテゴリー抽出部18は、キーワード抽出部17によって抽出されたキーワードに、カテゴリー情報を付加して出力する。なお、カテゴリー抽出部18は、キーワードに対応するカテゴリー情報を、コーパスデータベースから取得する。   The category extraction unit 18 adds the category information to the keyword extracted by the keyword extraction unit 17 and outputs it. The category extraction unit 18 acquires category information corresponding to the keyword from the corpus database.

図2は、コーパスデータベースの基本構造を示す概略図である。同図に示すデータ構成は、大規模コーパスデータベース(大規模コーパスデータベース記憶部12)とローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)の両方に共通のものである。図示するように、コーパスデータベースは、語長と単語情報とを関連付けた表形式のデータとして表現されている。語長とは、単語の長さ(文字数)である。本実施形態では、語長が大きい(長い)順に、整列された状態で、データベースが構築されている。なお、各エントリーを語長順に並べるための具体的な実現方法としては、例えば、データの記録媒体上で物理的に語長の長い順にデータを配置するようにしても良いし、語長についてのインデックス(索引)データ等を用いて、論理的に語長の長い順にデータを配置するようにしても良い。
つまり、コーパスデータベースは、各々のキーワードと、そのキーワードの語長とを関連付けて格納する。
FIG. 2 is a schematic diagram showing the basic structure of the corpus database. The data structure shown in the figure is common to both the large-scale corpus database (large-scale corpus database storage unit 12) and the local corpus database (local corpus database storage unit 14). As shown in the figure, the corpus database is expressed as tabular data in which word lengths and word information are associated with each other. The word length is the length (number of characters) of a word. In the present embodiment, the database is constructed in a state where the word lengths are arranged in descending (long) order. As a specific implementation method for arranging the entries in the order of word length, for example, data may be physically arranged in the order of the word length on the data recording medium. Data may be arranged in the order of logically long word length using index (index) data or the like.
That is, the corpus database stores each keyword in association with the word length of the keyword.

同図では、語長の長い順にデータが配置されており、全部でM個の単語w(1),w(2),・・・,w(M)が登録されている。図示する例では、単語w(i+1)までは、語長がK(Kは正整数)である。そして、単語w(i+2)からは、語長が(K−1)である。なお、後述する通り、Kは予め設定された値であり、語長がK以上のコーパス要素と、語長がK未満のコーパス要素とでは、使い方が少し異なる。   In the figure, data is arranged in the order of word length, and a total of M words w (1), w (2),..., W (M) are registered. In the illustrated example, the word length is K (K is a positive integer) up to the word w (i + 1). From the word w (i + 2), the word length is (K-1). As will be described later, K is a preset value, and usage is slightly different between a corpus element having a word length of K or more and a corpus element having a word length of less than K.

各々の単語(キーワード)に関して、コーパスデータベースは、単語そのもののほかに、その単語が属するカテゴリーの情報、名寄せ処理に用いるための言い換え用の単語の集合の情報を持っている。
また、コーパスデータベースでは、キーワードは、その種類ごとにまとめて格納されている。ここで、キーワードの種類とは、漢字、ひらがな、カタカナ、英数字、その他特殊文字などといった、タイプの別である。この種類の使い方については、後述する。
For each word (keyword), the corpus database has, in addition to the word itself, information on the category to which the word belongs and information on a set of words for paraphrasing for use in name identification processing.
In the corpus database, keywords are stored together for each type. Here, the types of keywords are types such as kanji, hiragana, katakana, alphanumeric characters, and other special characters. This type of usage will be described later.

また、ローカルコーパスデータベースにおけるあるエントリーの元が、大規模コーパスデータベースにおけるエントリーである場合には、ローカルコーパスデータベース側のエントリーから大規模コーパスデータベース上のエントリーへのリンク情報(所在場所を指し示す情報)も付属的に保持されている。
また、コーパスデータベースは、言い換えによるキーワードに関しては、言い換え前のキーワードへのリンク情報をも保持する。
In addition, if the source of an entry in the local corpus database is an entry in a large corpus database, link information (information indicating the location) from the entry on the local corpus database to the entry on the large corpus database is also provided. It is held as an accessory.
In addition, the corpus database also holds link information to the keyword before paraphrase for the keyword based on paraphrase.

図3は、キーワード抽出装置1が字幕テキストからキーワードを抽出する処理の手順を示すフローチャートである。以下、このフローチャートに沿って、キーワード抽出の処理の手順を説明する。
なお、このフローチャートの処理に入る前に、大規模コーパスデータベースおよびローカルコーパスデータベースは、それぞれ既に構築されている。それらそれぞれの構築方法等については、後で別の図を参照しながら説明する。特に、大規模コーパスデータベースはオフライン処理として最初に構築されている。
FIG. 3 is a flowchart showing a procedure of processing in which the keyword extracting device 1 extracts keywords from subtitle text. The keyword extraction processing procedure will be described below with reference to this flowchart.
Note that the large-scale corpus database and the local corpus database have already been constructed before entering the processing of this flowchart. Each construction method and the like will be described later with reference to another drawing. In particular, a large corpus database is first constructed as an off-line process.

まずステップS1において、字幕・番組説明文抽出部16は、取得したデジタル放送信号から、字幕テキストのデータを抽出し、キーワード抽出部17に渡す。キーワード抽出部17は、その字幕テキストを、一時的にバッファ記憶手段に蓄積する。
次にステップS2において、キーワード抽出部17が、字幕・番組説明文抽出部16から渡された字幕テキストを、大規模コーパスデータベース(大規模コーパスデータベース記憶部12)およびローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)とマッチングさせることによる、段階的なキーワード抽出を行う。このキーワード抽出処理の詳細については、別の図を参照しながら後で説明する。
First, in step S <b> 1, the caption / program explanation extracting unit 16 extracts caption text data from the acquired digital broadcast signal, and passes the extracted data to the keyword extracting unit 17. The keyword extraction unit 17 temporarily stores the subtitle text in the buffer storage unit.
Next, in step S2, the keyword extracting unit 17 converts the subtitle text passed from the subtitle / program description extracting unit 16 into a large-scale corpus database (large-scale corpus database storage unit 12) and a local corpus database (local corpus database storage). Stepwise keyword extraction is performed by matching with the unit 14). Details of this keyword extraction processing will be described later with reference to another drawing.

次にステップS3において、キーワード抽出部17は、ステップS2でマッチしたキーワードを、前記のバッファ記憶手段から除去する。また、キーワード抽出部17は、そのキーワードをローカルコーパスデータベース生成部13に渡す。そして、ローカルコーパスデータベース生成部13は、そのキーワードが未登録である場合には、ローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)に追加登録する。   In step S3, the keyword extraction unit 17 removes the keyword matched in step S2 from the buffer storage unit. The keyword extraction unit 17 passes the keyword to the local corpus database generation unit 13. Then, when the keyword is not registered, the local corpus database generation unit 13 additionally registers in the local corpus database (local corpus database storage unit 14).

なお、補足すると、ステップS2で記載した「段階的な」という意味は、次の通りである。即ち、ステップS2においてあるキーワードがマッチして、ステップS3ではそのキーワードが前記のバッファ記憶手段上の字幕テキストデータから除去される。その後、処理のループ(後述の、ステップS5からS2へ戻る制御)によって再びステップS2に戻ってきたときに、また、除去後の字幕テキストデータを対象としたキーワードマッチングを行う。このようにキーワードを1個ずつマッチさせながら、そのキーワードをローカルコーパスデータベースに登録するとともに、バッファ記憶手段上の字幕テキストデータから削除し、その削除後の字幕テキストデータを対象としたマッチングを次の段階で行う。
言い換えると、キーワード抽出装置1は、字幕から検出されたキーワードを除いた字幕文に対して、引き続き、キーワードの検出を行う。そして、検出対象となる字幕要素がなくなるか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がなくなるか、のいずれかまで同じ処理を繰り返し行う。
In addition, supplementally, the meaning of “stepwise” described in step S2 is as follows. That is, a keyword is matched in step S2, and in step S3, the keyword is removed from the caption text data on the buffer storage means. Thereafter, when returning to step S2 again by a processing loop (control to return from step S5 to S2 described later), keyword matching is performed on the subtitle text data after removal. In this way, while matching the keywords one by one, the keyword is registered in the local corpus database, deleted from the caption text data on the buffer storage means, and matching for the caption text data after the deletion is performed as follows. Do it in stages.
In other words, the keyword extraction device 1 continues to detect keywords for subtitle sentences excluding the keywords detected from the subtitles. Then, the same processing is repeated until there is no subtitle element to be detected, or there are no elements in the large corpus database and the local corpus database.

ステップS3の後、ステップS4において、カテゴリー抽出部18は、キーワード抽出部17によって抽出されたキーワードが属するカテゴリーの情報を抽出する。そして、カテゴリー抽出部18は、キーワードと、そのカテゴリー情報との対を、外部に出力する。   After step S3, in step S4, the category extraction unit 18 extracts information on the category to which the keyword extracted by the keyword extraction unit 17 belongs. Then, the category extraction unit 18 outputs a pair of the keyword and the category information to the outside.

次にステップS5において、キーワード抽出装置1は、現在の字幕テキストにおいて、キーワード検出の最終段階に達しているか否かを判定する。ここで、最終段階とは、キーワードマッチングの対象となる要素がなくなった段階である。具体的には、最終段階とは、バッファ記憶手段における字幕テキストの中にもう要素がないか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がないか、のいずれかの状態である。既に最終段階に達していれば(ステップS5:YES)次のステップS6に進み、まだ最終段階でなければ(ステップS5:NO)さらなるマッチングのためにステップS2に戻る。   Next, in step S5, the keyword extraction device 1 determines whether or not the final stage of keyword detection has been reached in the current caption text. Here, the final stage is a stage where there are no more elements to be subjected to keyword matching. Specifically, the final stage is a state in which there are no more elements in the subtitle text in the buffer storage means, or there are no elements in the large corpus database and the local corpus database. If the final stage has already been reached (step S5: YES), the process proceeds to the next step S6, and if not yet the final stage (step S5: NO), the process returns to step S2 for further matching.

次にステップS6において、キーワード抽出装置1は、処理した字幕テキストが最後の字幕テキストであるか否かを判断する。言い換えれば、キーワード抽出装置1は、残っているか否かを判断する。最後の字幕テキストである場合(ステップS6:YES)には、キーワード抽出装置1は、このフローチャート全体の処理を終了する。まだ処理すべき字幕テキストが残っている場合(ステップS6:NO)には、次の字幕テイストを処理するためにステップS1に戻る。   Next, in step S6, the keyword extracting device 1 determines whether or not the processed subtitle text is the last subtitle text. In other words, the keyword extraction device 1 determines whether or not it remains. If it is the last caption text (step S6: YES), the keyword extracting device 1 ends the process of the entire flowchart. If subtitle text to be processed still remains (step S6: NO), the process returns to step S1 to process the next subtitle taste.

図4は、大規模コーパスデータベースを構築する手順を示す概略図である。この処理は、コーパスデータベース構築処理部11によって予めオフラインで行われる。大規模コーパスデータベースは、本実施形態によるキーワード抽出処理において利用しやすい構造を有する。コーパスデータベース構築処理部11は、外部から取得する辞書リソースのデータを、そのような構造に整形する。大規模コーパスデータベースの元となる情報は、例えば、ウィキペディア(Wikipedia)などといった、オープンリソースの辞書データベースである。もちろん、こういった既存のデータベースを用いる代わりに、コーパスの要素を収集することによって大規模コーパスデータベースを構築しても良い。なお、本実施形態が想定する大規模コーパスデータベースが保持する単語数は、百万語から百数十万語程度であるが、実際には、その範囲より多い単語数、あるいは少ない単語数で、コーパスデータベースを構築しても良い。   FIG. 4 is a schematic diagram showing a procedure for constructing a large-scale corpus database. This process is performed offline in advance by the corpus database construction processing unit 11. The large-scale corpus database has a structure that can be easily used in the keyword extraction processing according to the present embodiment. The corpus database construction processing unit 11 shapes the dictionary resource data acquired from the outside into such a structure. The information that is the basis of the large-scale corpus database is an open resource dictionary database such as Wikipedia. Of course, instead of using such an existing database, a large-scale corpus database may be constructed by collecting corpus elements. Note that the number of words held in the large-scale corpus database assumed in the present embodiment is about one million to several hundred thousand words, but actually, the number of words is larger or smaller than that range. A corpus database may be constructed.

同図に示す通り、コーパスデータベース構築処理部11は、辞書リソースのデータを取得し、まず、辞書リソースに含まれる各々のキーワードを種類別に分類する処理を行う(符号81の処理)。ここで、種類とは、漢字、ひらがな、カタカナ、英数字、特殊文字など、キーワードを構成する文字の種別による分類である。これは、文字コードにより判別可能である。そして、次に、コーパスデータベース構築処理部11は、分類された種類ごとに、キーワードの長さ(字数)によるソーティング処理を行う(符号82の処理)。これは、図2で説明したとおり、コーパスデータベース中の単語を語長順に使用するためである。ソーティング処理は、語長をキーとして、降順の結果が得られるように行われる。そして、ソーティング後の各キーワードについて、単語の付属情報を付加する処理を行う。付属情報を付加する処理とは、語長インデックス情報を生成して付加する処理(符号83)と、その単語のエイリアス(別名,言い換え)情報を付加する処理(符号84)と、単語のカテゴリー情報を付加する処理(符号85)である。
なお、上の処理におけるエイリアス情報は、名寄せ処理のために用いることができる。
As shown in the figure, the corpus database construction processing unit 11 acquires dictionary resource data, and first performs a process of classifying each keyword included in the dictionary resource by type (process 81). Here, the type is a classification according to the type of characters constituting the keyword, such as kanji, hiragana, katakana, alphanumeric characters, special characters. This can be determined by the character code. Then, the corpus database construction processing unit 11 performs a sorting process based on the keyword length (number of characters) for each classified type (process of reference numeral 82). This is because the words in the corpus database are used in the order of word length as described in FIG. The sorting process is performed so that descending results are obtained using the word length as a key. Then, for each keyword after sorting, a process of adding word attachment information is performed. The process of adding the attached information includes a process of generating and adding word length index information (reference 83), a process of adding alias (alias, paraphrase) information of the word (reference 84), and word category information. Is a process (reference numeral 85).
The alias information in the above process can be used for the name identification process.

辞書リソースとして前記のウィキペディアを選択する場合には、辞書データ全体をダウンロードして利用することができる。また、キーワードごとのカテゴリー情報やエイリアス情報は、ダウンロードしたファイルから直接得ることもでき、また辞書本文(解説文)を解析することによって得ることもできる。   When selecting the Wikipedia as a dictionary resource, the entire dictionary data can be downloaded and used. The category information and alias information for each keyword can be obtained directly from the downloaded file, or can be obtained by analyzing the dictionary text (explanatory text).

図5は、ローカルコーパスデータベース生成部13による、ローカルコーパスデータベースの構築手順を示したフローチャートである。以下、このフローチャートに沿って処理を説明する。   FIG. 5 is a flowchart showing a procedure for constructing a local corpus database by the local corpus database generation unit 13. Hereinafter, the processing will be described along this flowchart.

まずステップS31において、ローカルコーパスデータベース生成部13は、字幕・番組説明文抽出部16から番組説明文を取得する。この番組説明文は、典型的には番組の開始時に、字幕・番組説明文抽出部16によってデジタル放送信号から抽出されるものである。また、本ステップにおいて、ローカルコーパスデータベース生成部13は、現在の番組に対応するローカルコーパスデータベースを選択する。
次にステップS32において、ローカルコーパスデータベース生成部13は、受け取った番組説明文のテキストから、主要なキーワードを抽出する。
First, in step S <b> 31, the local corpus database generation unit 13 acquires a program description from the caption / program description extraction unit 16. This program description is typically extracted from the digital broadcast signal by the caption / program description extraction unit 16 at the start of the program. In this step, the local corpus database generation unit 13 selects a local corpus database corresponding to the current program.
Next, in step S32, the local corpus database generation unit 13 extracts main keywords from the received program description text.

次にステップS33において、ローカルコーパスデータベース生成部13は、抽出されたキーワードの言い換えとなり得るエイリアス情報を大規模コーパスデータベース(大規模コーパスデータベース記憶部12)から読み出す。そして、ローカルコーパスデータベース生成部13は、当該キーワードに関連する言い換え用のキーワードの集合を、ローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)に追加登録する。   Next, in step S <b> 33, the local corpus database generation unit 13 reads alias information that can be a paraphrase of the extracted keyword from the large-scale corpus database (large-scale corpus database storage unit 12). Then, the local corpus database generation unit 13 additionally registers a set of paraphrase keywords related to the keyword in the local corpus database (local corpus database storage unit 14).

次にステップS34において、ローカルコーパスデータベース生成部13は、番組が切り替えられたか否かを判断する。この判断は、例えば、テレビ受像機側から得られる信号に基づいて行うことができる。利用者によるリモコン操作等により、テレビ受像機は受信するチャンネルを切り替える。
判断の結果、番組が切り替えられていた場合(ステップS34:YES)にはステップS35に進む。番組が切り替えられていなかった場合(ステップS34:NO)にはステップS37に飛ぶ。
Next, in step S34, the local corpus database generation unit 13 determines whether or not the program has been switched. This determination can be made based on, for example, a signal obtained from the television receiver side. The television receiver switches the receiving channel by a remote control operation by the user.
If the result of determination is that the program has been switched (step S34: YES), the process proceeds to step S35. If the program has not been switched (step S34: NO), the process jumps to step S37.

ステップS35に進んだ場合には、同ステップにおいて、ローカルコーパスデータベース生成部13は、ローカルコーパスデータベースを切り替える。つまり、番組切り替え前に使用していたローカルコーパスデータベースと番組切り替え後に使用するローカルコーパスデータベースは、異なる。既に述べたとおり、ローカルコーパスデータベースは、番組ごとに存在する。   When the process proceeds to step S35, the local corpus database generation unit 13 switches the local corpus database in the same step. That is, the local corpus database used before the program switching is different from the local corpus database used after the program switching. As already described, a local corpus database exists for each program.

次にステップS36において、ローカルコーパスデータベース生成部13は、番組が終了したか否かを判断する。この判断も、テレビ受像機側から得られる信号に基づいて行うことができる。テレビ放送信号に含まれる制御情報に基づいて、テレビ受像機は、番組の終了を検知することができる。
判断の結果、番組が終了した場合(ステップS36:YES)にはステップS38に進む。番組が終了していない場合(ステップS36:NO)にはステップS37に進む。
Next, in step S36, the local corpus database generation unit 13 determines whether or not the program has ended. This determination can also be made based on a signal obtained from the television receiver side. Based on the control information included in the television broadcast signal, the television receiver can detect the end of the program.
If the result of determination is that the program has ended (step S36: YES), the process proceeds to step S38. If the program has not ended (step S36: NO), the process proceeds to step S37.

ステップS37に進んだ場合、同ステップにおいて、キーワード抽出部17は、字幕テキストからの段階的なキーワード抽出の処理を行う。キーワード抽出部17によるキーワード抽出の処理の手順については、別の図で説明する通りである。   When the process proceeds to step S37, in this step, the keyword extraction unit 17 performs a stepwise keyword extraction process from the caption text. The procedure of keyword extraction processing by the keyword extraction unit 17 is as described in another figure.

ステップS38に進んだ場合、同ステップにおいて、ローカルコーパスデータベース生成部13は、ローカルコーパスデータベースをリセットする。なお番組が終了した場合には、次の番組の開始に伴って、その番組に対応したローカルコーパスデータベースが対象となるように選択される(ステップS31において記載の通り)。   When the process proceeds to step S38, in this step, the local corpus database generation unit 13 resets the local corpus database. When the program ends, the local corpus database corresponding to the program is selected to be targeted as the next program starts (as described in step S31).

上の処理手順で説明した通り、番組の切り替えも、番組の終了も生じなかった場合には、キーワード抽出装置1は、字幕テキストからのキーワード抽出を行っていく(ステップS37)。そして、抽出されたキーワードに関して、その言い換えキーワードがまだローカルコーパスデータベースに登録されていない場合には、ローカルコーパスデータベースに言い換えキーワードの登録を行う(ステップS33)。なお、ローカルコーパスデータベースに登録されたキーワードは、キーワード抽出部17が字幕からキーワードを抽出する処理を行う際の、マッチングの対象となる。つまり、キーワード抽出部17は、大規模コーパスデータベースとローカルコーパスデータベースの両方を同等に扱い、キーワードのマッチング用に使用する。   As described in the above processing procedure, when neither the program switching nor the program end occurs, the keyword extracting device 1 performs keyword extraction from the caption text (step S37). Then, regarding the extracted keyword, if the paraphrase keyword is not yet registered in the local corpus database, the paraphrase keyword is registered in the local corpus database (step S33). Note that the keywords registered in the local corpus database are to be matched when the keyword extraction unit 17 performs a process of extracting keywords from the subtitles. That is, the keyword extraction unit 17 treats both the large-scale corpus database and the local corpus database equally and uses them for keyword matching.

図6および図7は、段階的キーワードマッチングの処理の手順を示すフローチャートである。なお、ステップS51からS68までで表される一連の処理がこれら両図に分けて示されている。以下、このフローチャートに沿って説明する。   6 and 7 are flowcharts showing the procedure of the stepwise keyword matching process. Note that a series of processing represented by steps S51 to S68 is shown separately in these two figures. Hereinafter, it demonstrates along this flowchart.

まずステップS51(図6)において、キーワード抽出部17は、字幕テキストとコーパスデータ(大規模コーパスデータベースとローカルコーパスデータベースの両方。以下も同様。)とのマッチングを行う。このとき、キーワード抽出部17は、コーパスデータベース内で語長の長い要素から順にマッチングを行う。つまり、最初は、コーパスデータベース内で最も語長さの長い要素がマッチング対象となる。   First, in step S51 (FIG. 6), the keyword extraction unit 17 performs matching between subtitle text and corpus data (both large-scale corpus database and local corpus database; the same applies to the following). At this time, the keyword extraction unit 17 performs matching in order from an element having a long word length in the corpus database. That is, at first, an element having the longest word length in the corpus database is a matching target.

次にステップS52において、キーワード抽出部17は、ステップS51のマッチング処理において、字幕テキストとコーパスデータベースとの間のマッチングが検出されたか否かを判断する。検出された場合、即ち、現在のコーパスデータベースの要素が字幕テキスト内に存在した場合(ステップS52:YES)には、次のステップS53に進む。検出されなかった場合、即ち、現在の要素が字幕テキスト内に存在しなかった場合(ステップS52:NO)には、ステップS57に飛ぶ。   Next, in step S52, the keyword extraction unit 17 determines whether or not matching between the caption text and the corpus database is detected in the matching process in step S51. If detected, that is, if an element of the current corpus database exists in the caption text (step S52: YES), the process proceeds to the next step S53. If not detected, that is, if the current element does not exist in the caption text (step S52: NO), the process jumps to step S57.

次にステップS53において、キーワード抽出部17は、単語の種類に応じた確認を行う。これは、ステップS52におけるキーワードの検出が誤りである場合に訂正するためである。ここでの確認は、キーワードの種類ごとに行われる。図4において説明したように、コーパスデータベースではキーワードの種類ごとでの登録が行われているため、キーワード抽出部17はその種類を利用して、マッチしたキーワードの種類に応じた確認を行う。キーワード抽出部17は、確認すべき事項についてのルールを、キーワードの種類ごとに保持しており、それらのルールを適用する。つまり、キーワード抽出部17は、キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出結果とする。   Next, in step S53, the keyword extraction unit 17 performs confirmation according to the type of word. This is to correct when the keyword detection in step S52 is incorrect. The confirmation here is performed for each keyword type. As described with reference to FIG. 4, since registration is performed for each type of keyword in the corpus database, the keyword extraction unit 17 uses the type to perform confirmation according to the type of matched keyword. The keyword extraction unit 17 holds rules for matters to be confirmed for each type of keyword, and applies those rules. That is, the keyword extraction unit 17 confirms whether or not it is a detection error by applying a rule according to the type of characters constituting the keyword. Only when it is confirmed that there is no detection error, the keyword extraction unit 17 Let it be an extraction result.

ルールの一例は、次の(a)および(b)通りである。
(a)漢字のキーワードの場合:テキスト中で検出されたそのキーワードの前または後にカタカナまたは英数字がある場合は、その検出は正しい。
(b)漢字のキーワードの場合:4文字以上の漢字が連続している場合は、その検出は正しい。
(c)カタカナのキーワードの場合:テキスト中で検出されたそのキーワードの前または後にカタカナがある場合は、その検出は誤りである。
なお、ルールはこれらに限定されない。
An example of the rules is as follows (a) and (b).
(A) For Kanji keywords: If there is katakana or alphanumeric characters before or after the keyword detected in the text, the detection is correct.
(B) In the case of a kanji keyword: If four or more kanji characters are consecutive, the detection is correct.
(C) In the case of a keyword of katakana: If there is katakana before or after the keyword detected in the text, the detection is incorrect.
The rules are not limited to these.

次にステップS54において、キーワード抽出部17は、上のステップS53における確認の結果を判断する。そして、ステップS52の判定で検出されたキーワードが、誤検出であった場合(ステップS54:YES)には、ステップS57に飛ぶ。ステップS52の判定で検出されたキーワードが正しく検出されたものである場合(ステップS54:NO)には、次のステップS55に進む。   Next, in step S54, the keyword extraction unit 17 determines the confirmation result in step S53 above. If the keyword detected in the determination in step S52 is a false detection (step S54: YES), the process jumps to step S57. If the keyword detected in the determination in step S52 is correctly detected (step S54: NO), the process proceeds to the next step S55.

ステップS55に進んだ場合、同ステップにおいて、キーワード抽出部17は、字幕テキストの一時的バッファ記憶手段から、検出に成功したキーワードを除去する。   When the process proceeds to step S55, in the same step, the keyword extraction unit 17 removes the keyword that has been successfully detected from the subtitle text temporary buffer storage means.

そして、ステップS56において、キーワード抽出部17は、次のコーパス要素の語長をチェックする。具体的には、次の要素の語長が、Kより小さいか否かを判定する。ここで、Kは予め設定された値である。この語長のチェックは、コーパスデータベース内に格納されているキーワードのうち、長さ(文字数)がK以上のものだけをマッチングの対象とするために行うものである。そして、「語長<K」が真(TRUE)である場合(ステップS56:YES)、ステップS58に進む。そして、「語長<K」が偽(FALSE)である場合(ステップS56:NO)には、つまり次のコーパス要素の語長も充分に長い場合には、ステップS57に進む。   In step S56, the keyword extraction unit 17 checks the word length of the next corpus element. Specifically, it is determined whether or not the word length of the next element is smaller than K. Here, K is a preset value. This word length check is performed so that only keywords stored in the corpus database having a length (number of characters) of K or more are targeted for matching. If “word length <K” is true (step S56: YES), the process proceeds to step S58. If “word length <K” is false (FALSE) (step S56: NO), that is, if the word length of the next corpus element is sufficiently long, the process proceeds to step S57.

ステップS57に進んだ場合、キーワード抽出部17は、コーパスデータベースから、次の要素を選択する。ここで、キーワード抽出部17は、語長を最優先し、まだマッチングに使用していないコーパス要素の中から最も語長の長い要素を選択する。つまり、次の要素の選択において、語長が長いことは、キーワードの種類(漢字、ひらかな、カタカナ、英数字、特殊記号の別)よりも優先される。   When the process proceeds to step S57, the keyword extraction unit 17 selects the next element from the corpus database. Here, the keyword extraction unit 17 gives the highest priority to the word length, and selects the element with the longest word length from the corpus elements that are not yet used for matching. That is, in the selection of the next element, a long word length is given priority over the type of keyword (kanji, hiragana, katakana, alphanumeric characters, special symbols).

次にステップS58において、キーワード抽出部17は、字幕テキストのうち、既に検出されたキーワードの箇所(除去されたキーワードが元々存在していた箇所)を名詞部分と特定するという制約の下で、制限付き形態素解析処理を実行する。この形態素解析処理の結果、字幕テキストは、形態素に分解されるとともに、各形態素の品詞の情報が得られる。なお、形態素解析処理自体は既存技術を用いて行うことができる。   Next, in step S58, the keyword extraction unit 17 performs restriction under the restriction that the part of the keyword already detected in the subtitle text (the part where the removed keyword originally existed) is identified as the noun part. The attached morpheme analysis process is executed. As a result of the morpheme analysis process, the caption text is decomposed into morphemes, and information on the part of speech of each morpheme is obtained. Note that the morphological analysis process itself can be performed using existing technology.

次に図7に移り、ステップS59において、キーワード抽出部17は、ステップS58での形態素解析処理の結果から、名詞部分を1つ取り出す。以下の処理では、取り出した名詞部分と、コーパスデータベースとの、キーワードマッチングを行っていく。   Next, moving to FIG. 7, in step S59, the keyword extraction unit 17 extracts one noun part from the result of the morphological analysis process in step S58. In the following process, keyword matching is performed between the extracted noun part and the corpus database.

次にステップS60において、キーワード抽出部17は、ステップS59で取り出された名詞部分と、コーパスデータベースの要素とのマッチングを行う。なお、本ステップでは、まだここまでにマッチングに用いられていない、長さがK未満のコーパス要素が対象となる。   Next, in step S60, the keyword extracting unit 17 performs matching between the noun part extracted in step S59 and elements of the corpus database. In this step, a corpus element having a length of less than K that has not been used for matching so far is targeted.

次にステップS61において、キーワード抽出部17は、ステップS60のマッチング処理において、名詞部分とコーパス要素との間のマッチングが検出されたか否かを判断する。検出された場合、即ち、現在のコーパスデータベースの要素が現在の名詞部分にあたる場合(ステップS61:YES)には、次のステップS62に進む。検出されなかった場合、即ち、現在のコーパス要素が現在の名詞部分と異なる場合(ステップS61:NO)には、ステップS67に飛ぶ。   Next, in step S61, the keyword extraction unit 17 determines whether or not matching between the noun part and the corpus element is detected in the matching process in step S60. If detected, that is, if the current corpus database element corresponds to the current noun part (step S61: YES), the process proceeds to the next step S62. If not detected, that is, if the current corpus element is different from the current noun part (step S61: NO), the process jumps to step S67.

ステップS62に進んだ場合、同ステップにおいて、キーワード抽出部17は、単語の種類に応じた確認を行う。これは、ステップS61で検出されたキーワードについて確認を行うものである。その確認の方法は、キーワードの種類ごとのルールを用いるものであり、ステップS53で記述した確認と同様である。   When it progresses to step S62, in the same step, the keyword extraction part 17 performs confirmation according to the kind of word. This is to confirm the keyword detected in step S61. The confirmation method uses a rule for each type of keyword, and is the same as the confirmation described in step S53.

次にステップS63において、キーワード抽出部17は、キーワード抽出部17は、上のステップS62における確認の結果を判断する。そして、ステップS61の判定で検出されたキーワードが、誤検出であった場合(ステップS54:YES)には、ステップS67に飛ぶ。ステップS61の判定で検出されたキーワードが正しく検出されたものである場合(ステップS54:NO)には、次のステップS64に進む。   Next, in step S63, the keyword extraction unit 17 determines the result of the confirmation in step S62 above. If the keyword detected in the determination in step S61 is a false detection (step S54: YES), the process jumps to step S67. If the keyword detected in the determination in step S61 is correctly detected (step S54: NO), the process proceeds to the next step S64.

ステップS64に進んだ場合、同ステップにおいて、キーワード抽出部17は、形態素解析済みの字幕データにまだ名詞部分が残っているか否かを判定する。名詞部分が存在している場合(ステップS64:YES)には、ステップS65に進む。名詞部分がもう存在していない場合(ステップS64:NO)には、ステップS68に進む。   When the process proceeds to step S64, the keyword extraction unit 17 determines whether or not the noun part still remains in the morphological-analyzed caption data in the same step. When the noun part exists (step S64: YES), the process proceeds to step S65. If the noun part no longer exists (step S64: NO), the process proceeds to step S68.

ステップS65に進んだ場合、キーワード抽出部17は、形態素解析済の字幕の中に未処理で残っている名詞部分のうちの一つを次の名詞として選択する。そして、その選択された名詞を取り出すために、ステップS59に戻る。   When the process proceeds to step S65, the keyword extraction unit 17 selects one of the noun parts left unprocessed in the subtitles subjected to morphological analysis as the next noun. And in order to take out the selected noun, it returns to step S59.

ステップS66に進んだ場合、キーワード抽出部17は、コーパスデータベース内の全要素をチェックしたか否かを判定する。全要素をチェックした場合(ステップS66:YES)にはステップS68に進む。未チェックの要素がある場合(ステップS66:NO)にはステップS67に進む。   In step S66, the keyword extracting unit 17 determines whether all elements in the corpus database have been checked. If all elements are checked (step S66: YES), the process proceeds to step S68. If there is an unchecked element (step S66: NO), the process proceeds to step S67.

ステップS67に進んだ場合、キーワード抽出部17は、コーパスデータベース内の次の要素をマッチング対象として選択する。そして、ステップS60に戻る。
ステップS68に進んだ場合、キーワード抽出部17は、次の字幕テキストの処理のために図6のステップS51に戻る。なお、次の字幕テキストのデータも、字幕・番組説明文抽出部16から渡される。
In step S67, the keyword extraction unit 17 selects the next element in the corpus database as a matching target. Then, the process returns to step S60.
When the process proceeds to step S68, the keyword extraction unit 17 returns to step S51 in FIG. 6 for processing the next caption text. The next subtitle text data is also passed from the subtitle / program explanation extraction unit 16.

以上、フローチャートに沿って処理を説明したが、ステップS52からS57に進む場合、またはステップS54からS57に進む場合にも、ステップS56と同様の判断をするようにしても良い。つまり、次のコーパス要素の語長がKより小さい場合には、次のコーパス要素を用いたマッチングを行わず、ステップS58の制限付き形態素解析の処理に移るようにしても良い。   Although the processing has been described with reference to the flowchart, the same determination as in step S56 may be performed when the process proceeds from step S52 to S57 or when the process proceeds from step S54 to S57. That is, when the word length of the next corpus element is smaller than K, matching using the next corpus element may not be performed, and the process of the restricted morphological analysis in step S58 may be performed.

以上、説明したように、キーワード抽出部17は、まずコーパスデータベースの中から語長の長い順に、所定の長さ(K)以上の語長のコーパス要素について、字幕テキストとのマッチング処理を順次行っていく。そして、K以上の長さのコーパス要素とのマッチングが終了したら、形態素解析処理を行い、その結果得られる名詞部分について、長さK未満のコーパス要素とのマッチングを順次行っていく。これにより、所定の長さより長い名詞部分について形態素解析処理を回避しながらキーワードとしての抽出を行うことができる。つまり、形態素解析処理の弱点である長い名詞の問題を解決することができる。また、所定の長さより短い名詞部分については、形態素解析処理を行うことによって、単純な文字列のマッチングよりも精度の高いキーワード抽出を行うことができる。
つまり、キーワード抽出部17は、先ず語長の長いものから優先させて、所定の下限語長(K)までのキーワードを字幕テキストデータとマッチングさせることによって字幕テキストデータに含まれるキーワードを抽出し、次に、字幕テキストデータについて抽出済みのキーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに大規模コーパスデータベースおよびローカルコーパスデータベースのそれぞれから読み出したキーワードとマッチングさせることによって形態素解析処理の結果に含まれるキーワードを抽出する。
As described above, the keyword extraction unit 17 first performs matching processing with subtitle text sequentially for corpus elements having a word length equal to or longer than a predetermined length (K) in the longest word length from the corpus database. To go. When matching with a corpus element having a length equal to or longer than K is completed, morpheme analysis processing is performed, and matching of the noun part obtained as a result with a corpus element having a length less than K is sequentially performed. Thereby, it is possible to perform extraction as a keyword while avoiding the morphological analysis process for a noun part longer than a predetermined length. That is, the long noun problem that is a weak point of the morphological analysis process can be solved. For noun parts shorter than a predetermined length, keyword extraction with higher accuracy than simple character string matching can be performed by performing morphological analysis processing.
That is, the keyword extraction unit 17 first extracts the keywords included in the subtitle text data by prioritizing the longest word length and matching the keywords up to a predetermined lower limit word length (K) with the subtitle text data. Next, morphological analysis processing is performed on the premise that the extracted keywords for subtitle text data are nouns or noun phrases, and the nouns or noun phrases obtained as a result of this morphological analysis processing are further scaled up. The keyword included in the result of the morphological analysis process is extracted by matching with the keyword read from each of the corpus database and the local corpus database.

言い換えれば、キーワード抽出装置の処理としては、まず形態素解析処理を行わない状態で語長がK以上であるキーワードを抽出した後に、形態素解析処理を行い、その結果として得られる名詞部分とコーパスデータベースのキーワードマッチング処理を行って、語長がKより小さいキーワードを抽出する。このキーワード抽出処理は、字幕の名詞部分がすべてなくなるか、コーパスデータベースの全構成要素とのキーワードマッチング処理が終了するかまで繰り返される。対象の字幕との処理が終了すると、デジタル放送から読み込んだ次の字幕について同様の処理を行う。   In other words, as a process of the keyword extraction device, first, a keyword having a word length of K or more is extracted without performing the morpheme analysis process, and then the morpheme analysis process is performed. A keyword matching process is performed to extract keywords whose word length is smaller than K. This keyword extraction process is repeated until all the noun parts of the subtitles disappear or the keyword matching process with all the constituent elements of the corpus database is completed. When the processing with the target subtitle is completed, the same processing is performed for the next subtitle read from the digital broadcast.

このような過程で抽出したキーワードについては、単にキーワードのみが抽出されているのでなく、キーワードに付随したカテゴリー情報も併せて抽出することになるので、抽出キーワードを提示する際にカテゴリー分けした提示を行うことができる。また、ユーザーインタフェースとして画面に表示されているキーワードを利用者が指等でタッチした時に付随カテゴリー情報を提示するなど、処理結果の効果的な見せ方が容易に実現できる利点がある。   For the keywords extracted in this process, not only the keywords are extracted, but also the category information attached to the keywords is extracted. It can be carried out. Further, there is an advantage that an effective way of showing the processing result can be easily realized, for example, the accompanying category information is presented when the user touches the keyword displayed on the screen as a user interface with a finger or the like.

なお、上述した実施形態におけるキーワード抽出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   Note that the function of the keyword extraction device in the above-described embodiment may be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

以上、記載した、実施形態について、以下に簡単にまとめる。
上記実施形態によるキーワード抽出手法では、大規模なカテゴリー情報付きの辞書コーパスデータベースとの網羅的な照合処理で字幕などのテキスト文からキーワードを抽出する処理で、従来のキーワード抽出処理の課題を解決するもので、以下の項目よりなる。
(1)大規模な辞書コーパスデータベースの各要素との照合処理。照合処理を語長順、単語の種類別に行うことにより、照合精度を向上させる。
(2)名寄せ処理用のローカル辞書コーパスの生成と利用。語句の言い換えなどに対応するために辞書コーパスデータベースのデータ構造を工夫して、名寄せ用情報を付加して、キーワード抽出時に必要に応じて名寄せ用辞書コーパスを生成し、その辞書コーパスとも照合処理することにより名寄せ処理を実現する。
(3)カテゴリー情報を伴うキーワード情報を出力することができる。
The embodiments described above are briefly summarized below.
The keyword extraction method according to the above embodiment solves the problem of conventional keyword extraction processing by extracting keywords from text sentences such as subtitles through exhaustive matching processing with a dictionary corpus database with large-scale category information. It consists of the following items.
(1) Collation processing with each element of a large-scale dictionary corpus database. Collation accuracy is improved by performing collation processing in word length order and by word type.
(2) Generation and use of a local dictionary corpus for name identification processing. The data structure of the dictionary corpus database is devised in order to cope with word paraphrasing, and name identification information is added to generate a name collation dictionary corpus as needed during keyword extraction, and matching processing is also performed with the dictionary corpus. The name identification process is realized.
(3) Keyword information with category information can be output.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、ローカルコーパスデータベースは番組ごとに構築されるが、番組が終了するなどして不要となったローカルコーパスデータベースを、適切なタイミング(番組終了時、番組終了時から所定時間経過後、など)で削除するようにしても良い。これにより、キーワード抽出装置1内の記憶手段を効率的に使用できる。
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
For example, a local corpus database is constructed for each program, but a local corpus database that has become unnecessary after the program is finished can be created at an appropriate timing (at the end of the program, after a predetermined time elapses from the end of the program, etc.). It may be deleted. Thereby, the memory | storage means in the keyword extraction apparatus 1 can be used efficiently.

また、説明した実施形態では、テレビの番組説明文データおよび字幕テキストデータを処理対象としたが、これに限らず、文を含むテキストデータ一般を処理対象としても良い。   In the embodiment described above, TV program description text data and subtitle text data are targeted for processing. However, the present invention is not limited to this, and general text data including sentences may be targeted for processing.

また、上記の実施形態は、課題を解決するための手段において記述した構成の特徴をすべて含むものであるが、それらの一部のみを含む構成として実施するようにしても良い。また、それらのうちの複数の構成を組み合わせて実施するようにしても良い。   Moreover, although the above-described embodiment includes all the features of the configuration described in the means for solving the problem, the embodiment may be implemented as a configuration including only a part of them. Moreover, you may make it implement combining the some structure of them.

本発明は、例えば、放送受信設備を構成する機器の一部として利用可能である。例えば、一般家庭等におけるテレビ受像機で、視聴中の番組を良く表すキーワードを自動的に抽出するために利用できる。また、そのキーワードが属するカテゴリーを自動的に抽出することができる。それらのキーワード情報やカテゴリー情報を蓄積すると、そのテレビ受像機を利用する利用者の好みを良く表すキーワード集合ないしは概念集合を抽出することができる。またさらに、これらのキーワード集合や概念集合に基づくリコメンデーションの精度を上げる目的で本発明を利用することもできる。   The present invention can be used, for example, as a part of equipment constituting a broadcast receiving facility. For example, it can be used to automatically extract a keyword that well represents a program being viewed on a television receiver in a general home. In addition, the category to which the keyword belongs can be automatically extracted. By accumulating such keyword information and category information, it is possible to extract a keyword set or concept set that well expresses the preference of the user who uses the television receiver. Furthermore, the present invention can be used for the purpose of improving the accuracy of recommendation based on these keyword sets and concept sets.

1 キーワード抽出装置
11 コーパスデータベース構築処理部
12 大規模コーパスデータベース記憶部(コーパスデータ記憶部)
13 ローカルコーパスデータベース生成部(ローカルコーパスデータ生成部)
14 ローカルコーパスデータベース記憶部(ローカルコーパスデータ記憶部)
16 字幕・番組説明文抽出部(テキスト取得部)
17 キーワード抽出部
18 カテゴリー抽出部
1 Keyword Extraction Device 11 Corpus Database Construction Processing Unit 12 Large-scale Corpus Database Storage Unit (Corpus Data Storage Unit)
13 Local corpus database generator (local corpus data generator)
14 Local corpus database storage (local corpus data storage)
16 Subtitle / program description extractor (text acquisition unit)
17 Keyword extractor 18 Category extractor

Claims (8)

キーワードの集合を格納しておくコーパスデータ記憶部と、
テキストデータを取得するテキスト取得部と、
前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、
前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、
を具備し、
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、
前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせる、
ことを特徴とすキーワード抽出装置。
A corpus data storage for storing a set of keywords;
A text acquisition unit for acquiring text data;
A local corpus data storage unit for storing a set of keywords in order to apply only to text data within a predetermined range currently acquired by the text acquisition unit;
A local corpus data generation unit that extracts keywords based on the first text data acquired by the text acquisition unit, and registers the extracted keywords in the local corpus data storage unit;
By matching the keyword read from each of the corpus data storage unit and the local corpus data storage unit with the second text data acquired by the text acquisition unit, the keyword included in the second text data A keyword extractor for extracting keywords;
Equipped with,
Each of the corpus data storage unit and the local corpus data storage unit stores the keyword in association with the word length of each keyword,
The keyword extraction unit gives priority to the longest word length and reads the keyword read from each of the corpus data storage unit and the local corpus data storage unit, the second text data acquired by the text acquisition unit, Match
Keyword extracting device you wherein a.
前記キーワードは、名詞または名詞句であり、
前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第2のテキストデータとマッチングさせることによって前記第2のテキストデータに含まれるキーワードを抽出し、次に、前記第2のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、
ことを特徴とする請求項に記載のキーワード抽出装置。
The keyword is a noun or noun phrase,
The keyword extraction unit first gives priority to the longest word length, and matches the keyword up to a predetermined lower limit word length with the second text data to determine the keyword included in the second text data. Next, morpheme analysis processing is performed on the premise that the extracted keyword for the second text data is a noun or a noun phrase, and a noun obtained as a result of the morpheme analysis processing For a noun phrase, further extract a keyword included in the result of the morphological analysis process by matching with the keyword read from each of the corpus data storage unit and the local corpus data storage unit,
The keyword extracting device according to claim 1 , wherein:
前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、
前記キーワード抽出部は、前記テキスト取得部が取得した前記第2のテキストデータが属する前記所定範囲が切り替えられた場合には、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第2のテキストデータとのマッチングに用いる、
ことを特徴とする請求項1または請求項2に記載のキーワード抽出装置。
The local corpus data storage unit stores a set of keywords different for each predetermined range,
When the predetermined range to which the second text data acquired by the text acquisition unit belongs is switched , the keyword extraction unit switches to the set of keywords corresponding to the changed predetermined range, and The keyword is read from a local corpus data storage unit and used for matching with the second text data.
The keyword extraction device according to claim 1 or 2 , wherein
テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、
前記第1のテキストデータは、テレビの番組に関する番組説明文のデータであり、
前記第2のテキストデータは、前記番組における字幕テキストのデータであり、
前記所定範囲は、前記番組内における前記字幕テキストの範囲である、
ことを特徴とする請求項に記載のキーワード抽出装置。
The text acquisition unit acquires text data based on the broadcast signal of the television,
The first text data is program description data relating to a TV program,
The second text data is subtitle text data in the program,
The predetermined range is a range of the subtitle text in the program.
The keyword extracting device according to claim 3 , wherein
前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、
前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第2のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、
ことを特徴とする請求項1からまでのいずれか一項に記載のキーワード抽出装置。
The keyword extraction unit passes the extracted keyword information to the local corpus data generation unit,
The local corpus data generation unit further registers the keyword extracted from the second text data by the keyword extraction unit in the local corpus data storage unit;
The keyword extracting device according to any one of claims 1 to 4, wherein
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、
前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第2のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、
ことを特徴とする請求項1からまでのいずれか一項に記載のキーワード抽出装置。
The corpus data storage unit and the local corpus data storage unit each hold association information between keywords in a paraphrasable relationship between the plurality of keywords to be stored,
When the keyword extracting unit refers to the association information held by the corpus data storage unit and the local corpus data storage unit, the plurality of keywords extracted from the second text data are in a paraphrasable relationship. Is output after performing a name identification process that integrates a plurality of the keywords in a relationship that can be paraphrased,
The keyword extracting device according to any one of claims 1 to 5, wherein
前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、
ことを特徴とする請求項1からまでのいずれか一項に記載のキーワード抽出装置。
The keyword extraction unit is related to the keyword detected by matching the keyword read from each of the corpus data storage unit and the local corpus data storage unit with the second text data acquired by the text acquisition unit. Confirming whether or not it is a detection error by applying a rule according to the type of characters constituting the keyword, and extracting the keyword only when it is confirmed that it is not a detection error,
The keyword extracting device according to any one of claims 1 to 6 , wherein the keyword extracting device includes:
コンピューターを、
請求項1から7までのいずれか一項に記載のキーワード抽出装置、
として機能させるためのプログラム。
Computer
The keyword extracting device according to any one of claims 1 to 7,
Program to function as.
JP2014096836A 2014-05-08 2014-05-08 Keyword extraction apparatus and program Expired - Fee Related JP6433045B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014096836A JP6433045B2 (en) 2014-05-08 2014-05-08 Keyword extraction apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014096836A JP6433045B2 (en) 2014-05-08 2014-05-08 Keyword extraction apparatus and program

Publications (2)

Publication Number Publication Date
JP2015215681A JP2015215681A (en) 2015-12-03
JP6433045B2 true JP6433045B2 (en) 2018-12-05

Family

ID=54752535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014096836A Expired - Fee Related JP6433045B2 (en) 2014-05-08 2014-05-08 Keyword extraction apparatus and program

Country Status (1)

Country Link
JP (1) JP6433045B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753656A (en) * 2018-12-29 2019-05-14 咪咕互动娱乐有限公司 A kind of data processing method, device and storage medium
CN112015884A (en) * 2020-08-28 2020-12-01 欧冶云商股份有限公司 Method and device for extracting keywords of user visiting data and storage medium
CN116978384B (en) * 2023-09-25 2024-01-02 成都市青羊大数据有限责任公司 Public security integrated big data management system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079745A (en) * 2005-09-12 2007-03-29 Sharp Corp Network connection device, server device, terminal equipment, system, reception method, character input method, transmission method, program, and computer readable recording medium
JP2008118232A (en) * 2006-11-01 2008-05-22 Hitachi Ltd Video image reproducing unit
JP5202217B2 (en) * 2008-09-30 2013-06-05 Kddi株式会社 Broadcast receiving apparatus and program for extracting current keywords from broadcast contents

Also Published As

Publication number Publication date
JP2015215681A (en) 2015-12-03

Similar Documents

Publication Publication Date Title
US11636146B2 (en) Content analysis to enhance voice search
US11197036B2 (en) Multimedia stream analysis and retrieval
JP4623985B2 (en) Free text search and attribute search of electronic program guide (EPG) data
JP6484236B2 (en) Online speech translation method and apparatus
US10504039B2 (en) Short message classification for video delivery service and normalization
JP4580885B2 (en) Scene information extraction method, scene extraction method, and extraction apparatus
US9008489B2 (en) Keyword-tagging of scenes of interest within video content
CN103984772B (en) Text retrieval captions library generating method and device, video retrieval method and device
CN112541095B (en) Video title generation method and device, electronic equipment and storage medium
JP6433045B2 (en) Keyword extraction apparatus and program
US20210126945A1 (en) Illegal content search device, illegal content search method, and program
CN108345679B (en) Audio and video retrieval method, device and equipment and readable storage medium
CN111324705A (en) System and method for adaptively adjusting related search terms
US11947635B2 (en) Illegal content search device, illegal content search method, and program
KR20020084302A (en) Apparatus of extract and transmission of image using the character message, its method
KR20160131730A (en) System, Apparatus and Method For Processing Natural Language, and Computer Readable Recording Medium
JP2008225676A (en) Dictionary retrieving device and its control program
JP6830917B2 (en) Illegal content search device, illegal content search method and program
WO2019187920A1 (en) Illegal content search device, illegal content search method, and program
JP6632564B2 (en) Illegal content search device, illegal content search method, and program
JP2016153975A (en) Information processor, infringement detection device, information processing method, and program
JP6621437B2 (en) Illegal content search device, illegal content search method, and program
KR100956413B1 (en) Method and system for language-cross search
JP6625087B2 (en) Illegal content search device and illegal content search method
JP2009048334A (en) Video identification processing apparatus, image identification processing apparatus, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181105

R150 Certificate of patent or registration of utility model

Ref document number: 6433045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees