JP2006004283A - Method and system for extracting/narrowing keyword from text information source - Google Patents

Method and system for extracting/narrowing keyword from text information source Download PDF

Info

Publication number
JP2006004283A
JP2006004283A JP2004181439A JP2004181439A JP2006004283A JP 2006004283 A JP2006004283 A JP 2006004283A JP 2004181439 A JP2004181439 A JP 2004181439A JP 2004181439 A JP2004181439 A JP 2004181439A JP 2006004283 A JP2006004283 A JP 2006004283A
Authority
JP
Japan
Prior art keywords
noun
text information
keyword
compound
narrowing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004181439A
Other languages
Japanese (ja)
Inventor
Yosuke Arakane
陽助 荒金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004181439A priority Critical patent/JP2006004283A/en
Publication of JP2006004283A publication Critical patent/JP2006004283A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To appropriately extract keywords from text documents so as to perform retrieval even in an environment that has a small recognition vocabulary. <P>SOLUTION: A keyword extracting/narrowing system has a noun extracting part 33 to extract nouns from text documents that morpheme analysis is performed; a compound noun extracting part 34 to extract compound nouns based on the extracted nouns; a katakana characters extracting part 35 to extract katakana characters based on the extracted nouns; a compound noun dividing part 36 to divide a compound noun into a plurality of nouns; a noun connection part 37, which connects noun elements using a noun-connection-postpositional-particle "no" if the noun-connection-postpositional-particle "no" is inserted between noun elements; a keyword narrowing part 38 to remove keywords, which are acquired through processings until the noun connection part 37 and satisfy specified conditions; and a keyword correlation narrowing part 39 to further narrow keywords, which are narrowed in the keyword narrowing part 38, considering appearance frequency. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、テキスト情報源からキーワードを抽出し絞り込むための方法及びシステムに関し、特に、音声認識における認識語彙数が限られてしまうような環境から情報アクセスを行うために有効な、キーワード抽出・絞り込み方法及びシステムに関する。   The present invention relates to a method and system for extracting and narrowing keywords from a text information source, and more particularly, keyword extraction and narrowing that are effective for performing information access from an environment where the number of recognized vocabulary words in speech recognition is limited. It relates to a method and a system.

インターネットなどを利用した情報アクセスや検索などのために、あるいは、カーナビゲーションシステムにおける目的地検索などのために、キーワードの入力が必要である。   It is necessary to input a keyword for information access and search using the Internet or the like, or for a destination search in a car navigation system.

ところで、オフィスやホームなど固定環境と比較して、モバイル環境においては、ハードウェア的限界による入出力インタフェースの制限が厳しい。特に自動車内環境では、運転タスクが最優先であり、目的地検索や設定などのカーナビゲーション装置操作や情報検索や情報閲覧などのテレマティクスサービスが運転を阻害することがあってはならない。そこで、ハンズフリー/アイフリーである音声インタフェースが多くのカーナビゲーションシステムで採用されている。キーワードの入力などのために音声インタフェースを使用する場合には、音声認識技術が適用される。   By the way, compared with a fixed environment such as an office or home, in a mobile environment, restrictions on input / output interfaces due to hardware limitations are severe. Especially in the in-car environment, the driving task has the highest priority, and the car navigation device operation such as destination search and setting, and the telematics service such as information search and information browsing should not hinder driving. Therefore, a hands-free / eye-free voice interface is used in many car navigation systems. When a voice interface is used for inputting keywords or the like, a voice recognition technique is applied.

音声認識には連続音声認識であるディクテーションと認識辞書内の単語とのマッチングを行う単語認識がある。ところが、自動車内のような高騒音環境下では自由度の高いディクテーションでは十分な認識率を確保することが困難である。さらに、単語認識であっても、認識辞書の大きさと認識率がトレードオフの関係にあり、現実的な認識率を確保するためには数百程度の認識語彙に絞り込む必要がある。さらに詳しく説明すれば、自動車内という高騒音環境下では、認識語彙規模と認識率のトレードオフが認識語彙の少ない位置で発生する。静かな環境では数万〜数十万の語彙に対して認識可能なシステムであっても、高騒音環境下においては数百程度の語彙数が妥当な認識率を得るための上限となってしまう。   Speech recognition includes word recognition that performs matching between dictation, which is continuous speech recognition, and words in a recognition dictionary. However, in a high noise environment such as in an automobile, it is difficult to ensure a sufficient recognition rate by dictation with a high degree of freedom. Furthermore, even in word recognition, the size of the recognition dictionary and the recognition rate are in a trade-off relationship, and it is necessary to narrow down to a few hundred recognition words in order to ensure a realistic recognition rate. More specifically, a trade-off between the recognition vocabulary scale and the recognition rate occurs at a position where the recognition vocabulary is small in a high noise environment in a car. Even in a quiet environment, even a system that can recognize tens of thousands to hundreds of thousands of vocabulary, even in a noisy environment, a few hundred vocabulary is the upper limit for obtaining a reasonable recognition rate. .

現在、インタネット上などで広く用いられる検索エンジンは数万〜数十万のキーワードを登録し、さらにシソーラスによる拡張により多くの語彙に対する検索を可能としているが、その手法を、音声認識などの入力インタフェース側で扱える認識語彙数が限られている環境における検索に適用することは非常に困難である。すなわち、インタネット上で広く用いられている検索エンジンは、検索時にユーザが検索語を入力するユーザインタフェースとして極めて多数の語彙を入力できるものが使用されることを前提として、そのような多数の語彙のうちのいずれかである検索語による検索のために、検索対象の文書に対して多数のキーワードを設定するようになっている。具体的には、検索対象の文書群内の各文書からその文書を特徴づけるキーワードを自動的に抽出してその文書に関連づける際に、なるべく多くのキーワードが文書に付与されて、入力された検索語によるヒットが確実になされるようにしている。しかしながら、高騒音環境での音声認識を検索語の入力のためのユーザインタフェースとして用いる場合、認識可能な語彙数が限られていることから検索語として用いられる語彙の数も限られたものとなるので、検索対象の文書に対してやみくもにキーワードを付与しても検出効率は向上しない。むしろ、相対的に少数の的確なキーワードが付与されるようにすることが好ましい。もちろん、人間が介在してキーワードを付与する方法もあるが、内容が多様な多数の文書に対してキーワードを付与するためには膨大な人と時間とを必要とし、現実的ではない。   Currently, search engines widely used on the Internet, etc., register tens of thousands to hundreds of thousands of keywords, and further search by a thesaurus is possible for many vocabularies. It is very difficult to apply to the search in the environment where the number of recognized vocabulary is limited. That is, a search engine widely used on the Internet assumes that a user interface that allows a user to input a search term is used so that a user can input a large number of vocabularies. A large number of keywords are set for a document to be searched in order to perform a search using one of the search terms. Specifically, when keywords that characterize the document are automatically extracted from each document in the search target document group and associated with the document, as many keywords as possible are assigned to the document and input. It ensures that word hits are made. However, when speech recognition in a noisy environment is used as a user interface for inputting search terms, the number of vocabularies that can be used as search terms is limited because the number of recognizable words is limited. Therefore, the detection efficiency is not improved even if keywords are added to the search target document. Rather, it is preferable that a relatively small number of accurate keywords be assigned. Of course, there is also a method of assigning keywords with human intervention, but in order to assign keywords to a large number of documents with various contents, a huge amount of people and time are required, which is not realistic.

さらに、今のところ、音声認識可能となっているのは、メニュー名など静的な単語である。言い換えれば、テレマティクスサービスの特徴である動的な情報の提供をサポートすべき、動的な単語の音声認識については、今のところ行われていない。例えば、ニュース検索を行う場合には、動的なキーワードを設定して音声認識可能とすることが求められている。動的な認識語彙を抽出して設定、認識を行うためには、(1)認識語彙抽出手法、(2)認識語彙絞り込み手法が必要となるものと考えられる。   In addition, for now, it is possible to recognize words that are static words such as menu names. In other words, dynamic word speech recognition that should support the provision of dynamic information, which is a feature of telematics services, has not been done so far. For example, when performing a news search, it is required to set a dynamic keyword to enable voice recognition. In order to extract, set and recognize a dynamic recognition vocabulary, it is considered that (1) a recognition vocabulary extraction method and (2) a recognition vocabulary narrowing-down method are required.

なお現在、自動車内などの高騒音環境下を対象として、カーナビゲーションシステムにおける目的地検索やコマンド入力を行うための音声認識技術としては、自動車メーカあるいはカーナビゲーションシステムのメーカがインタネット上のウェブサイトとして開設している、非特許文献1〜5に記載されたものが知られている。
本田技研工業株式会社が提供する「インターナビプレミアムクラブ」のホームページ、[Online]、2004年5月25日検索、インターネット<URL:http://premium-club.jp/PR/> トヨタ自動車株式会社が提供する「G−BOOK」のホームページ、[Online]、2004年5月26日検索、インターネット<URL:http://gazoo.com/g-book/index.html> 日産自動車株式会社が提供する「カーウイングス」のホームページ、[Online]、2004年5月26日検索、インターネット<URL:http://www.nissan-carwings.com/> パイオニア株式会社が提供する「Air Navi」のホームページ、[Online]、2004年5月26日検索、インターネット<URL:http://www.air-navi.com/> アルパイン株式会社が提供する「myDriveNet.Com」のホームページ、[Online]、2004年5月26日検索、インターネット<URL:http://www.mydrivenet.com/mdnc/index.cgi>
Currently, as a voice recognition technology for searching for destinations and entering commands in a car navigation system for high noise environments such as in automobiles, automakers or car navigation system manufacturers have set up a website on the Internet. The thing described in the nonpatent literatures 1-5 which are established is known.
“Internavi Premium Club” homepage provided by Honda Motor Co., Ltd., [Online], May 25, 2004 search, Internet <URL: http://premium-club.jp/PR/> "G-BOOK" homepage provided by Toyota Motor Corporation, [Online], searched on May 26, 2004, Internet <URL: http://gazoo.com/g-book/index.html> "Carwings" homepage provided by Nissan Motor Co., Ltd. [Online], searched on May 26, 2004, Internet <URL: http://www.nissan-carwings.com/> “Air Navi” website provided by Pioneer Corporation, [Online], May 26, 2004 search, Internet <URL: http://www.air-navi.com/> “MyDriveNet.Com” homepage provided by Alpine, Inc. [Online], May 26, 2004 search, Internet <URL: http://www.mydrivenet.com/mdnc/index.cgi>

現状の音声認識技術などを考慮すると、モバイル環境、特に自動車内環境から情報アクセスを行う際には、情報を絞り込むことが重要である。すなわち、検索語として入力できる語彙数が限られるので、検索対象の文書から自動的にキーワードを抽出する際に、最終的に抽出されるキーワードを絞り込む必要がある。   In consideration of the current voice recognition technology and the like, it is important to narrow down information when accessing information from a mobile environment, particularly an in-car environment. That is, since the number of vocabularies that can be input as search terms is limited, it is necessary to narrow down the keywords that are finally extracted when keywords are automatically extracted from the document to be searched.

そこで本発明の目的は、ニュース記事などのテキスト文書を情報源とする場合に、情報源の各文書から、絞り込まれたキーワードを自動的に抽出できるキーワード抽出・絞り込み方法およびシステムを提供することにある。   Accordingly, an object of the present invention is to provide a keyword extraction / narrowing method and system capable of automatically extracting a narrowed keyword from each document of an information source when a text document such as a news article is used as an information source. is there.

本発明の第1のキーワード抽出・絞り込み方法は、テキスト情報源からキーワードを抽出する方法であって、テキスト情報源からテキスト情報を取得する段階と、テキスト情報に形態素解析を実施し、テキスト情報を品詞に分解する段階と、品詞に分解されたテキスト情報から名詞を抽出して単純名詞集合を生成する段階と、品詞に分解されたテキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞で構成される複合名詞集合と、3文字以上のカタカナからなるカタカナ語で構成されるカタカナ名詞集合と、の少なくとの一方を生成する段階と、を有する。   A first keyword extraction / narrowing method of the present invention is a method for extracting a keyword from a text information source, acquiring text information from the text information source, performing morphological analysis on the text information, and extracting the text information. A compound noun composed of a noun extracted from text information decomposed into parts of speech, a noun is extracted from the text information decomposed into parts of speech to generate a set of simple nouns, and a complex noun composed of continuous nouns from the text information decomposed into parts of speech Generating at least one of a compound noun set composed of nouns and a katakana noun set composed of katakana words composed of three or more katakana characters.

本発明の第2のキーワード抽出・絞り込み方法は、テキスト情報源からキーワードを抽出する方法であって、テキスト情報源からテキスト情報を取得する段階と、テキスト情報に形態素解析を実施し、テキスト情報を品詞に分解する段階と、品詞に分解されたテキスト情報から名詞を抽出して単純名詞集合を生成する段階と、品詞に分解されたテキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞集合を生成する段階と、複合名詞集合中の複合名詞に対し、単純名詞集合、複合名詞集合及びカタカナ名詞集合の少なくとも1つに含まれる要素との部分一致を判定し、その判定結果に基づいて複合名詞を分割し、拡張複合名詞集合を生成する段階と、を有する。   The second keyword extraction / narrowing method of the present invention is a method for extracting keywords from a text information source, the step of acquiring text information from the text information source, performing morphological analysis on the text information, A compound noun composed of a noun extracted from text information decomposed into parts of speech, a noun is extracted from the text information decomposed into parts of speech to generate a set of simple nouns, and a complex noun composed of continuous nouns from the text information decomposed into parts of speech A step of generating a noun set and determining whether the compound nouns in the compound noun set are partially matched with elements included in at least one of a simple noun set, a compound noun set, and a katakana noun set, and based on the determination result Dividing the compound noun to generate an extended compound noun set.

本発明の第3のキーワード抽出・絞り込み方法は、テキスト情報源からキーワードを抽出する方法であって、テキスト情報源からテキスト情報を取得する段階と、テキスト情報に形態素解析を実施し、テキスト情報を品詞に分解する段階と、テキスト情報中に、名詞要素に挟まれた連体化助詞「の」が存在する場合に、それらの名詞要素を連体化助詞「の」を介して結合し、連体名詞集合を生成する段階と、を有する。   A third keyword extraction / narrowing method according to the present invention is a method for extracting keywords from a text information source, the step of acquiring text information from the text information source, performing morphological analysis on the text information, When there is a syntactic particle “no” sandwiched between noun elements in the text information stage and the text information, those noun elements are combined via the syntactical particle “no”, and the noun group Generating.

上述した各キーワード抽出・絞り込み方法においては、さらに、各名詞集合のいずれかに含まれる要素をキーワード候補とし、キーワード候補が所定の条件を満たす場合にそのキーワード候補を削除し、キーワードの絞り込みを行う段階をさらに設けることが好ましい。所定の条件としては、(1)キーワード候補が2モーラ語あるいは1モーラ語である、(2)キーワード候補中における数字の占める割合が所定の値以上である、(3)過去に行ったキーワード抽出における出現頻度が所定値以上であるキーワード候補である、(4)複数のニュースカテゴリにわたって一定割合以上のニュース記事に出現するキーワード候補である、の少なくとも1つを用いることができる。すなわちこれら4条件(1)〜(4)のうちの所定の1つ以上が満たされる場合、所定の条件が満たされたとして、該当するキーワード候補を削除すればよい。さらにまた、キーワード候補が「氏」で終わる名詞要素である場合に語尾の「氏」を削除する段階を設けるようにしてもよい。   In each keyword extraction / narrowing method described above, an element included in any of the noun sets is set as a keyword candidate, and when the keyword candidate satisfies a predetermined condition, the keyword candidate is deleted and the keyword is narrowed down. Preferably further steps are provided. Predetermined conditions include: (1) the keyword candidate is a 2-mora word or 1-mora word, (2) the proportion of numbers in the keyword candidate is greater than or equal to a predetermined value, (3) keyword extraction performed in the past At least one of (4) candidate keywords appearing in news articles at a certain ratio or more across a plurality of news categories can be used. That is, when one or more of the four conditions (1) to (4) are satisfied, the corresponding keyword candidate may be deleted assuming that the predetermined condition is satisfied. Furthermore, when the keyword candidate is a noun element ending with “Mr.”, a step of deleting the word “Mr.” at the end may be provided.

本発明の第1のキーワード抽出・絞り込みシステムは、テキスト情報源からキーワードを抽出するシステムであって、テキスト情報源からテキスト情報を取得する外部インタフェースと、テキスト情報に形態素解析を実施し、テキスト情報を品詞に分解する形態素解析部と、品詞に分解されたテキスト情報から名詞を抽出して単純名詞集合を生成する名詞抽出部と、品詞に分解されたテキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞で構成される複合名詞集合と、3文字以上のカタカナからなるカタカナ語で構成されるカタカナ名詞集合と、の少なくとの一方を生成する手段と、を有する。   The first keyword extraction / narrowing system of the present invention is a system for extracting keywords from a text information source, an external interface for acquiring text information from the text information source, performing morphological analysis on the text information, and text information. A morphological analysis unit that decomposes into parts of speech, a noun extraction unit that extracts a noun from text information decomposed into parts of speech and generates a simple noun set, and a continuous noun from text information decomposed into parts of speech Means for generating at least one of a compound noun set composed of compound nouns composed of compound nouns and a katakana noun set composed of katakana words composed of three or more characters.

本発明の第2のキーワード抽出・絞り込みシステムは、テキスト情報源からキーワードを抽出するシステムであって、テキスト情報源からテキスト情報を取得する外部インタフェースと、テキスト情報に形態素解析を実施し、テキスト情報を品詞に分解する形態素解析部と、品詞に分解されたテキスト情報から名詞を抽出して単純名詞集合を生成する名詞抽出部と、品詞に分解されたテキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞集合を生成する複合名詞抽出部と、複合名詞集合中の複合名詞に対し、単純名詞集合、複合名詞集合及びカタカナ名詞集合の少なくとも1つに含まれる要素との部分一致を判定し、その判定結果に基づいて複合名詞を分割し、拡張複合名詞集合を生成する複合名詞分割部と、を有する。   A second keyword extraction / narrowing system according to the present invention is a system for extracting keywords from a text information source, an external interface for acquiring text information from the text information source, performing morphological analysis on the text information, and text information. A morphological analysis unit that decomposes into parts of speech, a noun extraction unit that extracts a noun from text information decomposed into parts of speech and generates a simple noun set, and a continuous noun from text information decomposed into parts of speech A compound noun extraction unit that generates a compound noun set composed of compound nouns, and a partial match between at least one of a simple noun set, a compound noun set, and a katakana noun set for compound nouns in the compound noun set And a compound noun dividing unit that divides compound nouns based on the determination result and generates an expanded compound noun set. That.

本発明の第3のキーワード抽出・絞り込みシステムは、テキスト情報源からキーワードを抽出するシステムであって、テキスト情報源からテキスト情報を取得する外部インタフェースと、テキスト情報に形態素解析を実施し、テキスト情報を品詞に分解する形態素解析部と、テキスト情報中に、名詞要素に挟まれた連体化助詞「の」が存在する場合に、それらの名詞要素を連体化助詞「の」を介して結合し、連体名詞集合を生成する連体連結部と、を有する。   A third keyword extraction / narrowing system according to the present invention is a system for extracting keywords from a text information source, an external interface for acquiring text information from the text information source, performing morphological analysis on the text information, and text information. Morphological analysis part that decomposes into part of speech, and in the text information, if there is a coalesced particle `` no '' sandwiched between noun elements, these noun elements are combined via the merging particle `` no '', A linking unit that generates a linking noun set.

本発明のキーワード抽出・絞り込みシステムでは、さらに、各名詞集合のいずれかに含まれる要素をキーワード候補とし、キーワード候補が所定の条件を満たす場合にそのキーワード候補を削除し、キーワードの絞り込みを行うキーワード絞り込み部を設けることが好ましい。所定の条件としては、(1)キーワード候補が2モーラ語あるいは1モーラ語である、(2)キーワード候補中における数字の占める割合が所定の値以上である、の少なくとも一方を用いることができる。また本発明のキーワード抽出・絞り込みシステムは、各名詞集合のいずれかに含まれる要素をキーワード候補として、過去に行ったキーワード抽出における出現頻度を格納する出現頻度データベースと、出願頻度データベースを更新するとともに、出現頻度データベースに格納されている出現頻度が所定値以上であるキーワード候補を削除するキーワード相関絞り込み部と、をさらに備えていてもよい。   In the keyword extraction / narrowing system of the present invention, an element included in any of the noun sets is a keyword candidate, and when the keyword candidate satisfies a predetermined condition, the keyword candidate is deleted and the keyword is narrowed down It is preferable to provide a narrowing part. As the predetermined condition, it is possible to use at least one of (1) the keyword candidate is a 2-mora word or 1-mora word, and (2) the ratio of the number in the keyword candidate is a predetermined value or more. In addition, the keyword extraction / narrowing system of the present invention updates the appearance frequency database for storing the appearance frequency in the keyword extraction performed in the past and the application frequency database using the elements included in any of the noun sets as keyword candidates. And a keyword correlation narrowing unit that deletes keyword candidates whose appearance frequency stored in the appearance frequency database is equal to or greater than a predetermined value.

本発明では、テキスト記事から名詞を主として抽出するものとして、単純名詞のみならず複合名詞やカタカナ名詞をも抽出し、さらには複合名詞を分割することのよってキーワードを抽出する。さらに、抽出されたキーワード候補に対し、文字数による制限や、数字の占める割合、出現頻度などによる絞り込み手法を用いることで、適切なキーワードを得ることができる。   In the present invention, as nouns are mainly extracted from text articles, not only simple nouns but also compound nouns and katakana nouns are extracted, and further, keywords are extracted by dividing compound nouns. Furthermore, an appropriate keyword can be obtained by using a method of narrowing down the extracted keyword candidates based on the number of characters, the ratio of numbers, the appearance frequency, and the like.

本発明は、テキスト情報からキーワードを抽出する際に、適切に絞り込まれたキーワードを自動的に得ることができるようになる、という効果がある。このようなキーワードを用いることにより、音声認識などによる検索語の入力などに際し、認識辞書サイズを抑えながら適切な認識語彙を抽出できるようになる。したがって本発明によるキーワード抽出は、自動車内などでの高騒音環境における音声入力インタフェースに対して高い親和性を有することになる。さらに、テキスト情報を処理しながらキーワードが得られるので、得られたキーワードを認識語彙として順次使用することにより、テレマティクスサービスの特徴である動的な情報の提供をサポートする、動的な単語の音声認識を実現することができる。   The present invention has an effect that an appropriately narrowed keyword can be automatically obtained when keywords are extracted from text information. By using such keywords, an appropriate recognition vocabulary can be extracted while suppressing the recognition dictionary size when inputting a search word by voice recognition or the like. Therefore, the keyword extraction according to the present invention has a high affinity for a voice input interface in a high noise environment such as in an automobile. In addition, keywords can be obtained while processing text information. By using the obtained keywords as recognition vocabulary sequentially, dynamic word speech that supports the provision of dynamic information that is a feature of telematics services. Recognition can be realized.

次に、本発明の好ましい実施の形態について、図面を参照して説明する。図1は本発明の実施の一形態のキーワード抽出・絞り込みシステムの構成を示すブロック図である。このキーワード抽出・絞り込みシステム10は、形態素解析を用い、名詞および複合名詞の抽出を主眼とした“認識語彙抽出方法”と、出現頻度等を考慮した“認識語彙絞り込み手法”とを用いて、キーワードの抽出と絞り込みを行っている。   Next, a preferred embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a keyword extraction / narrowing system according to an embodiment of the present invention. This keyword extraction / narrowing system 10 uses morphological analysis, and uses a “recognition vocabulary extraction method” that focuses on the extraction of nouns and compound nouns, and a “recognition vocabulary reduction method” that considers appearance frequency and the like. Extraction and refinement.

図1に示すキーワード抽出・絞り込みシステム10は、テキスト情報源である外部情報源20からテキスト情報としてニュース記事などのテキスト文書を取得する外部インタフェース31と、外部インタフェース31で取得したテキスト文書に対して形態素解析を実施する形態素解析部32と、形態素解析が行われたテキスト文書から名詞を抽出し単純名詞集合を生成する名詞抽出部33と、抽出された名詞から複合名詞を抽出して複合名詞集合を生成する複合名詞抽出部34と、抽出された名詞からカタカナ語を抽出してカタカナ名詞集合を生成するカタカナ語抽出部35と、複合名詞集合に含まれる複合名詞を、単純名詞集合、複合名詞集合及び複合名詞集合を参照して分割し、拡張複合名詞集合を生成する複合名詞分割部36と、連体化助詞「の」が名詞要素で挟まれている場合にそれらの名詞要素を連体化助詞「の」で接続して連体名詞集合を生成する連体連結部37と、単純名詞集合、複合名詞集合、カタカナ名詞集合、拡張複合名詞集合及び連体名詞集合の各要素をキーワード候補として、これらのキーワード候補の中から特定の条件を満足するものを除去するキーワード絞り込み部38と、キーワード絞り込み部38で絞り込まれた後のキーワード候補に対し、出現頻度を考慮してさらに絞り込みを行うキーワード相関絞り込み部39と、キーワード相関絞り込み部39でのキーワード絞り込みの際に利用される出現頻度データベース(DB)40と、を備えている。テキスト文書から抽出され絞り込まれたキーワードは、認識語彙出力として、キーワード相関絞り込み部39から出力される。   The keyword extraction / narrowing system 10 shown in FIG. 1 acquires an external interface 31 that acquires a text document such as a news article as text information from an external information source 20 that is a text information source, and a text document acquired by the external interface 31. A morpheme analysis unit 32 that performs morpheme analysis, a noun extraction unit 33 that extracts a noun from a text document subjected to morpheme analysis, and generates a simple noun set, and extracts a compound noun from the extracted nouns, and a compound noun set A compound noun extraction unit 34 that generates a katakana word from the extracted nouns to generate a katakana noun set, a compound noun included in the compound noun set, a simple noun set, a compound noun A compound noun splitting unit 36 for generating an extended compound noun set by dividing the set and the compound noun set with reference to the set; When the particle “no” is sandwiched between noun elements, the noun elements are connected with the noun element “no” to generate a noun group, and a simple noun set, compound noun set, katakana Each element of the noun set, the extended compound noun set, and the combined noun set is used as a keyword candidate, and the keyword narrowing-down section 38 that removes those keyword candidates that satisfy a specific condition, and the keyword narrowing-down section 38 A keyword correlation narrowing unit 39 that further narrows down the keyword candidates in consideration of the appearance frequency, and an appearance frequency database (DB) 40 that is used when the keyword correlation narrowing unit 39 narrows down the keywords. ing. The keyword extracted and narrowed down from the text document is output from the keyword correlation narrowing unit 39 as a recognized vocabulary output.

次に、このキーワード抽出・絞り込みシステム10の動作について説明する。ここでは、ニュース検索のために、各ニュース記事からキーワードを抽出する場合を説明する。本実施形態のシステム10は、まず、テキスト文書であるニュース記事から、名詞を主として抽出するとともに、複合名詞、カタカナ名詞、複合名詞の分割などの抽出手法を用いて、キーワード候補を抽出する。その後、文字数による制限や、数字の占める割合、出現頻度などによる絞り込み手法を用いることで、キーワード候補の集合の中からキーワードの絞り込みを行う。これによって、キーワード数を抑えながらも適切なキーワードを抽出できるようになる。このようにして抽出されたキーワードは、音声認識による検索語入力に際して、認識辞書サイズを抑えながらも適切な認識語彙(すなわちキーワードに対応する検索語)を抽出することを可能にする。この場合、認識辞書には、抽出されたそれぞれのキーワードが蓄積されることになる。   Next, the operation of the keyword extraction / narrowing system 10 will be described. Here, the case where a keyword is extracted from each news article for news search will be described. The system 10 of the present embodiment first extracts nouns from news articles that are text documents, and extracts keyword candidates using extraction methods such as compound nouns, katakana nouns, and compound noun division. After that, keywords are narrowed down from a set of keyword candidates by using a restriction method based on the number of characters, a ratio occupied by numbers, an appearance frequency, and the like. This makes it possible to extract appropriate keywords while reducing the number of keywords. The keyword extracted in this manner makes it possible to extract an appropriate recognition vocabulary (that is, a search word corresponding to the keyword) while suppressing the size of the recognition dictionary when inputting a search word by voice recognition. In this case, each extracted keyword is stored in the recognition dictionary.

まず、キーワード抽出・絞り込みシステム10において外部インタフェース31は、外部情報源20よりニュース記事を取得し、形態素解析部32によりそのニュース記事を形態素に分割する。   First, in the keyword extraction / narrowing system 10, the external interface 31 acquires a news article from the external information source 20, and the morpheme analysis unit 32 divides the news article into morphemes.

《キーワード抽出》
形態素への分割が完了すると、次に、キーワード抽出の処理が実行される。図2はキーワード抽出の一例を示している。名詞抽出部33は、分割された形態素のうち、名詞に注目して抽出する。抽出された名詞集合を“単純名詞集合”と名付ける。図2の(a)に示すようなテキスト記事(元文)が与えられたとして、単純名詞集合は、図2の(b)に示したようなものとなる。続いて、複合名詞抽出部34は、2つ以上の連続する名詞からなる複合名詞を抽出する。この複合名詞の集合を“複合名詞集合”と名付ける。図2の(a)に示した元文から抽出された複合名詞集合が図2の(c)に示されている。次に、カタカナ語抽出部35は、3文字以上のカタカナ語(カタカナのみからなる単語)を未知語の名詞(固有名詞など)として抽出する。このカタカナ語の集合を“カタカナ名詞集合”と名付ける。図2の(d)は、図2の(a)に示した元文から抽出されるカタカナ名詞集合を示している。
《Keyword extraction》
When the division into morphemes is completed, a keyword extraction process is executed next. FIG. 2 shows an example of keyword extraction. The noun extraction unit 33 extracts the morphemes by paying attention to the nouns. The extracted noun set is named “simple noun set”. Given a text article (original sentence) as shown in FIG. 2A, the simple noun set is as shown in FIG. 2B. Subsequently, the compound noun extraction unit 34 extracts a compound noun composed of two or more consecutive nouns. This set of compound nouns is named “compound noun set”. A compound noun set extracted from the original sentence shown in FIG. 2A is shown in FIG. Next, the katakana word extraction unit 35 extracts katakana words (words composed only of katakana) having three or more characters as nouns (such as proper nouns) of unknown words. This set of Katakana words is named “Katakana noun set”. FIG. 2D shows a katakana noun set extracted from the original sentence shown in FIG.

続いて、複合名詞分割部36は、複合名詞集合内の複合名詞の分割を行う。これは、単純名詞集合、カタカナ名詞集合および複合名詞集合を用いて行われる。具体的には、複合名詞に部分一致する、単純名詞、カタカナ名詞または(他の)複合名詞があった場合に、部分一致した前の部分および後ろの部分を新たに“拡張複合名詞集合”として登録するものである。図2に示した例では、「京都」、「府」、「丹波」、「町」という名詞が元文において連続して存在しており、これら4つの名詞が単純名詞集合に格納され、“京都府丹波町”が複合名詞集合に格納されている。複合名詞分割部36は、単純名詞集合内の語彙が、複合名詞集合内の語彙に部分一致するかどうか検査する。ここでは、「京都」、「府」、「丹波「、「町」の4つの名詞が「京都府丹波町」に部分一致するため、まず、「京都」に一致した部分の後方部分=「府丹波町」が分割され、次に、「府」に一致した部分の前方部分=「京都」および後方部分=「丹波町」が分割され、次に、「丹波」に一致した部分の前方部分=「京都府」および後方部分=「町」が分割され、最後に、「町」に一致した部分の前方部分=「京都府丹波」が分割される。ここで、「京都」、「町」は既に単純名詞集合内にあるため除外され、「府丹波町」、「丹波町」、「京都府」、「京都府丹波」が拡張複合名詞集合に格納される。図2の(e)は、このようにして得られた拡張複合名詞集合を示している。   Subsequently, the compound noun dividing unit 36 divides compound nouns in the compound noun set. This is done using simple noun sets, katakana noun sets and compound noun sets. Specifically, when there are simple nouns, katakana nouns or (other) compound nouns that partially match compound nouns, the previous and subsequent parts that partially match are newly added as an “extended compound noun set”. To register. In the example shown in FIG. 2, the nouns “Kyoto”, “Fu”, “Tamba”, and “Machi” exist consecutively in the original sentence, and these four nouns are stored in a simple noun set. “Tanba-cho, Kyoto” is stored in the compound noun set. The compound noun dividing unit 36 checks whether the vocabulary in the simple noun set partially matches the vocabulary in the compound noun set. Here, the four nouns “Kyoto”, “Fu”, “Tamba”, “Town” partially match “Tanba-cho, Kyoto”, so the first part after the part that matches “Kyoto” = “Fu” "Tamba-cho" is divided, then the front part of the part that matches "Fu" = "Kyoto" and the rear part = "Tamba-cho" is divided, and then the front part of the part that matches "Tamba" = “Kyoto Prefecture” and the rear part = “town” are divided, and finally, the front part of the part matching “town” = “Kyoto Prefecture Tamba” is divided. Here, "Kyoto" and "Town" are excluded because they are already in the simple noun set, and "Fu-Tamba-cho", "Tamba-cho", "Kyoto-fu", and "Kyoto-fu Tamba" are stored in the expanded compound noun set. Is done. FIG. 2E shows the extended compound noun set obtained in this way.

次に、連体連結部37は、連体化助詞である「の」による連結を行う。連体化助詞「の」を挟んで単純名詞または複合名詞またはカタカナ名詞または拡張複合名詞(これらを一括して名詞要素と呼ぶ)が存在する場合、これらを連結して連体名詞集合に登録する。この場合、連体化助詞「の」の前後の名詞要素は、複合名詞、拡張複合名詞、カタカナ名詞、単純名詞の順の優先度で、どれか一つを採用することでキーワード数を押さえることも可能である。図2の(f)は、このようにして得られた連体名詞集合を示している。   Next, the linking unit 37 performs linking with “no”, which is a linking particle. If there are simple nouns, compound nouns, katakana nouns, or extended compound nouns (collectively called noun elements) across the coalesced particle “no”, these are connected and registered in the noun set. In this case, the noun elements before and after the union particle “no” are compound nouns, extended compound nouns, katakana nouns, and simple nouns in the order of priority. Is possible. FIG. 2 (f) shows a noun set obtained in this way.

《キーワード絞り込み》
以上の処理によって得られた単純名詞集合(図2の(b))、複合名詞集合(図2の(c))、カタカナ名詞集合(図2の(d))、拡張複合名詞集合(図2の(e))、連体名詞集合(図2の(f))の各要素は、元文(図2の(a))から抽出されたキーワード候補である。しかしながら、これらのキーワード候補の中には、検索語として入力されたときに効率的な検索を実現しないものも含まれている。また、これらのキーワード候補を全てキーワードとすると、キーワードの総数として、認識語彙数が限られている場合には多すぎるものとなっている。そこで、キーワードの絞り込みを実施する。本実施形態では、キーワードの絞り込みとして、キーワード絞り込み部38による単純絞り込みと、キーワード相関絞り込み部39での相関絞り込みの両方をこの順で実施するものとする。
<Keywords>
A simple noun set (FIG. 2B), a compound noun set (FIG. 2C), a katakana noun set (FIG. 2D), an extended compound noun set (FIG. 2) obtained by the above processing. (E)), each element of the noun group (FIG. 2 (f)) is a keyword candidate extracted from the original sentence (FIG. 2 (a)). However, some of these keyword candidates do not realize an efficient search when input as a search term. If all of these keyword candidates are keywords, the total number of keywords is too large when the number of recognized vocabulary is limited. Therefore, the keyword is narrowed down. In the present embodiment, as keyword narrowing, both simple narrowing by the keyword narrowing unit 38 and correlation narrowing by the keyword correlation narrowing unit 39 are performed in this order.

まず、単独絞り込みについて説明する。キーワード絞り込み部38は、以下のルールによって絞り込みを行う。   First, single narrowing will be described. The keyword narrowing unit 38 narrows down according to the following rules.

(1)2モーラ語、1モーラ語の削除:
2字または1字の語彙を削除する。また、2モーラ語または1モーラ語の単純名詞から始まる複合名詞、拡張複合名詞を削除する。モーラ(mora)とは、英語におけるシラブル(syllable:音節)に対応する日本語での韻律の単位である。
(1) Delete two-mora words and one-mora words:
Delete a two-letter or one-letter vocabulary. In addition, compound nouns and extended compound nouns that start with simple nouns of 2 Mora or 1 Mora are deleted. Mora is a unit of prosody in Japanese corresponding to syllable in English.

(2)数字が占める割合が一定の語彙を削除:
数字が一定以上の割合を占める語彙は、認識語彙としての重要性が低いとして、削除する。
(2) Delete vocabulary with a fixed percentage of numbers:
Vocabulary in which the number occupies a certain percentage or more is deleted because it is less important as a recognized vocabulary.

(3)「氏」で終わる言葉から「氏」を削除:
音声インタフェースにおける発声として、人名に「氏」を付けることがほとんどないため、すなわち、検索語としての入力として「氏」を付けることはほとんどないので、「氏」を削除する。
(3) Delete “Mr” from words that end with “Mr”:
Since the voice name in the voice interface hardly includes “Mr” in the name of the person, that is, since “Mr” is rarely added as an input as a search term, “Mr” is deleted.

図3の(a)〜(e)は、図2の(b)〜(f)に示す各集合において上述した単純絞り込みを行った結果として得られる集合を示している。   FIGS. 3A to 3E show sets obtained as a result of performing the above-described simple narrowing down in the sets shown in FIGS. 2B to 2F.

次に、相関絞り込みについて説明する。キーワード相関絞り込み部39は、ニュース記事からのキーワード抽出及び絞り込みを行うたびに、キーワード抽出において抽出されたキーワードを、出現頻度データベース40に、語彙、出現回数、母数の形で格納する。母数とは、このキーワード抽出・絞り込みシステム10で処理したニュース記事の総数、あなわち、キーサード抽出・絞り込みを行ったニュース記事の件数であり、当然のことながら、出現頻度データベース40の全てのレコードにおいて、母数の値は同一である。   Next, correlation narrowing will be described. The keyword correlation narrowing unit 39 stores the keywords extracted in the keyword extraction in the appearance frequency database 40 in the form of vocabulary, number of appearances, and number of parameters each time the keywords are extracted from the news articles and narrowed down. The parameter is the total number of news articles processed by the keyword extraction / restriction system 10, that is, the number of news articles that have been extracted / restricted by key thirds. In the record, the value of the parameter is the same.

キーワード相関絞り込み部39は、キーワード絞り込み部38で絞り込まれたキーワードに関し、出現頻度データベース40を参照して、出現回数が一定数を上回るキーワードを検索して、これを消去する。これによって、出現頻度が高く、そのニュース記事の特性を表わしていないような一般的なキーワードが除去される。   The keyword correlation narrowing unit 39 refers to the appearance frequency database 40 with respect to the keywords narrowed down by the keyword narrowing unit 38, searches for keywords whose number of appearances exceeds a certain number, and deletes them. As a result, general keywords that appear frequently and do not represent the characteristics of the news article are removed.

図4(a)〜(e)は、図3の(a)〜(e)に示す各集合において相関絞り込みを行った結果として得られる集合を示している。例えば、図4の(a)に示す単純名詞集合においては、単純絞り込み後の集合(図3の(a))から、「環境」、「発生」、「全国」、「各地」、「現場」といった、あまりに一般的であって検索には役立ちそうもないキーワードが除去されている。   FIGS. 4A to 4E show sets obtained as a result of performing correlation narrowing in the sets shown in FIGS. 3A to 3E. For example, in the simple noun set shown in FIG. 4A, from the set after simple narrowing (FIG. 3A), “environment”, “occurrence”, “national”, “local”, “site” Keywords that are too general and unlikely to be useful for search are removed.

図5は、相関絞り込み後の各集合(図4の(a)〜(d))に関し、各集合内でのキーワードの重複を解消してそれらの集合をマージした結果を示しており、最終的にキーワードとして得られる認識語彙を示している。音声認識によるニュース記事の検索を行うためには、各記事ごとにこのようにキーワードの抽出と絞り込みを行い、最終的に得られたキーワードを認識語彙として音声認識用の認識辞書に蓄積すればよい。   FIG. 5 shows the result of merging the sets after eliminating the duplication of keywords in each set for each set after the correlation narrowing ((a) to (d) in FIG. 4). Shows the recognition vocabulary obtained as keywords. In order to search for news articles by voice recognition, keywords are extracted and narrowed down for each article in this way, and the finally obtained keywords are stored as recognition vocabulary in a recognition dictionary for voice recognition. .

なお、キーワードの相関絞り込みにおいては、経済や政治、国際といった複数のニュースジャンルにわたって、一定の出現頻度を持つキーワードを、一般的なキーワードとして除去することで、より精度の高い絞り込みを期待できる。   In the keyword correlation narrowing down, it is possible to expect a more precise narrowing down by removing keywords having a certain appearance frequency as general keywords across a plurality of news genres such as economy, politics, and international.

以上説明したキーワード抽出・絞り込みは、それを実現するためのコンピュータプログラムを、パーソナルコンピュータなどに読み込ませ、そのプログラムを実行させることによっても実現できる。キーワード抽出・絞り込みを行うためのプログラムは、磁気テープやCD−ROMなどの記録媒体によって、あるいはネットワークを介して、コンピュータに読み込まれる。そのようなコンピュータは、一般に、CPU(中央処理装置)と、プログラムやデータを格納するためのハードディスク装置と、主メモリと、キーボードやマウスなどの入力装置と、CRTなどの表示装置と、CD−ROM等の記録媒体を読み取る読み取り装置と、ネットワークに接続するとともに外部情報源からテキスト情報を取得するための通信インタフェースと、から構成されている。テキスト情報は、あらかじめハードディスク装置に格納されていてもよい。ハードディスク装置、主メモリ、入力装置、表示装置、読み取り装置及び通信インタフェースは、CPUに接続している。このコンピュータでは、キーワード抽出・絞り込みを行うためのプログラムを格納した記録媒体を読み取り装置に装着しその記録媒体からプログラムを読み出してハードディスク装置に格納し、あるいは、ネットワークを介してそのようなプログラムをハードディスク装置にダウンロードし、その後、ハードディスク装置に格納されたプログラムをCPUが実行することにより、上述したキーワード抽出・絞り込みシステム10として機能することになる。そのようなプログラムあるいはプログラムを格納した記録媒体も、本発明の範疇に含まれる。   The keyword extraction / narrowing described above can also be realized by causing a personal computer or the like to read a computer program for realizing the keyword and executing the program. A program for keyword extraction / narrowing is read into a computer by a recording medium such as a magnetic tape or a CD-ROM, or via a network. Such a computer generally includes a CPU (Central Processing Unit), a hard disk device for storing programs and data, a main memory, an input device such as a keyboard and a mouse, a display device such as a CRT, a CD- It comprises a reading device that reads a recording medium such as a ROM, and a communication interface that connects to a network and acquires text information from an external information source. The text information may be stored in advance in the hard disk device. The hard disk device, main memory, input device, display device, reading device, and communication interface are connected to the CPU. In this computer, a recording medium storing a program for extracting and narrowing keywords is loaded into a reading device, and the program is read from the recording medium and stored in a hard disk device, or such a program is stored on a hard disk via a network. When the CPU executes the program downloaded to the device and then stored in the hard disk device, it functions as the keyword extraction / narrowing system 10 described above. Such a program or a recording medium storing the program is also included in the category of the present invention.

本発明の実施の一形態のキーワード抽出・絞り込みシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the keyword extraction and narrowing-down system of one Embodiment of this invention. キーワード抽出の処理の一例を示す図である。It is a figure which shows an example of the process of keyword extraction. 単純なキーワード絞り込みの例を示す図である。It is a figure which shows the example of simple keyword narrowing down. 相関絞り込みによるキーワード絞り込みの例を説明する図である。It is a figure explaining the example of keyword narrowing down by correlation narrowing down. 認識語彙の例を説明する図である。It is a figure explaining the example of a recognition vocabulary.

符号の説明Explanation of symbols

10 キーワード抽出・絞り込みシステム
20 外部情報源
31 外部インタフェース
32 形態素解析部
33 名詞抽出部
34 複合名詞抽出部
35 カタカナ語抽出部
36 複合名詞分割部
37 連体連結部
38 キーワード絞り込み部
39 キーワード相関絞り込み部
40 出現頻度データベース(DB)
DESCRIPTION OF SYMBOLS 10 Keyword extraction / narrowing system 20 External information source 31 External interface 32 Morphological analysis part 33 Noun extraction part 34 Compound noun extraction part 35 Katakana word extraction part 36 Compound noun division part 37 Linkage part 38 Keyword refinement part 39 Keyword correlation narrowing part 40 Appearance frequency database (DB)

Claims (12)

テキスト情報源からキーワードを抽出する方法であって、
前記テキスト情報源からテキスト情報を取得する段階と、
前記テキスト情報に形態素解析を実施し、前記テキスト情報を品詞に分解する段階と、
品詞に分解された前記テキスト情報から名詞を抽出して単純名詞集合を生成する段階と、
品詞に分解された前記テキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞で構成される複合名詞集合と、3文字以上のカタカナからなるカタカナ語で構成されるカタカナ名詞集合と、の少なくとの一方を生成する段階と、
を有する、キーワード抽出・絞り込み方法。
A method for extracting keywords from a text information source,
Obtaining text information from the text information source;
Performing morphological analysis on the text information and decomposing the text information into parts of speech;
Extracting a noun from the text information decomposed into parts of speech to generate a simple noun set;
From the text information decomposed into parts of speech, a compound noun set composed of compound nouns composed of compound nouns composed of consecutive nouns, and a katakana noun set composed of katakana words composed of three or more characters, Generating at least one of the
A keyword extraction / narrowing method.
テキスト情報源からキーワードを抽出する方法であって、
前記テキスト情報源からテキスト情報を取得する段階と、
前記テキスト情報に形態素解析を実施し、前記テキスト情報を品詞に分解する段階と、
品詞に分解された前記テキスト情報から名詞を抽出して単純名詞集合を生成する段階と、
品詞に分解された前記テキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞集合を生成する段階と、
前記複合名詞集合中の複合名詞に対し、前記単純名詞集合、前記複合名詞集合及びカタカナ名詞集合の少なくとも1つに含まれる要素との部分一致を判定し、該判定結果に基づいて前記複合名詞を分割し、拡張複合名詞集合を生成する段階と、
を有する、キーワード抽出・絞り込み方法。
A method for extracting keywords from a text information source,
Obtaining text information from the text information source;
Performing morphological analysis on the text information and decomposing the text information into parts of speech;
Extracting a noun from the text information decomposed into parts of speech to generate a simple noun set;
Generating a compound noun set composed of compound nouns composed of consecutive nouns from the text information decomposed into parts of speech;
The compound noun in the compound noun set is determined to partially match an element included in at least one of the simple noun set, the compound noun set, and the katakana noun set, and the compound noun is determined based on the determination result. Dividing and generating an extended compound noun set;
A keyword extraction / narrowing method.
テキスト情報源からキーワードを抽出する方法であって、
前記テキスト情報源からテキスト情報を取得する段階と、
前記テキスト情報に形態素解析を実施し、前記テキスト情報を品詞に分解する段階と、
前記テキスト情報中に、名詞要素に挟まれた連体化助詞「の」が存在する場合に、それらの名詞要素を連体化助詞「の」を介して結合し、連体名詞集合を生成する段階と、
を有する、キーワード抽出・絞り込み方法。
A method for extracting keywords from a text information source,
Obtaining text information from the text information source;
Performing morphological analysis on the text information and decomposing the text information into parts of speech;
In the text information, when there is a coalesced particle `` no '' sandwiched between noun elements, the noun elements are combined via the coalesced particle `` no '', and a noun group is generated,
A keyword extraction / narrowing method.
前記各名詞集合のいずれかに含まれる要素をキーワード候補とし、キーワード候補が所定の条件を満たす場合に当該キーワード候補を削除し、キーワードの絞り込みを行う段階をさらに有する、請求項1乃至3のいずれか1項に記載のキーワード抽出・絞り込み方法。   4. The method according to claim 1, further comprising a step of defining an element included in any of the noun sets as a keyword candidate, deleting the keyword candidate when the keyword candidate satisfies a predetermined condition, and narrowing down the keyword. The keyword extraction / narrowing method according to claim 1. 前記所定の条件は、
(1)前記キーワード候補が2モーラ語あるいは1モーラ語である、
(2)前記キーワード候補中における数字の占める割合が所定の値以上である、
(3)過去に行ったキーワード抽出における出現頻度が所定値以上であるキーワード候補である、
(4)複数のニュースカテゴリにわたって一定割合以上のニュース記事に出現するキーワード候補である、
の少なくとも1つを含む、請求項4に記載のキーワード抽出・絞り込み方法。
The predetermined condition is:
(1) The keyword candidates are 2-mora or 1-mora.
(2) The ratio of numbers in the keyword candidates is equal to or greater than a predetermined value.
(3) It is a keyword candidate whose appearance frequency in keyword extraction performed in the past is a predetermined value or more.
(4) A keyword candidate that appears in news articles of a certain ratio or more across a plurality of news categories.
The keyword extraction / narrowing method according to claim 4, comprising at least one of the following.
前記キーワード候補が「氏」で終わる名詞要素である場合に語尾の「氏」を削除する段階をさらに有する、請求項4または5に記載のキーワード抽出・絞り込み方法。   The keyword extraction / narrowing method according to claim 4, further comprising a step of deleting the ending “Mr” when the keyword candidate is a noun element ending with “Mr”. テキスト情報源からキーワードを抽出するシステムであって、
前記テキスト情報源からテキスト情報を取得する外部インタフェースと、
前記テキスト情報に形態素解析を実施し、前記テキスト情報を品詞に分解する形態素解析部と、
品詞に分解された前記テキスト情報から名詞を抽出して単純名詞集合を生成する名詞抽出部と、
品詞に分解された前記テキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞で構成される複合名詞集合と、3文字以上のカタカナからなるカタカナ語で構成されるカタカナ名詞集合と、の少なくとの一方を生成する手段と、
を有する、キーワード抽出・絞り込みシステム。
A system for extracting keywords from a text information source,
An external interface for obtaining text information from the text information source;
Morphological analysis is performed on the text information, and the text information is decomposed into parts of speech.
A noun extraction unit that extracts a noun from the text information decomposed into parts of speech and generates a simple noun set;
From the text information decomposed into parts of speech, a compound noun set composed of compound nouns composed of compound nouns composed of consecutive nouns, and a katakana noun set composed of katakana words composed of three or more characters, Means for generating at least one of
A keyword extraction / narrowing system.
テキスト情報源からキーワードを抽出するシステムであって、
前記テキスト情報源からテキスト情報を取得する外部インタフェースと、
前記テキスト情報に形態素解析を実施し、前記テキスト情報を品詞に分解する形態素解析部と、
品詞に分解された前記テキスト情報から名詞を抽出して単純名詞集合を生成する名詞抽出部と、
品詞に分解された前記テキスト情報から、連続する名詞によって構成された複合名詞からなる複合名詞集合を生成する複合名詞抽出部と、
前記複合名詞集合中の複合名詞に対し、前記単純名詞集合、前記複合名詞集合及びカタカナ名詞集合の少なくとも1つに含まれる要素との部分一致を判定し、該判定結果に基づいて前記複合名詞を分割し、拡張複合名詞集合を生成する複合名詞分割部と、
を有する、キーワード抽出・絞り込みシステム。
A system for extracting keywords from a text information source,
An external interface for obtaining text information from the text information source;
Morphological analysis is performed on the text information, and the text information is decomposed into parts of speech.
A noun extraction unit that extracts a noun from the text information decomposed into parts of speech and generates a simple noun set;
A compound noun extractor that generates a compound noun set composed of compound nouns composed of consecutive nouns from the text information decomposed into parts of speech;
The compound noun in the compound noun set is determined to partially match an element included in at least one of the simple noun set, the compound noun set, and the katakana noun set, and the compound noun is determined based on the determination result. A compound noun divider that divides and generates an extended compound noun set; and
A keyword extraction / narrowing system.
テキスト情報源からキーワードを抽出するシステムであって、
前記テキスト情報源からテキスト情報を取得する外部インタフェースと、
前記テキスト情報に形態素解析を実施し、前記テキスト情報を品詞に分解する形態素解析部と、
前記テキスト情報中に、名詞要素に挟まれた連体化助詞「の」が存在する場合に、それらの名詞要素を連体化助詞「の」を介して結合し、連体名詞集合を生成する連体連結部と、
を有する、キーワード抽出・絞り込みシステム。
A system for extracting keywords from a text information source,
An external interface for obtaining text information from the text information source;
Morphological analysis is performed on the text information, and the text information is decomposed into parts of speech.
In the text information, when there is a linking particle “no” sandwiched between noun elements, a linking unit that combines these noun elements via the linking particle “no” to generate a linking noun set. When,
A keyword extraction / narrowing system.
前記各名詞集合のいずれかに含まれる要素をキーワード候補とし、キーワード候補が所定の条件を満たす場合に当該キーワード候補を削除し、キーワードの絞り込みを行うキーワード絞り込み部をさらに有する、請求項7乃至9のいずれか1項に記載のキーワード抽出・絞り込みシステム。   The keyword refinement unit further includes a keyword refinement unit that refines a keyword by using an element included in any of the noun sets as a keyword candidate, and deleting the keyword candidate when the keyword candidate satisfies a predetermined condition. The keyword extraction / narrowing system according to any one of the above. 前記所定の条件は、
(1)前記キーワード候補が2モーラ語あるいは1モーラ語である、
(2)前記キーワード候補中における数字の占める割合が所定の値以上である、
の少なくとも一方を含む、請求項10に記載のキーワード抽出・絞り込みシステム。
The predetermined condition is:
(1) The keyword candidates are 2-mora or 1-mora.
(2) The ratio of numbers in the keyword candidates is equal to or greater than a predetermined value.
The keyword extraction / narrowing system according to claim 10, comprising at least one of the following.
前記各名詞集合のいずれかに含まれる要素をキーワード候補とし、
過去に行ったキーワード抽出における出現頻度を格納する出現頻度データベースと、
前記出願頻度データベースを更新するとともに、前記出現頻度データベースに格納されている出現頻度が所定値以上であるキーワード候補を削除するキーワード相関絞り込み部と、
をさらに有する、請求項7乃至9のいずれか1項に記載のキーワード抽出・絞り込みシステム。
Elements included in any of the noun sets are keyword candidates,
An appearance frequency database for storing appearance frequencies in keyword extraction performed in the past,
While updating the application frequency database, a keyword correlation narrowing unit that deletes keyword candidates whose appearance frequency stored in the appearance frequency database is a predetermined value or more;
The keyword extraction / narrowing system according to claim 7, further comprising:
JP2004181439A 2004-06-18 2004-06-18 Method and system for extracting/narrowing keyword from text information source Pending JP2006004283A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004181439A JP2006004283A (en) 2004-06-18 2004-06-18 Method and system for extracting/narrowing keyword from text information source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004181439A JP2006004283A (en) 2004-06-18 2004-06-18 Method and system for extracting/narrowing keyword from text information source

Publications (1)

Publication Number Publication Date
JP2006004283A true JP2006004283A (en) 2006-01-05

Family

ID=35772618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004181439A Pending JP2006004283A (en) 2004-06-18 2004-06-18 Method and system for extracting/narrowing keyword from text information source

Country Status (1)

Country Link
JP (1) JP2006004283A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008192171A (en) * 2008-04-04 2008-08-21 Nomura Research Institute Ltd Keyword extraction system
WO2010061535A1 (en) * 2008-11-28 2010-06-03 日本電気株式会社 Information search device, information search method, and storage medium containing program
WO2010061538A1 (en) * 2008-11-28 2010-06-03 日本電気株式会社 Information search device, information search method, and recording medium
JP2010123005A (en) * 2008-11-20 2010-06-03 Kddi Corp Document data retrieval device
US8831945B2 (en) 2010-10-12 2014-09-09 Nec Informatec Systems, Ltd. Language model generating device, method thereof, and recording medium storing program thereof

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008192171A (en) * 2008-04-04 2008-08-21 Nomura Research Institute Ltd Keyword extraction system
JP2010123005A (en) * 2008-11-20 2010-06-03 Kddi Corp Document data retrieval device
WO2010061535A1 (en) * 2008-11-28 2010-06-03 日本電気株式会社 Information search device, information search method, and storage medium containing program
WO2010061538A1 (en) * 2008-11-28 2010-06-03 日本電気株式会社 Information search device, information search method, and recording medium
JPWO2010061538A1 (en) * 2008-11-28 2012-04-19 日本電気株式会社 Information search apparatus, information search method, and program
JP5494493B2 (en) * 2008-11-28 2014-05-14 日本電気株式会社 Information search apparatus, information search method, and program
JP5516416B2 (en) * 2008-11-28 2014-06-11 日本電気株式会社 Information search apparatus, information search method, and program
US8831945B2 (en) 2010-10-12 2014-09-09 Nec Informatec Systems, Ltd. Language model generating device, method thereof, and recording medium storing program thereof
US9128907B2 (en) 2010-10-12 2015-09-08 Nec Informatec Systems, Ltd. Language model generating device, method thereof, and recording medium storing program thereof

Similar Documents

Publication Publication Date Title
US7729913B1 (en) Generation and selection of voice recognition grammars for conducting database searches
US6973429B2 (en) Grammar generation for voice-based searches
US8996369B2 (en) System and method for transcribing audio files of various languages
JP5255766B2 (en) System and method for interactive search query refinement
JP2007517338A (en) Search quality improvement system and improvement method
JP2010529569A (en) Dictionary word and idiom determination
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP4200834B2 (en) Information search system, information search method, and information search program
JP3372532B2 (en) Computer-readable recording medium for emotion information extraction method and emotion information extraction program
KR100691400B1 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
JP2001084250A (en) Method and device for extracting knowledge from enormous document data and medium
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JP2006004283A (en) Method and system for extracting/narrowing keyword from text information source
JP2002297372A (en) Method, device and program for retrieving voice in web page
JP4378106B2 (en) Document search apparatus, document search method and program
JP7180767B2 (en) Response processing program, response processing method, and information processing device
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
KR100452024B1 (en) Searching engine and searching method
JP4756764B2 (en) Program, information processing apparatus, and information processing method
JP4980604B2 (en) Document search apparatus, document search method, document search program, and recording medium
JP2002092017A (en) Concept dictionary extending method and its device and recording medium with concept dictionary extending program recorded thereon
JP4074687B2 (en) Summary sentence creation support system and computer-readable recording medium recording a program for causing a computer to function as the system
JP2000339342A (en) Method and device for retrieving document
JP2003202893A (en) Corpus processor for generating statistical language model, and method and program thereof
JPH0773200A (en) Key word extracting method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090527

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091007