JP2016122398A - Subject word extraction device and program - Google Patents
Subject word extraction device and program Download PDFInfo
- Publication number
- JP2016122398A JP2016122398A JP2014263083A JP2014263083A JP2016122398A JP 2016122398 A JP2016122398 A JP 2016122398A JP 2014263083 A JP2014263083 A JP 2014263083A JP 2014263083 A JP2014263083 A JP 2014263083A JP 2016122398 A JP2016122398 A JP 2016122398A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- importance
- indirect
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 109
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 30
- 241000234314 Zingiber Species 0.000 description 19
- 235000006886 Zingiber officinale Nutrition 0.000 description 19
- 235000008397 ginger Nutrition 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000010411 cooking Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、主題語抽出装置、及びプログラムに関する。 The present invention relates to a subject word extraction device and a program.
文書に含まれる単語の中から主題語となる重要な単語を抽出する技術の一つに、tf−idfがある(例えば、非特許文献1参照)。tf−idfは、文書中に出願する単語の頻度と、その単語が出現する文書頻度とを用いて単語の重要度を計算する。しかし、tf−idfでは文脈を考慮していないため、主題語を正しく抽出できない場合がある。そこで、文書中の単語の重要度を、tf−idfだけではなく、文書中にある単語の関係性を考慮した値も加味して計算し、主題語を抽出する技術がある(例えば、特許文献1参照)。 One technique for extracting important words that are subject words from words included in a document is tf-idf (see, for example, Non-Patent Document 1). tf-idf calculates the importance of a word using the frequency of the word applied for in the document and the frequency of the document in which the word appears. However, since the context is not considered in tf-idf, the subject word may not be extracted correctly. Therefore, there is a technique for calculating the importance of a word in a document in consideration of not only tf-idf but also a value that considers the relationship between words in the document, and extracting a subject word (for example, Patent Documents). 1).
特許文献1の技術では、文書中に出現する単語間に直接なんらかの関係性がないと重要度は高くならない。例えば、「肩こりには生姜がきく・・・温泉に入るのもよい。・・・ヨガもよいであろう。」という文書があるとする。この場合、「肩こり」と「生姜」、「肩こり」と「温泉」、「肩こり」と「ヨガ」のような単語間の関係パスが辞書から得られれば、「肩こり」の重要度は増す。しかし、既存の辞書は、上位下位関係の単語を示すものや、類似した単語を示すものであり、全ての単語間の直接関係を記述した辞書は実際には存在しがたい。そのため、特許文献1の技術を実現することは容易ではない。
In the technique of
本発明は、このような事情を考慮してなされたもので、単語間の関係を全て記述した辞書がなくとも文書から主題となる単語を抽出する主題語抽出装置、及びプログラムを提供する。 The present invention has been made in view of such circumstances, and provides a subject word extraction apparatus and program for extracting a subject word from a document without a dictionary that describes all relationships between words.
本発明の一態様は、文書データから単語を抽出する抽出部と、関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、を備えることを特徴とする主題語抽出装置である。
この発明によれば、主題語抽出装置は、文書データから抽出した単語と関係する他の単語である関係語と、各関係語それぞれと関係する他の単語である間接関係語を、関係語辞書データから取得する。主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出する。主題語抽出装置は、文書データから抽出した単語の中から重要度に基づいて主題を表す単語を選択する。
これにより、主題語抽出装置は、単語間の関係を全て記述した辞書がなくとも、例えば既存の関係語辞書を利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
According to one aspect of the present invention, an extraction unit that extracts a word from document data and another word related to the word extracted by the extraction unit from related word dictionary data that is described in association with a plurality of related words A related word acquisition unit that acquires as a related word, an indirect related word acquisition unit that acquires other words related to the related word from the related word dictionary data as an indirect related word, and each of the words extracted by the extraction unit The degree of importance that quantitatively represents the importance of the word based on the number of occurrences of the related word of the word in the document data and the number of occurrence of the indirect related word of the word in the document data. An importance calculation unit to calculate, and a selection unit that selects a word representing a subject based on the importance calculated by the importance calculation unit from the words extracted by the extraction unit. Toss Which is the subject word extraction apparatus.
According to the present invention, the subject word extraction apparatus is configured to extract a related word that is another word related to a word extracted from document data and an indirect related word that is another word related to each related word. Get from data. The subject word extraction apparatus calculates the importance of a word extracted from document data based on the number of related words that appear in the document data and the number of indirect related words that appear in the document data. . The subject word extraction device selects a word representing the subject based on the importance from the words extracted from the document data.
As a result, even if there is no dictionary that describes all the relationships between words, the subject word extraction device can extract a word suitable as a subject from words included in a document using, for example, an existing related word dictionary. it can.
本発明の一態様は、上述する主題語抽出装置であって、前記抽出部は、前記文書データに含まれる所定の品詞の単語を抽出する、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データに含まれる所定の品詞の単語の中から、主題を表す単語を選択する。
これにより、主題語抽出装置は、文書データから、名詞など、主題としてわかりやすい品詞の単語を主題語として抽出することができる。
One aspect of the present invention is the subject word extraction device described above, wherein the extraction unit extracts a word having a predetermined part of speech included in the document data.
According to this invention, the subject word extraction device selects a word representing a subject from words of a predetermined part of speech included in document data.
As a result, the subject word extraction device can extract, from the document data, a word with a part of speech that is easy to understand as a subject, such as a noun, as the subject word.
本発明の一態様は、上述する主題語抽出装置であって、前記重要度算出部は、前記抽出部が抽出した前記単語の重要度を、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とのそれぞれに重み付けした結果を加算して算出する、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とのそれぞれに重み付けした結果を加算することにより算出する。
これにより、主題語抽出装置は、文書データに関係語が出現する数と間接関係語が出現する数とのうち、直接の関係語が出現する数により大きな重みを置き、直接の関係語が文書データに多く出現する単語ほど重要度が高くなり易いようにするなど、重要度を適切に算出することが可能となる。
One aspect of the present invention is the subject word extraction device described above, wherein the importance calculation unit indicates the importance of the word extracted by the extraction unit, and the related word of the word appears in the document data. It is calculated by adding the weighted result to each of the number and the number of the indirectly related words of the word appearing in the document data.
According to this invention, the subject word extraction apparatus determines the importance of a word extracted from document data by the number of occurrences of related words of the word in the document data and the number of occurrences of indirect related words of the word in the document data. Are calculated by adding the weighted results to each of.
As a result, the subject word extraction device places a greater weight on the number of occurrences of directly related words out of the number of occurrences of related words and the number of occurrences of indirect related words in the document data. It is possible to appropriately calculate the importance, such as making the word more frequently appear in the data so that the importance is likely to be higher.
本発明の一態様は、上述する主題語抽出装置であって、前記間接関係語取得部は、前記関係語辞書データから前記間接関係語と関係する他の単語を間接関係語として取得する処理を所定回繰り返す、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の間接関係語と関係がある単語をさらに用いて、単語の重要度を算出することができる。
これにより、主題語抽出装置は、間に複数の単語をはさんでたどり着く関係の単語が文書データに出現する数をさらに利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
One aspect of the present invention is the subject word extraction device described above, wherein the indirect related word acquisition unit performs processing for acquiring other words related to the indirect related words from the related word dictionary data as indirect related words. It repeats predetermined times, It is characterized by the above-mentioned.
According to the present invention, the subject word extraction device can calculate the importance of a word by further using a word related to the indirect relation word of the word extracted from the document data.
As a result, the subject word extraction apparatus further extracts the word suitable as the subject from the words included in the document by further utilizing the number of occurrences of the related words that are interleaved with a plurality of words in the document data. be able to.
本発明の一態様は、コンピュータを、文書データから単語を抽出する抽出手段と、関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、を具備する主題語抽出装置として機能させるためのプログラムである。 According to another aspect of the present invention, there is provided a computer related to an extraction unit that extracts a word from document data and a related word dictionary data that is described by associating a plurality of related words with the word extracted by the extraction unit. A related word acquisition means for acquiring the word of the related word as a related word, an indirect related word acquisition means for acquiring another word related to the related word as an indirect related word from the related word dictionary data, and the extraction means extracted For each word, quantitatively represent the importance of the word based on the number of occurrences of the related word of the word in the document data and the number of occurrence of the indirect related word of the word in the document data. Importance level calculating means for calculating importance level, and selecting a word representing the subject based on the importance level calculated by the importance level calculating means from the words extracted by the extracting means Is a program for functioning as a subject word extraction apparatus comprising a-option means.
本発明によれば、単語間の関係を全て記述した辞書がなくとも文書から主題となる単語を抽出することができる。 According to the present invention, a word as a subject can be extracted from a document without a dictionary that describes all the relationships between words.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による主題語抽出装置の動作概要を示す図である。本実施形態による主題語抽出装置は、関係語辞書データを利用して、文書データに含まれる文から主題となる単語を抽出する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing an outline of operation of a subject word extraction apparatus according to an embodiment of the present invention. The subject word extraction apparatus according to the present embodiment extracts words that are the subject from sentences included in document data by using related word dictionary data.
関係語辞書データは、関係がある複数の単語を関連付けて記述したデータである。このような関係語辞書データには、既存の類語辞典や概念辞書のデータを用いることができる。例えば、類語辞典には、角川類語新辞典、分類語彙表などを用いることができる。また、例えば、概念辞書のデータには、「通信研究機構(NICT)、”ALAGIN 言語資源・音声資源サイト”、高度言語情報融合フォーラム、[online]、インターネット〈URL:https://alaginrc.nict.go.jp/opensource.html>」を用いることができる。 The related word dictionary data is data in which a plurality of related words are described in association with each other. As such related term dictionary data, existing synonym dictionary and concept dictionary data can be used. For example, the Kadokawa new dictionary, classification vocabulary table, etc. can be used for the thesaurus. In addition, for example, the data of the concept dictionary includes “National Institute for Communications Research (NICT),“ ALAGIN Language Resource / Speech Resource Site ”, Advanced Language Information Fusion Forum, [online], Internet <URL: https: //alaginrc.nict .go.jp / opensource.html> "can be used.
関係語辞書データに、「肩こり」−「温熱」、「肩こり」−「体操」、「温熱」−「生姜」、「温熱」−「温泉」、「体操」−「ヨガ」のような単語同士の関係が登録されているとする。なお、「単語T1」−「単語T2」は、単語T1と単語T2との間に直接の関係があることを示す。単語T2は単語T1の関係語であり、単語T1は単語T2の関係語である。 In the related word dictionary data, words like "Stiff shoulder"-"Heat", "Stiff shoulder"-"Gymnastics", "Heat"-"Ginger", "Heat"-"Hot spring", "Gymnastics"-"Yoga" The relationship is registered. “Word T1” − “word T2” indicates that there is a direct relationship between the word T1 and the word T2. The word T2 is a related word of the word T1, and the word T1 is a related word of the word T2.
文書データが、「肩こりには生姜がきく・・・温泉に入るのもよい。・・・ヨガもよいであろう。」というテキストを含む場合、この文書データからは、「肩こり」、「生姜」、「温泉」、「ヨガ」などの単語が抽出される。関係語辞書データには、抽出されたこれらの単語間の直接の関係は登録されていない。しかし、単語間に直接の関係(パス)が関係語辞書データに登録されていない場合でも、他の単語を挟んで単語間のパスが得られる場合がある。例えば、「肩こり」−「温熱」−「生姜」、「肩こり」−「温熱」−「温泉」、「肩こり」−「体操」−「ヨガ」のように、共通する関係語を間に挟むことにより、「肩こり」から「生姜」、「温泉」、「ヨガ」にたどり着く(パスを張る)ことができる。このように、単語T1と単語T3とが共通の関係語を有しており、単語T1から共通の関係語を間に挟んで単語T3へたどり着くことができる場合、単語T3を単語T1の間接関係語とする。 If the document data contains the text “Ginger is on the shoulders… You may enter the hot springs… Yoga may be good.” From this document data, “Stiff shoulders”, “Ginger” , “Hot spring”, “yoga” and other words are extracted. In the related word dictionary data, the direct relationship between these extracted words is not registered. However, even when a direct relationship (path) between words is not registered in the related word dictionary data, a path between words may be obtained with another word interposed therebetween. For example, “shoulder stiffness” – “heat” – “ginger”, “shoulder stiffness” – “heat” – “hot spring”, “shoulder stiffness” – “gymnastics” – “yoga” By this, you can get from “Stiff shoulder” to “Ginger”, “Onsen”, “Yoga” (make a pass). In this way, when the word T1 and the word T3 have a common relation word, and the word T3 can be reached from the word T1 with the common relation word in between, the word T3 is indirectly related to the word T1. A word.
本実施形態の主題語抽出装置は、文書データに含まれる文から抽出された単語に、その単語の関係語が文書データに出現する数と、その単語から共通の関係語を挟むことによりたどり着くことができる間接関係語が文書データに出現する数とに応じて重要度を与える。本実施形態の主題語抽出装置は、抽出された単語の中から重要度に基づいて主題語を選択する。 The subject word extraction apparatus according to the present embodiment arrives at a word extracted from a sentence included in document data by sandwiching a common related word from the number of related words that appear in the document data. The degree of importance is given according to the number of indirect relation words that can be generated in the document data. The subject word extraction apparatus of this embodiment selects a subject word from the extracted words based on importance.
図2は、本発明の一実施形態による主題語抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。主題語抽出装置1は、コンピュータ装置により実現され、同図に示すように、入力部11と、抽出部12と、関係語取得部13と、間接関係語取得部14と、重要度算出部15と、選択部16とを備えて構成される。
FIG. 2 is a block diagram showing the configuration of the subject
主題語抽出装置1は、関係語辞書記憶装置3と接続される。関係語辞書記憶装置3は、関係語辞書データを記憶する。例えば、関係語辞書データは、「単語T1 [関係名] 単語T2」の形式により記述される複数の項目データを含む。「単語T1 [関係名] 単語T2」は、単語T1と単語T2が関係名で表される関係を持つことを表す。例えば、項目データは、「果物 [上位下位] りんご」、「台風 [原因結果] 大雨」などを示す。関係語辞書データには、同一の単語について、それぞれ異なる他の単語(関係語)との関係を示す項目データが複数含まれ得る。
The subject
入力部11は、文書データの入力を受ける。文書データは、1以上の文を示すテキストデータを含む。文書データには、例えば、ウェブページ、電子書籍、電子番組表(EPG:Electronic Program Guide)の番組概要文などを用いることができる。抽出部12は、入力部11により入力された文書データに含まれるテキストデータから単語を抽出する。関係語取得部13は、関係語辞書記憶装置3が記憶している関係語辞書データから、抽出部12が抽出した単語のそれぞれと関係がある他の単語を抽出部12が抽出した単語の関係語として取得する。間接関係語取得部14は、関係語辞書記憶装置3が記憶している関係語辞書データから、抽出部12が抽出した単語の関係語と関係がある他の単語を間接関係語として取得する。重要度算出部15は、抽出部12が抽出した各単語について、単語の重要性を定量的に表す重要度を算出する。単語の重要度は、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出される。選択部16は、抽出部12が抽出した単語の中から、重要度算出部15が算出した重要度に基づいて主題となる単語である主題語を選択し、選択した主題語を出力する。
The
図3は、主題語抽出装置1の主題語抽出処理を示すフローチャートである。
まず主題語抽出装置1の入力部11は、文書データの入力を受ける(ステップS110)。抽出部12は、ステップS110において入力された文書データの中から、文書データを1つ選択する(ステップS115)。抽出部12は、ステップS115において選択した文書データに含まれるテキストデータから所定の品詞の単語を抽出する。本実施形態では、所定の品詞を名詞とする。抽出部12は、抽出した単語の一覧を設定したデータである単語リストを生成する(ステップS120)。単語リストに設定されたi番目の単語を、単語Aiと記載する(iは1以上の整数)。また、以下では、単語A1、A2、…を総称して単語Aと記載する。
FIG. 3 is a flowchart showing the subject word extraction process of the subject
First, the
関係語取得部13は、単語リストに設定されている単語Aiのそれぞれの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得する。取得した単語Aiのni個(niは1以上の整数)の関係語をそれぞれ、関係語Bi1、Bi2、…、Biniとする。関係語Bij(jは1以上ni以下の整数)は、単語Aiのj番目の関係語である。単語Aiの関係語Bi1、Bi2、…、Biniを総称して関係語Biと記載する。関係語取得部13は、単語Aiの関係語Biが文書データに出現する数を第一重要度要素V1−iとして算出し、単語リストに設定する(ステップS125)。以下では、関係語B1、B2、…を総称して関係語Bと記載し、第一重要度要素V1−1、V1−2、…を総称して第一重要度要素V1と記載する。
The related
間接関係語取得部14は、単語Aiのni個の関係語Biそれぞれの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得し、単語Aiの間接関係語とする。関係語Bijの関係語として得られたkij個(kijは1以上の整数)の間接関係語を、間接関係語Cij1、Cij2、…、Cijkijとする。以下では、単語Aiの間接関係語Cij1、Cij2、…、Cijkijを総称して間接関係語Cijと記載し、単語Aiの間接関係語Ci1、Ci2、…、Ciniを総称して、間接関係語Ciと記載する。なお、間接関係語取得部14は、関係語Biの関係語のうち、単語Aiと一致する関係語は間接関係語Ciからは除外する。間接関係語取得部14は、単語Aiの間接関係語Ciが文書データに出現する数を第二重要度要素V2−iとして算出し、単語リストに設定する(ステップS130)。以下では、単語A1、単語A2、…それぞれの間接関係語C1、C2、…を総称して間接関係語Cと記載し、単語A1、A2、…それぞれの第二重要度要素V2−1、V2−2、…を総称して第二重要度要素V2と記載する。
Indirect relationship
重要度算出部15は、単語リストに設定されている単語Aiの第一重要度要素V1−i及び第二重要度要素V2−iを用いて、以下の式(1)により単語Aiの重要度V−iを算出する。
The
重要度V−i=(1−u)×[第一重要度要素V1−i]+u×[第二重要度要素V2−i] (0≦u≦0.5) …(1) Importance V−i = (1−u) × [First Importance Element V1-i] + u × [Second Importance Element V2-i] (0 ≦ u ≦ 0.5) (1)
重要度算出部15は、各単語Aiについて算出した重要度V−iを単語リストに設定する(ステップS135)。以下では、重要度V−iを総称して重要度Vと記載する。
The
選択部16は、単語リストから重要度Vが所定条件を満たす単語Aを主題語として選択する(ステップS140)。所定条件は、例えば、重要度が最も高いという条件でもよく、重要度が高いものから所定数という条件でもよく、最も高い重要度の所定割合以上の値の重要度という条件でもよい。選択部16は、ステップS140において選択した主題語を出力する(ステップS145)。
The
抽出部12は、ステップS110において入力された文書データの中に、未選択の文書データがあるか否かを判断する(ステップS150)。抽出部12は、未選択の文書データがあると判断した場合(ステップS150:YES)、ステップS115からの処理を繰り返す。
なお、抽出部12は、ステップS120において文書データに含まれるテキストデータから所定の品詞の単語を抽出できなかった場合、ステップS125〜ステップS145までの処理を行わず、ステップS150の処理を実行する。
そして、抽出部12は、ステップS110において入力された文書データを全て選択したと判断した場合(ステップS150:NO)、処理を終了する。
The
In addition, when the word of a predetermined part of speech cannot be extracted from the text data included in the document data in step S120, the
When the
図4は、単語リストの例を示す図である。同図に示すように、単語リストは、文書データから抽出した名詞である単語Ai(i=1、2、…)と、単語Aiの第一重要度要素V1−i、第二重要度要素V2−i、及び、重要度V−iとを対応付けたデータである。 FIG. 4 is a diagram illustrating an example of a word list. As shown in the figure, the word list includes a word Ai (i = 1, 2,...) That is a noun extracted from document data, a first importance element V1-i, and a second importance element V2 of the word Ai. This is data in which -i and importance V-i are associated with each other.
図5は、主題語抽出装置1の単語リスト生成処理を示すフローチャートである。同図に示す単語リスト生成処理は、図3のステップS120の詳細な処理である。
抽出部12は、選択した文書データに含まれるテキストデータから1文を選択する(ステップS210)。抽出部12は、選択した文を形態素解析する(ステップS215)。形態素解析には、既存の技術を用いることができる。例えば、既存の形態素解析の技術として、「”Mecab”、[online]、インターネット〈URL:https://code.google.com/p/mecab/>」を用いることができる。
FIG. 5 is a flowchart showing word list generation processing of the subject
The
抽出部12は、形態素解析した結果に基づいて、選択した文から名詞の単語を抽出する(ステップS220)。抽出部12は、抽出した単語のうち単語リストに未登録の単語を単語リストに単語Aとして追加する(ステップS225)。なお、抽出部12は、単語Aが文書データに出現した延べ回数を示す出現頻度をさらに単語リストに設定する場合がある。出現頻度を設定する場合とは、第一重要度要素V1に単語Aの関係語Bが文書データに出現する延べ回数を使用する場合や、第二重要度要素V2に単語Aの間接関係語Cが文書データに出現する延べ回数を使用する場合である。この場合、抽出部12は、ステップS220において抽出した単語が単語リストに未登録であるときには、抽出した単語と、選択された文からその単語が抽出された数を示す出現頻度とを単語リストに設定する。また、抽出した単語が単語リストに登録済みのときには、抽出部12は、単語リストに設定されているその単語の出現頻度を、選択された文からその単語が抽出された数を加算した値に更新する。
Based on the result of the morphological analysis, the
抽出部12は、ステップS210において選択した文が、文書データに含まれるテキストデータの最後の文ではないと判断した場合(ステップS230:NO)、ステップS210からの処理を繰り返す。
そして、抽出部12は、ステップS210においてした文が、文書データに含まれるテキストデータの最後の文であると判断した場合(ステップS230:YES)、処理を終了する。
When the
If the
図6は、主題語抽出装置1の第一重要度要素算出処理を示すフローチャートである。同図に示す第一重要度要素算出処理は、図3のステップS125の詳細な処理である。
関係語取得部13は、変数iに初期値1を設定する(ステップS310)。関係語取得部13は、単語リストに設定されているi番目の単語Aiを選択する(ステップS315)。関係語取得部13は、単語Aiの関係語Bi1、Bi2、…、Biniを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS320)。関係語取得部13は、取得した関係語Bi1、Bi2、…、Biniのうち単語リストに単語Aとして出現する関係語Biの数を計数し、第一重要度要素V1−iとする(ステップS325)。
なお、関係語取得部13は、関係語Bi1、Bi2、…、Biniのそれぞれが文書データに出現する延べ回数を合計し、第一重要度要素V1−iとしてもよい。延べ回数を合計して第一重要度要素V1−iとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、関係語取得部13は、関係語Bi1、Bi2、…、Biniのうち、単語リストに単語Aとして出現する関係語Biについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない関係語Biについては出現頻度を「0」とする。関係語取得部13は、関係語Bi1、Bi2、…、Biniそれぞれの出現頻度を合計し、単語Aiの第一重要度要素V1−iとする。
また、ステップS320において関係語Biを取得できなかった場合、関係語取得部13は、第一重要度要素V1−iを「0」とする。
関係語取得部13は、ステップS325において得た第一重要度要素V1−iを単語Aiと対応付けて単語リストに設定する(ステップS330)。
FIG. 6 is a flowchart showing the first importance factor calculation process of the subject
The related
Incidentally, the relationship
When the related word Bi cannot be acquired in step S320, the related
The related
関係語取得部13は、単語リストに設定されている単語Aを全て選択していないと判断した場合(ステップS335:NO)、変数iに1を加算してステップS315からの処理を繰り返す(ステップS340)。
そして、関係語取得部13は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS335:YES)、処理を終了する。
When the related
If the related
図7は、主題語抽出装置1の第二重要度要素算出処理を示すフローチャートである。同図に示す第二重要度要素算出処理は、図3のステップS130の詳細な処理である。
間接関係語取得部14は、変数iに初期値1を設定する(ステップS410)。間接関係語取得部14は、単語リストに設定されているi番目の単語Aiを選択する(ステップS415)。間接関係語取得部14は、単語Aiのそれぞれの関係語Bi1、Bi2、…、Biniを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS420)。なお、間接関係語取得部14は、図6のステップS320において関係語取得部13が取得した関係語Bi1、Bi2、…、Biniを取得してもよい。
FIG. 7 is a flowchart showing the second importance level element calculation process of the subject
The indirect related
間接関係語取得部14は、変数jに初期値1を設定する(ステップS425)。間接関係語取得部14は、関係語Bijの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得し、単語Aiの間接関係語Cij1、Cij2、…、Cijkijとする(ステップS430)。
The indirect related
間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijの数を、関係語Bijに関する第二重要度部分要素V2−i−jとする(ステップS435)。
なお、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのそれぞれが文書データに出現する延べ回数を合計し、第二重要度部分要素V2−i−jとしてもよい。延べ回数を合計して第二重要度部分要素V2−i−jとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない間接関係語Cijについては出現頻度を「0」とする。間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijそれぞれの出現頻度を合計し、単語Aiの第二重要度部分要素V2−i−jとする。
また、ステップS430において間接関係語Cijを取得できなかった場合、間接関係語取得部14は、単語Aiの第二重要度部分要素V2−i−jを「0」とする。
The indirect related
Note that the indirect related
When the indirect related word Cij cannot be acquired in step S430, the indirect related
間接関係語取得部14は、変数jがni未満であり、ステップS420において取得した関係語Bi1、Bi2、…、Biniの全てをまだ選択していないと判断した場合(ステップS440:NO)、変数jに1を加算してステップS430からの処理を繰り返す(ステップS445)。
そして、間接関係語取得部14は、変数jがniに達し、ステップS420において取得した関係語Bi1、Bi2、…、Biniの全てを選択したと判断した場合(ステップS440:NO)、ステップS450の処理を実行する。つまり、間接関係語取得部14は、単語Aiの関係語Bi1〜BiniのそれぞれについてステップS435において得た第二重要度部分要素V2−i−1〜V2−i−niを合計し、単語Aiの第二重要度要素V2−iを算出する(ステップS450)。間接関係語取得部14は、ステップS450において得た第二重要度要素V2−iを単語Aiと対応付けて単語リストに設定する(ステップS455)。
Indirect relationship
The indirect relationship
間接関係語取得部14は、単語リストに設定されている単語Aを全て選択していないと判断した場合(ステップS460:NO)、変数iに1を加算してステップS415からの処理を繰り返す(ステップS465)。
なお、ステップS420において関係語Biを取得できなかった場合、間接関係語取得部14は、第二重要度要素V2−iを「0」とし、ステップS455からの処理を行う。
そして、間接関係語取得部14は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS460:YES)、処理を終了する。
If it is determined that the word A set in the word list has not been selected (step S460: NO), the indirect related
If the related word Bi cannot be acquired in step S420, the indirect related
If the indirect related
図7の処理の後、図3のステップS135からの処理が実行される。つまり、重要度算出部15は、単語リストに設定されている各単語Aの重要度Vを、第一重要度要素V1及び第二重要度要素V2を用いて算出し、単語リストに設定する(ステップS135)。選択部16は、単語リストに設定されている単語Aの中から重要度Vに基づいて主題語を選択し(ステップS140)、出力する(ステップS145)。
After the process of FIG. 7, the process from step S135 of FIG. 3 is executed. That is, the
続いて、主題語抽出装置1の主題語抽出処理を、具体例を用いて説明する。
図8は、文書データの例を示す図である。主題語抽出装置1の抽出部12は、ステップS110において入力部11が受けた文書データの中から、図8に示す文書データDを選択する。抽出部12は、文書データDに含まれる文章から名詞の単語を抽出する。
Next, the subject word extraction process of the subject
FIG. 8 is a diagram illustrating an example of document data. The
図9は、抽出部12が文書データDから抽出した単語を示す図である。同図には、抽出した各単語が文書データDに出現する頻度についても示している。抽出部12は、図9に示す名詞の単語「肩こり」、「解消」、「方法」、「体」、…を、単語Aとして設定した単語リストを生成する。
FIG. 9 is a diagram illustrating words extracted from the document data D by the
図10は、関係語辞書記憶装置3が記憶している関係語辞書データの例を示す図である。関係語取得部13は、図10に示す関係語辞書データを参照して各単語Aの関係語Bを取得し、単語Aの関係語Bが単語リストに出現する数(または単語Aの関係語Bが文書データに出現する延べ回数)を第一重要度要素V1として単語リストに設定する。また、間接関係語取得部14は、関係語辞書データを参照して各単語Aの間接関係語Cを取得し、間接関係語Cが単語リストに出現する数(または単語Aの間接関係語Cが文書データに出現する延べ回数)を第二重要度要素V2として単語リストに設定する。
FIG. 10 is a diagram illustrating an example of related word dictionary data stored in the related word
図11は、単語リストに単語Aの関係語B及び間接関係語Cを追加した図である。
同図に示すように、単語A「肩こり」については、図10に示す関係語辞書データから関係語B「体操」、「温熱」、…が得られる。関係語Bの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の関係語B「体操」、「温熱」、…のうち、単語リストに出現するのは「体操」のみであるため、第一重要度要素V1は「1」となる。
FIG. 11 is a diagram in which the related word B and the indirect related word C of the word A are added to the word list.
As shown in the figure, for the word A “stiff shoulder”, the related words B “gymnastics”, “heat”,... Are obtained from the related word dictionary data shown in FIG. (O) described after the related word B indicates that it appears in the word list, and (X) indicates that it does not appear in the word list. Of the related words B “Gymnastic”, “Heat”,... Of the word A “Stiff shoulder”, only “Gymnastic” appears in the word list, so the first importance factor V1 is “1”.
また、単語A「肩こり」の関係語B「体操」については、関係語辞書データから関係語「肩こり」、…が得られる。また、単語Aの関係語B「温熱」については、関係語辞書データから関係語「肩こり」、「温泉」、「生姜」、…が得られる。関係語Bについて得られた関係語のうち、単語A「肩こり」と一致する関係語は間接関係語Cから除外される。よって、単語A「肩こり」の間接関係語Cとして、「温泉」、「生姜」、…が得られる。間接関係語Cの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の間接関係語C「温泉」、「生姜」、…のうち、単語リストに出現するのは「温泉」、「生姜」の2つであるため、第二重要度要素V2は「2」となる。
単語A「肩こり」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
For the related word B “gymnastics” of the word A “stiff shoulder”, the related words “stiff shoulder”,... Are obtained from the related word dictionary data. For the related word B “warmth” of the word A, the related words “stiff shoulder”, “hot spring”, “ginger”,... Are obtained from the related word dictionary data. Among the related words obtained for the related word B, the related word that matches the word A “stiff shoulder” is excluded from the indirect related word C. Therefore, “hot spring”, “ginger”,... Are obtained as the indirect relation word C of the word A “stiff shoulder”. (◯) described after the indirect relation word C indicates that it appears in the word list, and (×) indicates that it does not appear in the word list. Among the indirect relation words C “hot spring”, “ginger”,... Of the word A “stiff shoulder”, two words “hot spring” and “ginger” appear in the word list, so the second importance factor V2 is “2”.
The importance V of the word A “stiff shoulder” is calculated as 1.5 (= 0.5 × 1 + 0.5 × 2) based on the formula (1).
同様に、単語A「温泉」については、関係語B「リラックス」、「温熱」、…が得られ、単語リストには「リラックス」のみが出現するため、第一重要度要素V1は「1」となる。また、単語A「温泉」については、間接関係語C「生姜」、…が得られ、単語リストには「生姜」のみが出現するため、第二重要度要素V2は「1」となる。単語A「温泉」の重要度Vは、式(1)に基づいて、1.0(=0.5×1+0.5×1)と算出される。 Similarly, for the word A “hot spring”, the related words B “relax”, “heat”,... Are obtained, and only “relax” appears in the word list, so the first importance factor V1 is “1”. It becomes. For the word A “hot spring”, the indirect relation word C “ginger”,... Is obtained, and only “ginger” appears in the word list, so the second importance factor V2 is “1”. The importance level V of the word A “hot spring” is calculated as 1.0 (= 0.5 × 1 + 0.5 × 1) based on the formula (1).
また、単語A「リラックス」の関係語Bのうち「温泉」のみが単語リストに出現するため、第一重要度要素V1は「1」となる。また、単語A「リラックス」の間接関係語Cはいずれも単語リストに出現しないため、第二重要度要素V2は「0」となる。単語A「リラックス」の重要度Vは、式(1)に基づいて、0.5(=0.5×1+0.5×0)と算出される。 Moreover, since only “hot spring” appears in the word list among the related words B of the word A “relax”, the first importance factor V1 is “1”. Further, since none of the indirectly related words C of the word A “relax” appears in the word list, the second importance factor V2 is “0”. The importance level V of the word A “relax” is calculated as 0.5 (= 0.5 × 1 + 0.5 × 0) based on the formula (1).
また、単語A「生姜」の関係語Bのうち「料理」のみが単語リストに出現するため、第一重要度要素V1は「1」となる。また、単語A「生姜」の間接関係語Cのうち「温泉」のみが単語リストに出現するため、第二重要度要素V2は「1」となる。単語A「生姜」の重要度Vは、式(1)に基づいて、1.0(=0.5×1+0.5×1)と算出される。 In addition, since only “cooking” appears in the word list among the related words B of the word A “ginger”, the first importance factor V1 is “1”. Further, since only “hot spring” of the indirect relation word C of the word A “ginger” appears in the word list, the second importance factor V2 is “1”. The importance V of the word A “ginger” is calculated as 1.0 (= 0.5 × 1 + 0.5 × 1) based on the equation (1).
なお、関係語B、間接関係語Cが文書データに出現した延べ回数をそれぞれ第一重要度要素V1、第二重要度要素V2とする場合、図9に示す各単語Aの出現頻度を単語リストに設定しておく。
そして、単語A「肩こり」の場合、関係語Bのうち「体操」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「肩こり」の間接関係語Cのうち「温泉」の出現頻度が「2」、「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「4」となる。よって、単語A「肩こり」の重要度Vは、式(1)に基づいて、2.5(=0.5×1+0.5×4)と算出される。
同様に、単語A「温泉」の場合、関係語Bのうち「リラックス」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「温泉」の間接関係語Cのうち「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「2」となる。よって、単語A「温泉」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
When the total number of times that the related word B and the indirect related word C appear in the document data is the first importance element V1 and the second importance element V2, respectively, the appearance frequency of each word A shown in FIG. Set to.
In the case of the word A “Stiff shoulder”, the appearance frequency of “Gymnastic” among the related words B is “1” and the appearance frequency of the other related words B is “0”. “1”. In addition, among the indirect related words C of the word A “stiff shoulder”, the appearance frequency of “hot spring” is “2”, the appearance frequency of “ginger” is “2”, and the appearance frequency of other indirect related words C is “0”. Therefore, the second importance factor V2 is “4”. Therefore, the importance V of the word A “stiff shoulder” is calculated as 2.5 (= 0.5 × 1 + 0.5 × 4) based on the equation (1).
Similarly, in the case of the word A “hot spring”, the appearance frequency of “relaxed” among the related words B is “1” and the appearance frequency of the other related words B is “0”. Becomes “1”. Moreover, since the appearance frequency of “ginger” is “2” and the appearance frequency of other indirect relation words C is “0” among the indirect relation words C of the word A “hot spring”, the second importance factor V2 Becomes “2”. Therefore, the importance level V of the word A “hot spring” is calculated as 1.5 (= 0.5 × 1 + 0.5 × 2) based on the formula (1).
上記のように各単語Aの重要度を算出した結果、単語A「肩こり」の重要度Vが最も高くなる。選択部16は、最も高い重要度Vの単語A「肩こり」を主題語として選択する。
なお、式(1)における係数uの値は、学習用の文書データについて係数uを変化させながら主題語抽出を行い、人手により抽出した主題語と適合する確率が高いときの係数uの値に基づいて決定する。
As a result of calculating the importance of each word A as described above, the importance V of the word A “stiff shoulder” is the highest. The
Note that the value of the coefficient u in the equation (1) is the value of the coefficient u when the subject word is extracted while changing the coefficient u for the document data for learning, and the probability of matching with the manually extracted subject word is high. Determine based on.
文書データDの主題語は「肩こり」であるが、文書データ群が文書データDのみからなるという条件でtf−idfを計算した場合、図9に示すように出現頻度が最も高い単語「有効」が主題語として選択されてしまう。
また、関係語辞書データを参照して、文書内の単語同士に直接関係が得られた場合に重みを付ける従来技術もあるが、直接関係のある単語対が全て含まれる関係語辞書データは現実的には存在しがたい。関係語辞書データに「生姜 [食材] 料理]、「温泉 [有効] リラックス」、「肩こり [対処法] 体操」のような2単語間の関係しか登録されていない場合、「肩こり」の重みはさほど大きくならないことが考えられる。
本実施形態の主題語抽出装置1は、文書データから抽出した単語の重要度を、直接関係する単語が文書データに出現する数に加え、間に他の単語をはさんで間接的に関係する単語が文書データに出現する数を用いて重要度を算出する。このように算出した重要度を用いることにより、主題語抽出装置1は、文書データに出現する単語の中から、主題語として適切な単語を抽出することができる。
Although the subject word of the document data D is “stiff shoulder”, when tf-idf is calculated under the condition that the document data group consists only of the document data D, the word “valid” having the highest appearance frequency as shown in FIG. Is selected as the subject word.
In addition, there is a conventional technique that refers to related word dictionary data and assigns a weight when a direct relationship is obtained between words in a document, but related word dictionary data that includes all directly related word pairs is actually It ’s hard to exist. If the relation word dictionary data contains only the relationship between two words, such as “ginger [food] cooking”, “hot spring [effective] relaxation”, and “shoulder stiffness [measure] gymnastics”, the weight of “stiff shoulder” is It is possible that it will not be so large.
The subject
なお、選択部16は、tf−idfなどの頻度情報を組み合わせて、単語Aの中から主題を抽出してもよい。例えば、選択部16は、tf−idf値が所定よりも高い単語Aのうち、重要度Vが所定条件を満たす単語Aを主題語として抽出する。tf−idf値が所定よりも高い単語Aとは、tf−idf値が所定値以上の単語A、tf−idf値が高いものから所定数の単語A、などとすることができる。あるいは、選択部16は、重要度Vが所定条件を満たす単語Aのうち、tf−idf値が最も高いものから所定数の単語Aを主題語として抽出してもよい。
Note that the
また、関係語取得部13は、単語Aの第一重要度要素V1を関係語Bが単語リストに出現する数とする場合、所定の分野に属する関係語Bについては、出現数に1より大きな値の係数を乗算してもよい。
例えば、単語Aiの関係語Bi1、Bi2、…、Biniであり、単語リストには、関係語Bi1、Bi2、Bi3が出現し、関係語Bi4〜Biniは出現しないとする。関係語Bi1及びBi2が所定の分野に属する単語である場合、関係語Bi1及びBi2についてはそれぞれ1×a(a>1)回と計数する。よって、単語Aiの第一重要度要素V1−iは、2×a+1となる。
同様に、間接関係語取得部14は、単語Aの第二重要度要素V2を間接関係語Cが単語リストに出現する数とする場合、所定の分野に属する間接関係語Cについては出現数に1より大きな値の係数を乗算してもよい。
In addition, when the related
For example, the relationship of the word Ai Bi1, Bi2, ..., is the Bin i, in the word list, the emergence of relational terms Bi1, Bi2, Bi3, the relationship between language Bi4~Bin i and does not appear. When the related words Bi1 and Bi2 are words belonging to a predetermined field, the related words Bi1 and Bi2 are counted as 1 × a (a> 1) times. Accordingly, the first importance factor V1-i of the word Ai is 2 × a + 1.
Similarly, when the indirectly related
また、関係語取得部13は、単語Aの第一重要度要素V1を文書データにおける各関係語Bの出現頻度の合計とする場合、所定の分野に属する関係語Bについては、出現頻度に1より大きな値の係数を乗算してもよい。例えば、単語Aiの関係語Bi1、Bi2、…、Biniであり、文書データには、関係語Bi1が2回、関係語Bi2が3回出現し、関係語Bi3〜Biniは出現しないとする。関係語Bi1が所定の分野に属する単語である場合、関係語Bi1の出現頻度「2」には係数a(a>1)を乗算する。よって、単語Aiの第一重要度要素V1−iは、関係語Bi1の出現頻度「2」×係数a+関係語Bi2の出現頻度「3」となる。
同様に、関係語取得部13は、単語Aの第二重要度要素V2を文書データにおける各間接関係語Cの出現頻度の合計とする場合、所定の分野に属する間接関係語Cについては、出現頻度に1より大きな値の係数を乗算してもよい。
In addition, when the related
Similarly, when the related
また、間接関係語取得部14は、単語Aの間接関係語Cに関係する関係語を関係語辞書データから読み出して、単語Aの間接関係語とする処理をm回(mは1以上の整数)繰り返してもよい。間接関係語Cに関係する関係語を間接関係語E1、間接関係語E1に関係する関係語を間接関係語E2、…とする。重要度算出部15は、単語Aの関係語Bが文書データに出現する数V1、単語Aの間接関係語Cが文書データに出現する数V2、単語Aの間接関係語E1が文書データに出現する数V3、単語Aの間接関係語E2が文書データに出現する数V4、…のそれぞれに所定の重み付け係数を乗算した後に加算して、単語Aの重要度を算出する。なお、V1の重み付け係数>V2の重み付け係数>V3の重み付け係数>V4の重み付け係数、…とする。
The indirect related
上述した実施形態によれば、主題語抽出装置1は、文書データに出現する単語同士の関係を用いることにより、話題性を考慮した単語を文書データから抽出することができる。この単語同士の関係には、直接の関係がある単語だけではなく、間接的に関係する単語の関係までが用いられる。従って、文書データに出現する単語同士が、関係語辞書データに直接関係する単語として登録されていなくても、文書データ中の他の単語と関係を多く有する単語に高い重要度を与え、主題語にふさわしい単語を抽出することができる。このように主題語抽出装置1が文書データから抽出した主題語は、文書から情報を抽出したり、文書を要約したり、文書データに関連するコンテンツを推薦したりするために利用可能である。
According to the above-described embodiment, the subject
上述した主題語抽出装置1は、内部にコンピュータシステムを有している。そして、主題語抽出装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The subject
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a portable dictionary such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a conceptual dictionary storage unit such as a hard disk built in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1 主題語抽出装置
11 入力部
12 抽出部
13 関係語取得部
14 間接関係語取得部
15 重要度算出部
16 選択部
3 関係語辞書記憶装置
DESCRIPTION OF
Claims (5)
関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、
前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、
前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、
前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、
を備えることを特徴とする主題語抽出装置。 An extraction unit for extracting words from document data;
A related word acquisition unit that acquires, as related words, other words related to the word extracted by the extraction unit from related word dictionary data in which a plurality of related words are described in association with each other;
An indirect related word acquisition unit that acquires other words related to the related word as indirect related words from the related word dictionary data;
For each of the words extracted by the extraction unit, based on the number of the related words of the word that appear in the document data and the number of the indirect related words of the word that appear in the document data. An importance calculation unit for calculating importance that quantitatively represents importance,
A selection unit that selects a word representing a subject based on the importance calculated by the importance calculation unit from the words extracted by the extraction unit;
A subject word extraction apparatus comprising:
ことを特徴とする請求項1に記載の主題語抽出装置。 The extraction unit extracts a word of a predetermined part of speech included in the document data;
The subject word extraction device according to claim 1.
ことを特徴とする請求項1または請求項2のいずれか1項に記載の主題語抽出装置。 The importance calculator calculates the importance of the word extracted by the extraction unit, the number of the related words of the word appearing in the document data, and the indirect related word of the word appearing in the document data. Calculate by adding the weighted result to each number.
The subject word extraction device according to claim 1, wherein the subject word extraction device is a feature word extraction device.
ことを特徴とする請求項1から請求項3のいずれか1項に記載の主題語抽出装置。 The indirect related word acquisition unit repeats a process of acquiring other words related to the indirect related word as indirect related words from the related word dictionary data a predetermined number of times.
The subject word extraction device according to any one of claims 1 to 3, wherein:
文書データから単語を抽出する抽出手段と、
関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、
前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、
前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、
前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、
を具備する主題語抽出装置として機能させるためのプログラム。 Computer
Extraction means for extracting words from document data;
A related word acquisition unit that acquires, as related words, other words related to the word extracted by the extraction unit, from related word dictionary data in which a plurality of related words are described in association with each other;
Indirect related word acquisition means for acquiring other words related to the related word as indirect related words from the related word dictionary data;
For each of the words extracted by the extraction means, based on the number of occurrences of the related word of the word in the document data and the number of occurrences of the indirect related word of the word in the document data. Importance calculation means for calculating importance that quantitatively represents importance,
A selecting unit that selects a word representing a subject based on the importance calculated by the importance calculating unit from the words extracted by the extracting unit;
A program for causing a function to function as a subject word extraction device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263083A JP6448128B2 (en) | 2014-12-25 | 2014-12-25 | Subject word extraction device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263083A JP6448128B2 (en) | 2014-12-25 | 2014-12-25 | Subject word extraction device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122398A true JP2016122398A (en) | 2016-07-07 |
JP6448128B2 JP6448128B2 (en) | 2019-01-09 |
Family
ID=56329040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014263083A Active JP6448128B2 (en) | 2014-12-25 | 2014-12-25 | Subject word extraction device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6448128B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112331A (en) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | Automatic evaluation device for significance of key word |
JP2004021763A (en) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | Text mining program, method, and device |
WO2013172096A1 (en) * | 2012-05-18 | 2013-11-21 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2013242791A (en) * | 2012-05-22 | 2013-12-05 | Nippon Hoso Kyokai <Nhk> | Subject extraction device and program therefor |
-
2014
- 2014-12-25 JP JP2014263083A patent/JP6448128B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112331A (en) * | 1987-10-26 | 1989-05-01 | Nippon Telegr & Teleph Corp <Ntt> | Automatic evaluation device for significance of key word |
JP2004021763A (en) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | Text mining program, method, and device |
WO2013172096A1 (en) * | 2012-05-18 | 2013-11-21 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2013242791A (en) * | 2012-05-22 | 2013-12-05 | Nippon Hoso Kyokai <Nhk> | Subject extraction device and program therefor |
Non-Patent Citations (1)
Title |
---|
岡本 潤,他: ""連想概念辞書の距離情報を用いた重要文の抽出"", 自然言語処理, vol. 第10巻,第6号, JPN6018043589, 10 October 2003 (2003-10-10), pages 139 - 151, ISSN: 0003914595 * |
Also Published As
Publication number | Publication date |
---|---|
JP6448128B2 (en) | 2019-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
Kien et al. | Answering legal questions by learning neural attentive text representation | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
Mei et al. | Divrank: the interplay of prestige and diversity in information networks | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
CN110134792B (en) | Text recognition method and device, electronic equipment and storage medium | |
CN104391842A (en) | Translation model establishing method and system | |
KR101925950B1 (en) | Method and device for recommending contents based on inflow keyword and relevant keyword for contents | |
Baowaly et al. | Predicting the helpfulness of game reviews: A case study on the steam store | |
Back et al. | Learning to generate questions by learning to recover answer-containing sentences | |
EP2613275A1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
CN106933380B (en) | A kind of update method and device of dictionary | |
JP2015132899A (en) | Keyword extraction device and program | |
Rao et al. | Taxonomy based personalized news recommendation: Novelty and diversity | |
Hamzei et al. | Templates of generic geographic information for answering where-questions | |
Chan et al. | Learning resource recommendation: An orchestration of Content-based filtering, word semantic similarity and page ranking | |
JP6448128B2 (en) | Subject word extraction device and program | |
Ali et al. | Identifying and Profiling User Interest over time using Social Data | |
EP2638481A1 (en) | Seed set expansion | |
JP2011180901A (en) | Device, method and program for evaluating reusability of experience information | |
KR101402339B1 (en) | System and method of managing document | |
Saga et al. | Measurement evaluation of keyword extraction based on topic coverage | |
Ali et al. | Entity attribute ranking using learning to rank. | |
JP6188226B2 (en) | Related word extraction apparatus and program | |
Chaonithi et al. | A hybrid approach for Thai word segmentation with crowdsourcing feedback system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171030 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180906 |
|
TRDD | Decision of grant or rejection written | ||
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6448128 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |