JP2016122398A - Subject word extraction device and program - Google Patents

Subject word extraction device and program Download PDF

Info

Publication number
JP2016122398A
JP2016122398A JP2014263083A JP2014263083A JP2016122398A JP 2016122398 A JP2016122398 A JP 2016122398A JP 2014263083 A JP2014263083 A JP 2014263083A JP 2014263083 A JP2014263083 A JP 2014263083A JP 2016122398 A JP2016122398 A JP 2016122398A
Authority
JP
Japan
Prior art keywords
word
words
importance
indirect
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014263083A
Other languages
Japanese (ja)
Other versions
JP6448128B2 (en
Inventor
菊佳 望月
Kikuka Mochizuki
菊佳 望月
山田 一郎
Ichiro Yamada
一郎 山田
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014263083A priority Critical patent/JP6448128B2/en
Publication of JP2016122398A publication Critical patent/JP2016122398A/en
Application granted granted Critical
Publication of JP6448128B2 publication Critical patent/JP6448128B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To extract a word becoming a subject from a document even without a dictionary in which all relations between words are described.SOLUTION: A subject word extraction device 1 comprises: an extraction unit 12 which extracts a word from document data; a related word acquisition unit 13 which acquires, from related word dictionary data in which a plurality of related words are described in association, a word related to a word extracted by the extraction unit 12 as a related word; an indirect related word acquisition unit 14 which acquires a word related to the related word from the related word dictionary data as an indirect related word; an importance calculation unit 15 which calculates the importance quantitatively showing the importance of a word, for each word extracted by the extraction unit 12, on the basis of the number of times of appearance that a related word of the word appears in the document data, and the number of times of appearance that an indirect related word of the word appears in the document data; and a selection unit 16 which selects a word representing a subject on the basis of the importance calculated by the importance calculation unit 15 from among words extracted by the extraction unit 12.SELECTED DRAWING: Figure 2

Description

本発明は、主題語抽出装置、及びプログラムに関する。   The present invention relates to a subject word extraction device and a program.

文書に含まれる単語の中から主題語となる重要な単語を抽出する技術の一つに、tf−idfがある(例えば、非特許文献1参照)。tf−idfは、文書中に出願する単語の頻度と、その単語が出現する文書頻度とを用いて単語の重要度を計算する。しかし、tf−idfでは文脈を考慮していないため、主題語を正しく抽出できない場合がある。そこで、文書中の単語の重要度を、tf−idfだけではなく、文書中にある単語の関係性を考慮した値も加味して計算し、主題語を抽出する技術がある(例えば、特許文献1参照)。   One technique for extracting important words that are subject words from words included in a document is tf-idf (see, for example, Non-Patent Document 1). tf-idf calculates the importance of a word using the frequency of the word applied for in the document and the frequency of the document in which the word appears. However, since the context is not considered in tf-idf, the subject word may not be extracted correctly. Therefore, there is a technique for calculating the importance of a word in a document in consideration of not only tf-idf but also a value that considers the relationship between words in the document, and extracting a subject word (for example, Patent Documents). 1).

特開2013−242791号公報JP2013-242791A

「tf−idf」、[online]、ウィキペディア、[平成26年10月22日検索]、インターネット〈URL:http://ja.wikipedia.org/wiki/Tf-idf〉“Tf-idf”, [online], Wikipedia, [October 22, 2014 search], Internet <URL: http://en.wikipedia.org/wiki/Tf-idf>

特許文献1の技術では、文書中に出現する単語間に直接なんらかの関係性がないと重要度は高くならない。例えば、「肩こりには生姜がきく・・・温泉に入るのもよい。・・・ヨガもよいであろう。」という文書があるとする。この場合、「肩こり」と「生姜」、「肩こり」と「温泉」、「肩こり」と「ヨガ」のような単語間の関係パスが辞書から得られれば、「肩こり」の重要度は増す。しかし、既存の辞書は、上位下位関係の単語を示すものや、類似した単語を示すものであり、全ての単語間の直接関係を記述した辞書は実際には存在しがたい。そのため、特許文献1の技術を実現することは容易ではない。   In the technique of Patent Document 1, the importance does not increase unless there is any direct relationship between words appearing in the document. For example, suppose that there is a document that says "Ginger is on the stiff shoulders ... You may enter a hot spring. ... Yoga may be good." In this case, if the relationship paths between words such as “Stiff shoulder” and “Ginger”, “Stiff shoulder” and “Hot spring”, “Stiff shoulder” and “Yoga” are obtained from the dictionary, the importance of “Stiff shoulder” increases. However, existing dictionaries indicate words having higher and lower relationships or similar words, and it is difficult to actually have a dictionary describing direct relationships between all words. Therefore, it is not easy to realize the technique of Patent Document 1.

本発明は、このような事情を考慮してなされたもので、単語間の関係を全て記述した辞書がなくとも文書から主題となる単語を抽出する主題語抽出装置、及びプログラムを提供する。   The present invention has been made in view of such circumstances, and provides a subject word extraction apparatus and program for extracting a subject word from a document without a dictionary that describes all relationships between words.

本発明の一態様は、文書データから単語を抽出する抽出部と、関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、を備えることを特徴とする主題語抽出装置である。
この発明によれば、主題語抽出装置は、文書データから抽出した単語と関係する他の単語である関係語と、各関係語それぞれと関係する他の単語である間接関係語を、関係語辞書データから取得する。主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出する。主題語抽出装置は、文書データから抽出した単語の中から重要度に基づいて主題を表す単語を選択する。
これにより、主題語抽出装置は、単語間の関係を全て記述した辞書がなくとも、例えば既存の関係語辞書を利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
According to one aspect of the present invention, an extraction unit that extracts a word from document data and another word related to the word extracted by the extraction unit from related word dictionary data that is described in association with a plurality of related words A related word acquisition unit that acquires as a related word, an indirect related word acquisition unit that acquires other words related to the related word from the related word dictionary data as an indirect related word, and each of the words extracted by the extraction unit The degree of importance that quantitatively represents the importance of the word based on the number of occurrences of the related word of the word in the document data and the number of occurrence of the indirect related word of the word in the document data. An importance calculation unit to calculate, and a selection unit that selects a word representing a subject based on the importance calculated by the importance calculation unit from the words extracted by the extraction unit. Toss Which is the subject word extraction apparatus.
According to the present invention, the subject word extraction apparatus is configured to extract a related word that is another word related to a word extracted from document data and an indirect related word that is another word related to each related word. Get from data. The subject word extraction apparatus calculates the importance of a word extracted from document data based on the number of related words that appear in the document data and the number of indirect related words that appear in the document data. . The subject word extraction device selects a word representing the subject based on the importance from the words extracted from the document data.
As a result, even if there is no dictionary that describes all the relationships between words, the subject word extraction device can extract a word suitable as a subject from words included in a document using, for example, an existing related word dictionary. it can.

本発明の一態様は、上述する主題語抽出装置であって、前記抽出部は、前記文書データに含まれる所定の品詞の単語を抽出する、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データに含まれる所定の品詞の単語の中から、主題を表す単語を選択する。
これにより、主題語抽出装置は、文書データから、名詞など、主題としてわかりやすい品詞の単語を主題語として抽出することができる。
One aspect of the present invention is the subject word extraction device described above, wherein the extraction unit extracts a word having a predetermined part of speech included in the document data.
According to this invention, the subject word extraction device selects a word representing a subject from words of a predetermined part of speech included in document data.
As a result, the subject word extraction device can extract, from the document data, a word with a part of speech that is easy to understand as a subject, such as a noun, as the subject word.

本発明の一態様は、上述する主題語抽出装置であって、前記重要度算出部は、前記抽出部が抽出した前記単語の重要度を、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とのそれぞれに重み付けした結果を加算して算出する、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とのそれぞれに重み付けした結果を加算することにより算出する。
これにより、主題語抽出装置は、文書データに関係語が出現する数と間接関係語が出現する数とのうち、直接の関係語が出現する数により大きな重みを置き、直接の関係語が文書データに多く出現する単語ほど重要度が高くなり易いようにするなど、重要度を適切に算出することが可能となる。
One aspect of the present invention is the subject word extraction device described above, wherein the importance calculation unit indicates the importance of the word extracted by the extraction unit, and the related word of the word appears in the document data. It is calculated by adding the weighted result to each of the number and the number of the indirectly related words of the word appearing in the document data.
According to this invention, the subject word extraction apparatus determines the importance of a word extracted from document data by the number of occurrences of related words of the word in the document data and the number of occurrences of indirect related words of the word in the document data. Are calculated by adding the weighted results to each of.
As a result, the subject word extraction device places a greater weight on the number of occurrences of directly related words out of the number of occurrences of related words and the number of occurrences of indirect related words in the document data. It is possible to appropriately calculate the importance, such as making the word more frequently appear in the data so that the importance is likely to be higher.

本発明の一態様は、上述する主題語抽出装置であって、前記間接関係語取得部は、前記関係語辞書データから前記間接関係語と関係する他の単語を間接関係語として取得する処理を所定回繰り返す、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の間接関係語と関係がある単語をさらに用いて、単語の重要度を算出することができる。
これにより、主題語抽出装置は、間に複数の単語をはさんでたどり着く関係の単語が文書データに出現する数をさらに利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
One aspect of the present invention is the subject word extraction device described above, wherein the indirect related word acquisition unit performs processing for acquiring other words related to the indirect related words from the related word dictionary data as indirect related words. It repeats predetermined times, It is characterized by the above-mentioned.
According to the present invention, the subject word extraction device can calculate the importance of a word by further using a word related to the indirect relation word of the word extracted from the document data.
As a result, the subject word extraction apparatus further extracts the word suitable as the subject from the words included in the document by further utilizing the number of occurrences of the related words that are interleaved with a plurality of words in the document data. be able to.

本発明の一態様は、コンピュータを、文書データから単語を抽出する抽出手段と、関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、を具備する主題語抽出装置として機能させるためのプログラムである。   According to another aspect of the present invention, there is provided a computer related to an extraction unit that extracts a word from document data and a related word dictionary data that is described by associating a plurality of related words with the word extracted by the extraction unit. A related word acquisition means for acquiring the word of the related word as a related word, an indirect related word acquisition means for acquiring another word related to the related word as an indirect related word from the related word dictionary data, and the extraction means extracted For each word, quantitatively represent the importance of the word based on the number of occurrences of the related word of the word in the document data and the number of occurrence of the indirect related word of the word in the document data. Importance level calculating means for calculating importance level, and selecting a word representing the subject based on the importance level calculated by the importance level calculating means from the words extracted by the extracting means Is a program for functioning as a subject word extraction apparatus comprising a-option means.

本発明によれば、単語間の関係を全て記述した辞書がなくとも文書から主題となる単語を抽出することができる。   According to the present invention, a word as a subject can be extracted from a document without a dictionary that describes all the relationships between words.

本発明の一実施形態による主題語抽出装置の動作概要を説明するための図である。It is a figure for demonstrating the operation | movement outline | summary of the theme word extraction apparatus by one Embodiment of this invention. 同実施形態による主題語抽出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the theme word extraction apparatus by the embodiment. 同実施形態による主題語抽出装置の主題語抽出処理を示すフローチャートである。It is a flowchart which shows the subject word extraction process of the subject word extraction apparatus by the embodiment. 同実施形態による単語リストの例を示すフローチャートである。It is a flowchart which shows the example of the word list by the embodiment. 同実施形態による主題語抽出装置の単語リスト生成処理を示すフローチャートである。It is a flowchart which shows the word list production | generation process of the theme word extraction apparatus by the embodiment. 同実施形態による主題語抽出装置の第一重要度要素算出処理を示すフローチャートである。It is a flowchart which shows the 1st importance element calculation process of the theme word extraction apparatus by the embodiment. 同実施形態による主題語抽出装置の第二重要度要素算出処理を示すフローチャートである。It is a flowchart which shows the 2nd importance element calculation process of the theme word extraction apparatus by the embodiment. 同実施形態による文書データの例を示す図である。It is a figure which shows the example of the document data by the same embodiment. 同実施形態による主題語抽出装置が図8の文書データから抽出した単語を示す図である。It is a figure which shows the word which the subject word extraction device by the embodiment extracted from the document data of FIG. 同実施形態による関係語辞書データの例を示す図である。It is a figure which shows the example of the related word dictionary data by the embodiment. 同実施形態による単語リストに関係語及び間接関係語を追加した図である。It is the figure which added the related word and the indirect related word to the word list by the embodiment.

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による主題語抽出装置の動作概要を示す図である。本実施形態による主題語抽出装置は、関係語辞書データを利用して、文書データに含まれる文から主題となる単語を抽出する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing an outline of operation of a subject word extraction apparatus according to an embodiment of the present invention. The subject word extraction apparatus according to the present embodiment extracts words that are the subject from sentences included in document data by using related word dictionary data.

関係語辞書データは、関係がある複数の単語を関連付けて記述したデータである。このような関係語辞書データには、既存の類語辞典や概念辞書のデータを用いることができる。例えば、類語辞典には、角川類語新辞典、分類語彙表などを用いることができる。また、例えば、概念辞書のデータには、「通信研究機構(NICT)、”ALAGIN 言語資源・音声資源サイト”、高度言語情報融合フォーラム、[online]、インターネット〈URL:https://alaginrc.nict.go.jp/opensource.html>」を用いることができる。   The related word dictionary data is data in which a plurality of related words are described in association with each other. As such related term dictionary data, existing synonym dictionary and concept dictionary data can be used. For example, the Kadokawa new dictionary, classification vocabulary table, etc. can be used for the thesaurus. In addition, for example, the data of the concept dictionary includes “National Institute for Communications Research (NICT),“ ALAGIN Language Resource / Speech Resource Site ”, Advanced Language Information Fusion Forum, [online], Internet <URL: https: //alaginrc.nict .go.jp / opensource.html> "can be used.

関係語辞書データに、「肩こり」−「温熱」、「肩こり」−「体操」、「温熱」−「生姜」、「温熱」−「温泉」、「体操」−「ヨガ」のような単語同士の関係が登録されているとする。なお、「単語T1」−「単語T2」は、単語T1と単語T2との間に直接の関係があることを示す。単語T2は単語T1の関係語であり、単語T1は単語T2の関係語である。   In the related word dictionary data, words like "Stiff shoulder"-"Heat", "Stiff shoulder"-"Gymnastics", "Heat"-"Ginger", "Heat"-"Hot spring", "Gymnastics"-"Yoga" The relationship is registered. “Word T1” − “word T2” indicates that there is a direct relationship between the word T1 and the word T2. The word T2 is a related word of the word T1, and the word T1 is a related word of the word T2.

文書データが、「肩こりには生姜がきく・・・温泉に入るのもよい。・・・ヨガもよいであろう。」というテキストを含む場合、この文書データからは、「肩こり」、「生姜」、「温泉」、「ヨガ」などの単語が抽出される。関係語辞書データには、抽出されたこれらの単語間の直接の関係は登録されていない。しかし、単語間に直接の関係(パス)が関係語辞書データに登録されていない場合でも、他の単語を挟んで単語間のパスが得られる場合がある。例えば、「肩こり」−「温熱」−「生姜」、「肩こり」−「温熱」−「温泉」、「肩こり」−「体操」−「ヨガ」のように、共通する関係語を間に挟むことにより、「肩こり」から「生姜」、「温泉」、「ヨガ」にたどり着く(パスを張る)ことができる。このように、単語T1と単語T3とが共通の関係語を有しており、単語T1から共通の関係語を間に挟んで単語T3へたどり着くことができる場合、単語T3を単語T1の間接関係語とする。   If the document data contains the text “Ginger is on the shoulders… You may enter the hot springs… Yoga may be good.” From this document data, “Stiff shoulders”, “Ginger” , “Hot spring”, “yoga” and other words are extracted. In the related word dictionary data, the direct relationship between these extracted words is not registered. However, even when a direct relationship (path) between words is not registered in the related word dictionary data, a path between words may be obtained with another word interposed therebetween. For example, “shoulder stiffness” – “heat” – “ginger”, “shoulder stiffness” – “heat” – “hot spring”, “shoulder stiffness” – “gymnastics” – “yoga” By this, you can get from “Stiff shoulder” to “Ginger”, “Onsen”, “Yoga” (make a pass). In this way, when the word T1 and the word T3 have a common relation word, and the word T3 can be reached from the word T1 with the common relation word in between, the word T3 is indirectly related to the word T1. A word.

本実施形態の主題語抽出装置は、文書データに含まれる文から抽出された単語に、その単語の関係語が文書データに出現する数と、その単語から共通の関係語を挟むことによりたどり着くことができる間接関係語が文書データに出現する数とに応じて重要度を与える。本実施形態の主題語抽出装置は、抽出された単語の中から重要度に基づいて主題語を選択する。   The subject word extraction apparatus according to the present embodiment arrives at a word extracted from a sentence included in document data by sandwiching a common related word from the number of related words that appear in the document data. The degree of importance is given according to the number of indirect relation words that can be generated in the document data. The subject word extraction apparatus of this embodiment selects a subject word from the extracted words based on importance.

図2は、本発明の一実施形態による主題語抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。主題語抽出装置1は、コンピュータ装置により実現され、同図に示すように、入力部11と、抽出部12と、関係語取得部13と、間接関係語取得部14と、重要度算出部15と、選択部16とを備えて構成される。   FIG. 2 is a block diagram showing the configuration of the subject word extraction device 1 according to an embodiment of the present invention, and shows only functional blocks related to the present embodiment. The subject word extraction device 1 is realized by a computer device, and, as shown in the figure, an input unit 11, an extraction unit 12, a related word acquisition unit 13, an indirect related word acquisition unit 14, and an importance level calculation unit 15. And a selection unit 16.

主題語抽出装置1は、関係語辞書記憶装置3と接続される。関係語辞書記憶装置3は、関係語辞書データを記憶する。例えば、関係語辞書データは、「単語T1 [関係名] 単語T2」の形式により記述される複数の項目データを含む。「単語T1 [関係名] 単語T2」は、単語T1と単語T2が関係名で表される関係を持つことを表す。例えば、項目データは、「果物 [上位下位] りんご」、「台風 [原因結果] 大雨」などを示す。関係語辞書データには、同一の単語について、それぞれ異なる他の単語(関係語)との関係を示す項目データが複数含まれ得る。   The subject word extraction device 1 is connected to the related word dictionary storage device 3. The related word dictionary storage device 3 stores related word dictionary data. For example, the related word dictionary data includes a plurality of item data described in the format of “word T1 [relation name] word T2”. “Word T1 [Relation Name] Word T2” indicates that the word T1 and the word T2 have a relationship represented by a relationship name. For example, the item data indicates “fruit [upper / lower] apple”, “typhoon [cause / result] heavy rain”, and the like. The related word dictionary data may include a plurality of item data indicating the relationship between the same word and other different words (related words).

入力部11は、文書データの入力を受ける。文書データは、1以上の文を示すテキストデータを含む。文書データには、例えば、ウェブページ、電子書籍、電子番組表(EPG:Electronic Program Guide)の番組概要文などを用いることができる。抽出部12は、入力部11により入力された文書データに含まれるテキストデータから単語を抽出する。関係語取得部13は、関係語辞書記憶装置3が記憶している関係語辞書データから、抽出部12が抽出した単語のそれぞれと関係がある他の単語を抽出部12が抽出した単語の関係語として取得する。間接関係語取得部14は、関係語辞書記憶装置3が記憶している関係語辞書データから、抽出部12が抽出した単語の関係語と関係がある他の単語を間接関係語として取得する。重要度算出部15は、抽出部12が抽出した各単語について、単語の重要性を定量的に表す重要度を算出する。単語の重要度は、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出される。選択部16は、抽出部12が抽出した単語の中から、重要度算出部15が算出した重要度に基づいて主題となる単語である主題語を選択し、選択した主題語を出力する。   The input unit 11 receives input of document data. The document data includes text data indicating one or more sentences. As the document data, for example, a web page, an electronic book, a program summary sentence of an electronic program guide (EPG), and the like can be used. The extraction unit 12 extracts words from text data included in the document data input by the input unit 11. The related word acquisition unit 13 is a relation of words extracted by the extraction unit 12 from other related words extracted by the extraction unit 12 from the related word dictionary data stored in the related word dictionary storage device 3. Get as a word. The indirect related word acquisition unit 14 acquires, from the related word dictionary data stored in the related word dictionary storage device 3, other words related to the related word of the word extracted by the extraction unit 12 as indirect related words. The importance level calculation unit 15 calculates an importance level that quantitatively represents the importance of the word for each word extracted by the extraction unit 12. The importance level of a word is calculated based on the number of related words that appear in the document data and the number of indirect related words of the word that appear in the document data. The selection unit 16 selects a subject word that is a subject word based on the importance calculated by the importance calculation unit 15 from the words extracted by the extraction unit 12, and outputs the selected subject word.

図3は、主題語抽出装置1の主題語抽出処理を示すフローチャートである。
まず主題語抽出装置1の入力部11は、文書データの入力を受ける(ステップS110)。抽出部12は、ステップS110において入力された文書データの中から、文書データを1つ選択する(ステップS115)。抽出部12は、ステップS115において選択した文書データに含まれるテキストデータから所定の品詞の単語を抽出する。本実施形態では、所定の品詞を名詞とする。抽出部12は、抽出した単語の一覧を設定したデータである単語リストを生成する(ステップS120)。単語リストに設定されたi番目の単語を、単語Aiと記載する(iは1以上の整数)。また、以下では、単語A1、A2、…を総称して単語Aと記載する。
FIG. 3 is a flowchart showing the subject word extraction process of the subject word extraction device 1.
First, the input unit 11 of the subject word extraction device 1 receives input of document data (step S110). The extraction unit 12 selects one piece of document data from the document data input in step S110 (step S115). The extraction unit 12 extracts a word with a predetermined part of speech from the text data included in the document data selected in step S115. In this embodiment, a predetermined part of speech is a noun. The extraction unit 12 generates a word list that is data in which a list of extracted words is set (step S120). The i-th word set in the word list is described as word Ai (i is an integer of 1 or more). In the following, the words A1, A2,... Are collectively referred to as the word A.

関係語取得部13は、単語リストに設定されている単語Aiのそれぞれの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得する。取得した単語Aiのn個(nは1以上の整数)の関係語をそれぞれ、関係語Bi1、Bi2、…、Binとする。関係語Bij(jは1以上n以下の整数)は、単語Aiのj番目の関係語である。単語Aiの関係語Bi1、Bi2、…、Binを総称して関係語Biと記載する。関係語取得部13は、単語Aiの関係語Biが文書データに出現する数を第一重要度要素V1−iとして算出し、単語リストに設定する(ステップS125)。以下では、関係語B1、B2、…を総称して関係語Bと記載し、第一重要度要素V1−1、V1−2、…を総称して第一重要度要素V1と記載する。 The related word acquisition unit 13 acquires each related word of the word Ai set in the word list from the related word dictionary data stored in the related word dictionary storage device 3. It acquired the words of Ai n i number (n i is an integer of 1 or more) of relational terms, respectively, the relationship between language Bi1, Bi2, ..., and Bin i. Relational terms Bij (j is 1 or n i an integer) is the j-th relation of the word Ai. Word Ai of relational terms Bi1, Bi2, ..., are collectively referred to Bin i described as a relational terms Bi. The related word acquisition unit 13 calculates the number of occurrences of the related word Bi of the word Ai in the document data as the first importance factor V1-i and sets it in the word list (step S125). In the following, the related words B1, B2,... Are collectively referred to as the related word B, and the first importance elements V1-1, V1-2,... Are collectively referred to as the first importance element V1.

間接関係語取得部14は、単語Aiのn個の関係語Biそれぞれの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得し、単語Aiの間接関係語とする。関係語Bijの関係語として得られたkij個(kijは1以上の整数)の間接関係語を、間接関係語Cij1、Cij2、…、Cijkijとする。以下では、単語Aiの間接関係語Cij1、Cij2、…、Cijkijを総称して間接関係語Cijと記載し、単語Aiの間接関係語Ci1、Ci2、…、Cinを総称して、間接関係語Ciと記載する。なお、間接関係語取得部14は、関係語Biの関係語のうち、単語Aiと一致する関係語は間接関係語Ciからは除外する。間接関係語取得部14は、単語Aiの間接関係語Ciが文書データに出現する数を第二重要度要素V2−iとして算出し、単語リストに設定する(ステップS130)。以下では、単語A1、単語A2、…それぞれの間接関係語C1、C2、…を総称して間接関係語Cと記載し、単語A1、A2、…それぞれの第二重要度要素V2−1、V2−2、…を総称して第二重要度要素V2と記載する。 Indirect relationship word acquisition unit 14 acquires the n i-number of relational terms Bi respective relations of the word Ai from the relationship dictionary data related word dictionary storing unit 3 stores, and indirect relations of the word Ai . K ij indirect related words (k ij is an integer of 1 or more) obtained as related words of the related word Bij are set as indirect related words Cij1, Cij2,..., Cijk ij . In the following, the indirect relationship between language Cij1 of the word Ai, Cij2, ..., described as indirect relationship word Cij are collectively Cijk ij, the indirect relationship between language Ci1 of the word Ai, Ci2, ..., are collectively referred to as Cin i, indirect relationship It is written as the word Ci. The indirect related word acquisition unit 14 excludes from the indirect related words Ci, related words that match the word Ai among the related words of the related word Bi. The indirect related word acquisition unit 14 calculates the number of occurrences of the indirect related word Ci of the word Ai in the document data as the second importance element V2-i, and sets it in the word list (step S130). In the following, the indirect related words C1, C2,... Of the words A1, A2,... Are collectively referred to as indirect related words C, and the second importance elements V2-1, V2 of the words A1, A2,. -2, ... are collectively referred to as a second importance factor V2.

重要度算出部15は、単語リストに設定されている単語Aiの第一重要度要素V1−i及び第二重要度要素V2−iを用いて、以下の式(1)により単語Aiの重要度V−iを算出する。   The importance calculation unit 15 uses the first importance element V1-i and the second importance element V2-i of the word Ai set in the word list, and calculates the importance of the word Ai according to the following equation (1). V-i is calculated.

重要度V−i=(1−u)×[第一重要度要素V1−i]+u×[第二重要度要素V2−i] (0≦u≦0.5) …(1)   Importance V−i = (1−u) × [First Importance Element V1-i] + u × [Second Importance Element V2-i] (0 ≦ u ≦ 0.5) (1)

重要度算出部15は、各単語Aiについて算出した重要度V−iを単語リストに設定する(ステップS135)。以下では、重要度V−iを総称して重要度Vと記載する。   The importance calculator 15 sets the importance Vi calculated for each word Ai in the word list (step S135). Hereinafter, the importance V-i is collectively referred to as importance V.

選択部16は、単語リストから重要度Vが所定条件を満たす単語Aを主題語として選択する(ステップS140)。所定条件は、例えば、重要度が最も高いという条件でもよく、重要度が高いものから所定数という条件でもよく、最も高い重要度の所定割合以上の値の重要度という条件でもよい。選択部16は、ステップS140において選択した主題語を出力する(ステップS145)。   The selection unit 16 selects, from the word list, a word A whose importance level V satisfies a predetermined condition as a subject word (step S140). The predetermined condition may be, for example, a condition that the importance level is the highest, a condition that the importance degree is high to a predetermined number, or a condition that the importance degree is equal to or greater than a predetermined ratio of the highest importance degree. The selection unit 16 outputs the subject word selected in step S140 (step S145).

抽出部12は、ステップS110において入力された文書データの中に、未選択の文書データがあるか否かを判断する(ステップS150)。抽出部12は、未選択の文書データがあると判断した場合(ステップS150:YES)、ステップS115からの処理を繰り返す。
なお、抽出部12は、ステップS120において文書データに含まれるテキストデータから所定の品詞の単語を抽出できなかった場合、ステップS125〜ステップS145までの処理を行わず、ステップS150の処理を実行する。
そして、抽出部12は、ステップS110において入力された文書データを全て選択したと判断した場合(ステップS150:NO)、処理を終了する。
The extraction unit 12 determines whether there is unselected document data in the document data input in step S110 (step S150). If the extraction unit 12 determines that there is unselected document data (step S150: YES), the extraction unit 12 repeats the processing from step S115.
In addition, when the word of a predetermined part of speech cannot be extracted from the text data included in the document data in step S120, the extraction unit 12 performs the process of step S150 without performing the processes from step S125 to step S145.
When the extraction unit 12 determines that all the document data input in step S110 has been selected (step S150: NO), the process ends.

図4は、単語リストの例を示す図である。同図に示すように、単語リストは、文書データから抽出した名詞である単語Ai(i=1、2、…)と、単語Aiの第一重要度要素V1−i、第二重要度要素V2−i、及び、重要度V−iとを対応付けたデータである。   FIG. 4 is a diagram illustrating an example of a word list. As shown in the figure, the word list includes a word Ai (i = 1, 2,...) That is a noun extracted from document data, a first importance element V1-i, and a second importance element V2 of the word Ai. This is data in which -i and importance V-i are associated with each other.

図5は、主題語抽出装置1の単語リスト生成処理を示すフローチャートである。同図に示す単語リスト生成処理は、図3のステップS120の詳細な処理である。
抽出部12は、選択した文書データに含まれるテキストデータから1文を選択する(ステップS210)。抽出部12は、選択した文を形態素解析する(ステップS215)。形態素解析には、既存の技術を用いることができる。例えば、既存の形態素解析の技術として、「”Mecab”、[online]、インターネット〈URL:https://code.google.com/p/mecab/>」を用いることができる。
FIG. 5 is a flowchart showing word list generation processing of the subject word extraction device 1. The word list generation process shown in the figure is a detailed process of step S120 in FIG.
The extraction unit 12 selects one sentence from the text data included in the selected document data (step S210). The extraction unit 12 performs morphological analysis on the selected sentence (step S215). Existing techniques can be used for morphological analysis. For example, “Mecab”, [online], Internet <URL: https://code.google.com/p/mecab/> ”can be used as an existing morphological analysis technique.

抽出部12は、形態素解析した結果に基づいて、選択した文から名詞の単語を抽出する(ステップS220)。抽出部12は、抽出した単語のうち単語リストに未登録の単語を単語リストに単語Aとして追加する(ステップS225)。なお、抽出部12は、単語Aが文書データに出現した延べ回数を示す出現頻度をさらに単語リストに設定する場合がある。出現頻度を設定する場合とは、第一重要度要素V1に単語Aの関係語Bが文書データに出現する延べ回数を使用する場合や、第二重要度要素V2に単語Aの間接関係語Cが文書データに出現する延べ回数を使用する場合である。この場合、抽出部12は、ステップS220において抽出した単語が単語リストに未登録であるときには、抽出した単語と、選択された文からその単語が抽出された数を示す出現頻度とを単語リストに設定する。また、抽出した単語が単語リストに登録済みのときには、抽出部12は、単語リストに設定されているその単語の出現頻度を、選択された文からその単語が抽出された数を加算した値に更新する。   Based on the result of the morphological analysis, the extraction unit 12 extracts a noun word from the selected sentence (step S220). The extraction unit 12 adds a word that is not registered in the word list as the word A among the extracted words (step S225). The extracting unit 12 may further set the appearance frequency indicating the total number of times that the word A appears in the document data in the word list. When the appearance frequency is set, the total number of times that the related word B of the word A appears in the document data is used as the first importance element V1, or the indirect related word C of the word A is used as the second importance element V2. Is the total number of times that appears in the document data. In this case, when the word extracted in step S220 is not registered in the word list, the extraction unit 12 adds the extracted word and the appearance frequency indicating the number of extracted words from the selected sentence to the word list. Set. When the extracted word is already registered in the word list, the extracting unit 12 sets the appearance frequency of the word set in the word list to a value obtained by adding the number of extracted words from the selected sentence. Update.

抽出部12は、ステップS210において選択した文が、文書データに含まれるテキストデータの最後の文ではないと判断した場合(ステップS230:NO)、ステップS210からの処理を繰り返す。
そして、抽出部12は、ステップS210においてした文が、文書データに含まれるテキストデータの最後の文であると判断した場合(ステップS230:YES)、処理を終了する。
When the extraction unit 12 determines that the sentence selected in step S210 is not the last sentence of the text data included in the document data (step S230: NO), the extraction unit 12 repeats the process from step S210.
If the extraction unit 12 determines that the sentence in step S210 is the last sentence of the text data included in the document data (step S230: YES), the extraction unit 12 ends the process.

図6は、主題語抽出装置1の第一重要度要素算出処理を示すフローチャートである。同図に示す第一重要度要素算出処理は、図3のステップS125の詳細な処理である。
関係語取得部13は、変数iに初期値1を設定する(ステップS310)。関係語取得部13は、単語リストに設定されているi番目の単語Aiを選択する(ステップS315)。関係語取得部13は、単語Aiの関係語Bi1、Bi2、…、Binを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS320)。関係語取得部13は、取得した関係語Bi1、Bi2、…、Binのうち単語リストに単語Aとして出現する関係語Biの数を計数し、第一重要度要素V1−iとする(ステップS325)。
なお、関係語取得部13は、関係語Bi1、Bi2、…、Binのそれぞれが文書データに出現する延べ回数を合計し、第一重要度要素V1−iとしてもよい。延べ回数を合計して第一重要度要素V1−iとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、関係語取得部13は、関係語Bi1、Bi2、…、Binのうち、単語リストに単語Aとして出現する関係語Biについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない関係語Biについては出現頻度を「0」とする。関係語取得部13は、関係語Bi1、Bi2、…、Binそれぞれの出現頻度を合計し、単語Aiの第一重要度要素V1−iとする。
また、ステップS320において関係語Biを取得できなかった場合、関係語取得部13は、第一重要度要素V1−iを「0」とする。
関係語取得部13は、ステップS325において得た第一重要度要素V1−iを単語Aiと対応付けて単語リストに設定する(ステップS330)。
FIG. 6 is a flowchart showing the first importance factor calculation process of the subject word extraction device 1. The first importance factor calculation process shown in the figure is a detailed process of step S125 of FIG.
The related word acquisition unit 13 sets an initial value 1 to the variable i (step S310). The related word acquisition unit 13 selects the i-th word Ai set in the word list (step S315). The relationship word acquisition unit 13, relational terms Bi1 word Ai, Bi2, ..., the Bin i is related word dictionary storing unit 3 acquires from the relation dictionary data stored (step S320). The relationship word acquisition unit 13, the acquired relational terms Bi1, Bi2, ..., to count the number of relational terms Bi appear as word A in the word list of the Bin i, the first importance elements V1-i (step S325).
Incidentally, the relationship word acquisition unit 13, relational terms Bi1, Bi2, ..., each Bin i is the sum of the total number of occurrences in the document data may be first importance elements V1-i. When totaling the total number of times to obtain the first importance factor V1-i, the extraction unit 12 records the appearance frequency of the word A in the word list in step S225 of FIG. Then, the relationship between language acquisition unit 13, relational terms Bi1, Bi2, ..., Bin of the i, about the relationship between language Bi that appear as a word A in the word list to get its frequency of occurrence from the word list, the word A in the word list As for the related word Bi that does not appear as, the appearance frequency is set to “0”. The relationship word acquisition unit 13, relational terms Bi1, Bi2, ..., and the total frequency of occurrence of Bin i, respectively, and the first importance elements V1-i of the word Ai.
When the related word Bi cannot be acquired in step S320, the related word acquiring unit 13 sets the first importance factor element V1-i to “0”.
The related word acquisition unit 13 associates the first importance element V1-i obtained in step S325 with the word Ai and sets it in the word list (step S330).

関係語取得部13は、単語リストに設定されている単語Aを全て選択していないと判断した場合(ステップS335:NO)、変数iに1を加算してステップS315からの処理を繰り返す(ステップS340)。
そして、関係語取得部13は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS335:YES)、処理を終了する。
When the related word acquisition unit 13 determines that all the words A set in the word list have not been selected (step S335: NO), 1 is added to the variable i and the processing from step S315 is repeated (step S315). S340).
If the related word acquisition unit 13 determines that all the words A set in the word list have been selected (step S335: YES), the related word acquisition unit 13 ends the process.

図7は、主題語抽出装置1の第二重要度要素算出処理を示すフローチャートである。同図に示す第二重要度要素算出処理は、図3のステップS130の詳細な処理である。
間接関係語取得部14は、変数iに初期値1を設定する(ステップS410)。間接関係語取得部14は、単語リストに設定されているi番目の単語Aiを選択する(ステップS415)。間接関係語取得部14は、単語Aiのそれぞれの関係語Bi1、Bi2、…、Binを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS420)。なお、間接関係語取得部14は、図6のステップS320において関係語取得部13が取得した関係語Bi1、Bi2、…、Binを取得してもよい。
FIG. 7 is a flowchart showing the second importance level element calculation process of the subject word extraction device 1. The second importance factor calculation process shown in the figure is a detailed process of step S130 of FIG.
The indirect related word acquisition unit 14 sets an initial value 1 to the variable i (step S410). The indirectly related word acquisition unit 14 selects the i-th word Ai set in the word list (step S415). Indirect relationship word acquisition unit 14, each of relational terms Bi1, Bi2 word Ai, ..., the Bin i is related word dictionary storing unit 3 acquires from the relation dictionary data stored (step S420). Overhead relationship word acquisition unit 14, relational terms Bi1 relationship word acquisition unit 13 has acquired in the step S320 of FIG. 6, Bi2, ..., it may obtain the Bin i.

間接関係語取得部14は、変数jに初期値1を設定する(ステップS425)。間接関係語取得部14は、関係語Bijの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得し、単語Aiの間接関係語Cij1、Cij2、…、Cijkijとする(ステップS430)。 The indirect related word acquisition unit 14 sets an initial value 1 to the variable j (step S425). The indirect related word acquisition unit 14 acquires the related words of the related word Bij from the related word dictionary data stored in the related word dictionary storage device 3, and sets the indirect related words Cij1, Cij2, ..., Cijk ij of the word Ai. (Step S430).

間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijの数を、関係語Bijに関する第二重要度部分要素V2−i−jとする(ステップS435)。
なお、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのそれぞれが文書データに出現する延べ回数を合計し、第二重要度部分要素V2−i−jとしてもよい。延べ回数を合計して第二重要度部分要素V2−i−jとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない間接関係語Cijについては出現頻度を「0」とする。間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijそれぞれの出現頻度を合計し、単語Aiの第二重要度部分要素V2−i−jとする。
また、ステップS430において間接関係語Cijを取得できなかった場合、間接関係語取得部14は、単語Aiの第二重要度部分要素V2−i−jを「0」とする。
The indirect related word acquisition unit 14 calculates the number of indirect related words Cij that appear as the word A in the word list among the indirect related words Cij1, Cij2,..., Cijk ij , and the second importance degree subelement V2- related to the related word Bij. i−j (step S435).
Note that the indirect related word acquisition unit 14 may add up the total number of times each of the indirect related words Cij1, Cij2,..., Cijk ij appears in the document data to obtain the second importance subelement V2-ij. When totaling the total number of times to obtain the second importance subelement V2-ij, the extraction unit 12 records the appearance frequency of the word A in the word list in step S225 of FIG. Then, the indirect related word acquisition unit 14 acquires the appearance frequency of the indirect related words Cij that appear as the word A in the word list from the word list among the indirect related words Cij1, Cij2, ..., Cijk ij. For the indirectly related word Cij that does not appear as the word A, the appearance frequency is set to “0”. The indirect related word acquisition unit 14 sums up the appearance frequencies of the indirect related words Cij1, Cij2,..., Cijk ij to obtain the second importance subelement V2- ij of the word Ai.
When the indirect related word Cij cannot be acquired in step S430, the indirect related word acquiring unit 14 sets the second importance subelement V2-ij of the word Ai to “0”.

間接関係語取得部14は、変数jがn未満であり、ステップS420において取得した関係語Bi1、Bi2、…、Binの全てをまだ選択していないと判断した場合(ステップS440:NO)、変数jに1を加算してステップS430からの処理を繰り返す(ステップS445)。
そして、間接関係語取得部14は、変数jがnに達し、ステップS420において取得した関係語Bi1、Bi2、…、Binの全てを選択したと判断した場合(ステップS440:NO)、ステップS450の処理を実行する。つまり、間接関係語取得部14は、単語Aiの関係語Bi1〜BinのそれぞれについてステップS435において得た第二重要度部分要素V2−i−1〜V2−i−nを合計し、単語Aiの第二重要度要素V2−iを算出する(ステップS450)。間接関係語取得部14は、ステップS450において得た第二重要度要素V2−iを単語Aiと対応付けて単語リストに設定する(ステップS455)。
Indirect relationship word acquisition unit 14, the variable j is less than n i, relational terms Bi1 acquired in step S420, Bi2, ..., if it is determined that no already selected all the Bin i (step S440: NO) , 1 is added to the variable j, and the processing from step S430 is repeated (step S445).
The indirect relationship word acquisition unit 14, the variable j reaches n i, relational terms Bi1 acquired in step S420, Bi2, ..., when it is determined that selects all Bin i (step S440: NO), step The process of S450 is executed. In other words, the indirect relation word acquisition unit 14 sums the second importance subelements V2-i-1~V2-i- n i obtained in step S435 for each relational terms Bi1~Bin i word Ai, word A second importance factor V2-i of Ai is calculated (step S450). The indirect related word acquisition unit 14 sets the second importance element V2-i obtained in step S450 in the word list in association with the word Ai (step S455).

間接関係語取得部14は、単語リストに設定されている単語Aを全て選択していないと判断した場合(ステップS460:NO)、変数iに1を加算してステップS415からの処理を繰り返す(ステップS465)。
なお、ステップS420において関係語Biを取得できなかった場合、間接関係語取得部14は、第二重要度要素V2−iを「0」とし、ステップS455からの処理を行う。
そして、間接関係語取得部14は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS460:YES)、処理を終了する。
If it is determined that the word A set in the word list has not been selected (step S460: NO), the indirect related word acquisition unit 14 adds 1 to the variable i and repeats the processing from step S415 ( Step S465).
If the related word Bi cannot be acquired in step S420, the indirect related word acquisition unit 14 sets the second importance element V2-i to “0” and performs the processing from step S455.
If the indirect related word acquisition unit 14 determines that all the words A set in the word list have been selected (step S460: YES), the process ends.

図7の処理の後、図3のステップS135からの処理が実行される。つまり、重要度算出部15は、単語リストに設定されている各単語Aの重要度Vを、第一重要度要素V1及び第二重要度要素V2を用いて算出し、単語リストに設定する(ステップS135)。選択部16は、単語リストに設定されている単語Aの中から重要度Vに基づいて主題語を選択し(ステップS140)、出力する(ステップS145)。   After the process of FIG. 7, the process from step S135 of FIG. 3 is executed. That is, the importance calculation unit 15 calculates the importance V of each word A set in the word list using the first importance element V1 and the second importance element V2, and sets the importance V in the word list ( Step S135). The selection unit 16 selects a subject word based on the importance V from the words A set in the word list (step S140) and outputs the subject word (step S145).

続いて、主題語抽出装置1の主題語抽出処理を、具体例を用いて説明する。
図8は、文書データの例を示す図である。主題語抽出装置1の抽出部12は、ステップS110において入力部11が受けた文書データの中から、図8に示す文書データDを選択する。抽出部12は、文書データDに含まれる文章から名詞の単語を抽出する。
Next, the subject word extraction process of the subject word extraction device 1 will be described using a specific example.
FIG. 8 is a diagram illustrating an example of document data. The extraction unit 12 of the subject word extraction device 1 selects the document data D shown in FIG. 8 from the document data received by the input unit 11 in step S110. The extraction unit 12 extracts a noun word from a sentence included in the document data D.

図9は、抽出部12が文書データDから抽出した単語を示す図である。同図には、抽出した各単語が文書データDに出現する頻度についても示している。抽出部12は、図9に示す名詞の単語「肩こり」、「解消」、「方法」、「体」、…を、単語Aとして設定した単語リストを生成する。   FIG. 9 is a diagram illustrating words extracted from the document data D by the extraction unit 12. In the figure, the frequency at which each extracted word appears in the document data D is also shown. The extraction unit 12 generates a word list in which the noun words “stiff shoulder”, “elimination”, “method”, “body”,... Shown in FIG.

図10は、関係語辞書記憶装置3が記憶している関係語辞書データの例を示す図である。関係語取得部13は、図10に示す関係語辞書データを参照して各単語Aの関係語Bを取得し、単語Aの関係語Bが単語リストに出現する数(または単語Aの関係語Bが文書データに出現する延べ回数)を第一重要度要素V1として単語リストに設定する。また、間接関係語取得部14は、関係語辞書データを参照して各単語Aの間接関係語Cを取得し、間接関係語Cが単語リストに出現する数(または単語Aの間接関係語Cが文書データに出現する延べ回数)を第二重要度要素V2として単語リストに設定する。   FIG. 10 is a diagram illustrating an example of related word dictionary data stored in the related word dictionary storage device 3. The related word acquisition unit 13 acquires the related word B of each word A with reference to the related word dictionary data shown in FIG. 10, and the number of related words B of the word A appearing in the word list (or related words of the word A) (Total number of times B appears in the document data) is set in the word list as the first importance factor V1. Further, the indirect related word acquisition unit 14 refers to the related word dictionary data to acquire the indirect related word C of each word A, and the number of indirect related words C appearing in the word list (or the indirect related word C of the word A). Is set in the word list as the second importance factor V2.

図11は、単語リストに単語Aの関係語B及び間接関係語Cを追加した図である。
同図に示すように、単語A「肩こり」については、図10に示す関係語辞書データから関係語B「体操」、「温熱」、…が得られる。関係語Bの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の関係語B「体操」、「温熱」、…のうち、単語リストに出現するのは「体操」のみであるため、第一重要度要素V1は「1」となる。
FIG. 11 is a diagram in which the related word B and the indirect related word C of the word A are added to the word list.
As shown in the figure, for the word A “stiff shoulder”, the related words B “gymnastics”, “heat”,... Are obtained from the related word dictionary data shown in FIG. (O) described after the related word B indicates that it appears in the word list, and (X) indicates that it does not appear in the word list. Of the related words B “Gymnastic”, “Heat”,... Of the word A “Stiff shoulder”, only “Gymnastic” appears in the word list, so the first importance factor V1 is “1”.

また、単語A「肩こり」の関係語B「体操」については、関係語辞書データから関係語「肩こり」、…が得られる。また、単語Aの関係語B「温熱」については、関係語辞書データから関係語「肩こり」、「温泉」、「生姜」、…が得られる。関係語Bについて得られた関係語のうち、単語A「肩こり」と一致する関係語は間接関係語Cから除外される。よって、単語A「肩こり」の間接関係語Cとして、「温泉」、「生姜」、…が得られる。間接関係語Cの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の間接関係語C「温泉」、「生姜」、…のうち、単語リストに出現するのは「温泉」、「生姜」の2つであるため、第二重要度要素V2は「2」となる。
単語A「肩こり」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
For the related word B “gymnastics” of the word A “stiff shoulder”, the related words “stiff shoulder”,... Are obtained from the related word dictionary data. For the related word B “warmth” of the word A, the related words “stiff shoulder”, “hot spring”, “ginger”,... Are obtained from the related word dictionary data. Among the related words obtained for the related word B, the related word that matches the word A “stiff shoulder” is excluded from the indirect related word C. Therefore, “hot spring”, “ginger”,... Are obtained as the indirect relation word C of the word A “stiff shoulder”. (◯) described after the indirect relation word C indicates that it appears in the word list, and (×) indicates that it does not appear in the word list. Among the indirect relation words C “hot spring”, “ginger”,... Of the word A “stiff shoulder”, two words “hot spring” and “ginger” appear in the word list, so the second importance factor V2 is “2”.
The importance V of the word A “stiff shoulder” is calculated as 1.5 (= 0.5 × 1 + 0.5 × 2) based on the formula (1).

同様に、単語A「温泉」については、関係語B「リラックス」、「温熱」、…が得られ、単語リストには「リラックス」のみが出現するため、第一重要度要素V1は「1」となる。また、単語A「温泉」については、間接関係語C「生姜」、…が得られ、単語リストには「生姜」のみが出現するため、第二重要度要素V2は「1」となる。単語A「温泉」の重要度Vは、式(1)に基づいて、1.0(=0.5×1+0.5×1)と算出される。   Similarly, for the word A “hot spring”, the related words B “relax”, “heat”,... Are obtained, and only “relax” appears in the word list, so the first importance factor V1 is “1”. It becomes. For the word A “hot spring”, the indirect relation word C “ginger”,... Is obtained, and only “ginger” appears in the word list, so the second importance factor V2 is “1”. The importance level V of the word A “hot spring” is calculated as 1.0 (= 0.5 × 1 + 0.5 × 1) based on the formula (1).

また、単語A「リラックス」の関係語Bのうち「温泉」のみが単語リストに出現するため、第一重要度要素V1は「1」となる。また、単語A「リラックス」の間接関係語Cはいずれも単語リストに出現しないため、第二重要度要素V2は「0」となる。単語A「リラックス」の重要度Vは、式(1)に基づいて、0.5(=0.5×1+0.5×0)と算出される。   Moreover, since only “hot spring” appears in the word list among the related words B of the word A “relax”, the first importance factor V1 is “1”. Further, since none of the indirectly related words C of the word A “relax” appears in the word list, the second importance factor V2 is “0”. The importance level V of the word A “relax” is calculated as 0.5 (= 0.5 × 1 + 0.5 × 0) based on the formula (1).

また、単語A「生姜」の関係語Bのうち「料理」のみが単語リストに出現するため、第一重要度要素V1は「1」となる。また、単語A「生姜」の間接関係語Cのうち「温泉」のみが単語リストに出現するため、第二重要度要素V2は「1」となる。単語A「生姜」の重要度Vは、式(1)に基づいて、1.0(=0.5×1+0.5×1)と算出される。   In addition, since only “cooking” appears in the word list among the related words B of the word A “ginger”, the first importance factor V1 is “1”. Further, since only “hot spring” of the indirect relation word C of the word A “ginger” appears in the word list, the second importance factor V2 is “1”. The importance V of the word A “ginger” is calculated as 1.0 (= 0.5 × 1 + 0.5 × 1) based on the equation (1).

なお、関係語B、間接関係語Cが文書データに出現した延べ回数をそれぞれ第一重要度要素V1、第二重要度要素V2とする場合、図9に示す各単語Aの出現頻度を単語リストに設定しておく。
そして、単語A「肩こり」の場合、関係語Bのうち「体操」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「肩こり」の間接関係語Cのうち「温泉」の出現頻度が「2」、「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「4」となる。よって、単語A「肩こり」の重要度Vは、式(1)に基づいて、2.5(=0.5×1+0.5×4)と算出される。
同様に、単語A「温泉」の場合、関係語Bのうち「リラックス」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「温泉」の間接関係語Cのうち「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「2」となる。よって、単語A「温泉」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
When the total number of times that the related word B and the indirect related word C appear in the document data is the first importance element V1 and the second importance element V2, respectively, the appearance frequency of each word A shown in FIG. Set to.
In the case of the word A “Stiff shoulder”, the appearance frequency of “Gymnastic” among the related words B is “1” and the appearance frequency of the other related words B is “0”. “1”. In addition, among the indirect related words C of the word A “stiff shoulder”, the appearance frequency of “hot spring” is “2”, the appearance frequency of “ginger” is “2”, and the appearance frequency of other indirect related words C is “0”. Therefore, the second importance factor V2 is “4”. Therefore, the importance V of the word A “stiff shoulder” is calculated as 2.5 (= 0.5 × 1 + 0.5 × 4) based on the equation (1).
Similarly, in the case of the word A “hot spring”, the appearance frequency of “relaxed” among the related words B is “1” and the appearance frequency of the other related words B is “0”. Becomes “1”. Moreover, since the appearance frequency of “ginger” is “2” and the appearance frequency of other indirect relation words C is “0” among the indirect relation words C of the word A “hot spring”, the second importance factor V2 Becomes “2”. Therefore, the importance level V of the word A “hot spring” is calculated as 1.5 (= 0.5 × 1 + 0.5 × 2) based on the formula (1).

上記のように各単語Aの重要度を算出した結果、単語A「肩こり」の重要度Vが最も高くなる。選択部16は、最も高い重要度Vの単語A「肩こり」を主題語として選択する。
なお、式(1)における係数uの値は、学習用の文書データについて係数uを変化させながら主題語抽出を行い、人手により抽出した主題語と適合する確率が高いときの係数uの値に基づいて決定する。
As a result of calculating the importance of each word A as described above, the importance V of the word A “stiff shoulder” is the highest. The selection unit 16 selects the word A “stiff shoulder” having the highest importance V as the subject word.
Note that the value of the coefficient u in the equation (1) is the value of the coefficient u when the subject word is extracted while changing the coefficient u for the document data for learning, and the probability of matching with the manually extracted subject word is high. Determine based on.

文書データDの主題語は「肩こり」であるが、文書データ群が文書データDのみからなるという条件でtf−idfを計算した場合、図9に示すように出現頻度が最も高い単語「有効」が主題語として選択されてしまう。
また、関係語辞書データを参照して、文書内の単語同士に直接関係が得られた場合に重みを付ける従来技術もあるが、直接関係のある単語対が全て含まれる関係語辞書データは現実的には存在しがたい。関係語辞書データに「生姜 [食材] 料理]、「温泉 [有効] リラックス」、「肩こり [対処法] 体操」のような2単語間の関係しか登録されていない場合、「肩こり」の重みはさほど大きくならないことが考えられる。
本実施形態の主題語抽出装置1は、文書データから抽出した単語の重要度を、直接関係する単語が文書データに出現する数に加え、間に他の単語をはさんで間接的に関係する単語が文書データに出現する数を用いて重要度を算出する。このように算出した重要度を用いることにより、主題語抽出装置1は、文書データに出現する単語の中から、主題語として適切な単語を抽出することができる。
Although the subject word of the document data D is “stiff shoulder”, when tf-idf is calculated under the condition that the document data group consists only of the document data D, the word “valid” having the highest appearance frequency as shown in FIG. Is selected as the subject word.
In addition, there is a conventional technique that refers to related word dictionary data and assigns a weight when a direct relationship is obtained between words in a document, but related word dictionary data that includes all directly related word pairs is actually It ’s hard to exist. If the relation word dictionary data contains only the relationship between two words, such as “ginger [food] cooking”, “hot spring [effective] relaxation”, and “shoulder stiffness [measure] gymnastics”, the weight of “stiff shoulder” is It is possible that it will not be so large.
The subject word extraction device 1 of the present embodiment adds the importance of words extracted from document data to the number of directly related words appearing in the document data, and is indirectly related with other words in between. Importance is calculated using the number of words that appear in the document data. By using the importance calculated in this way, the subject word extraction apparatus 1 can extract a word suitable as a subject word from words appearing in the document data.

なお、選択部16は、tf−idfなどの頻度情報を組み合わせて、単語Aの中から主題を抽出してもよい。例えば、選択部16は、tf−idf値が所定よりも高い単語Aのうち、重要度Vが所定条件を満たす単語Aを主題語として抽出する。tf−idf値が所定よりも高い単語Aとは、tf−idf値が所定値以上の単語A、tf−idf値が高いものから所定数の単語A、などとすることができる。あるいは、選択部16は、重要度Vが所定条件を満たす単語Aのうち、tf−idf値が最も高いものから所定数の単語Aを主題語として抽出してもよい。   Note that the selection unit 16 may extract the subject from the word A by combining frequency information such as tf-idf. For example, the selection unit 16 extracts, from the words A having a tf-idf value higher than a predetermined value, a word A whose importance V satisfies a predetermined condition as a subject word. The word A having a tf-idf value higher than a predetermined value can be a word A having a tf-idf value equal to or higher than a predetermined value, a word A having a high tf-idf value to a predetermined number of words A, or the like. Alternatively, the selection unit 16 may extract a predetermined number of words A as subject words from words A having the highest tf-idf value among the words A whose importance level V satisfies the predetermined condition.

また、関係語取得部13は、単語Aの第一重要度要素V1を関係語Bが単語リストに出現する数とする場合、所定の分野に属する関係語Bについては、出現数に1より大きな値の係数を乗算してもよい。
例えば、単語Aiの関係語Bi1、Bi2、…、Binであり、単語リストには、関係語Bi1、Bi2、Bi3が出現し、関係語Bi4〜Binは出現しないとする。関係語Bi1及びBi2が所定の分野に属する単語である場合、関係語Bi1及びBi2についてはそれぞれ1×a(a>1)回と計数する。よって、単語Aiの第一重要度要素V1−iは、2×a+1となる。
同様に、間接関係語取得部14は、単語Aの第二重要度要素V2を間接関係語Cが単語リストに出現する数とする場合、所定の分野に属する間接関係語Cについては出現数に1より大きな値の係数を乗算してもよい。
In addition, when the related word acquisition unit 13 sets the first importance element V1 of the word A as the number of occurrences of the related word B in the word list, the related word B belonging to the predetermined field has an appearance count larger than 1. You may multiply by a value coefficient.
For example, the relationship of the word Ai Bi1, Bi2, ..., is the Bin i, in the word list, the emergence of relational terms Bi1, Bi2, Bi3, the relationship between language Bi4~Bin i and does not appear. When the related words Bi1 and Bi2 are words belonging to a predetermined field, the related words Bi1 and Bi2 are counted as 1 × a (a> 1) times. Accordingly, the first importance factor V1-i of the word Ai is 2 × a + 1.
Similarly, when the indirectly related word acquisition unit 14 sets the second importance element V2 of the word A as the number of occurrences of the indirectly related word C in the word list, the indirect related word C belonging to the predetermined field is set to the number of appearances. You may multiply by a coefficient larger than one.

また、関係語取得部13は、単語Aの第一重要度要素V1を文書データにおける各関係語Bの出現頻度の合計とする場合、所定の分野に属する関係語Bについては、出現頻度に1より大きな値の係数を乗算してもよい。例えば、単語Aiの関係語Bi1、Bi2、…、Binであり、文書データには、関係語Bi1が2回、関係語Bi2が3回出現し、関係語Bi3〜Binは出現しないとする。関係語Bi1が所定の分野に属する単語である場合、関係語Bi1の出現頻度「2」には係数a(a>1)を乗算する。よって、単語Aiの第一重要度要素V1−iは、関係語Bi1の出現頻度「2」×係数a+関係語Bi2の出現頻度「3」となる。
同様に、関係語取得部13は、単語Aの第二重要度要素V2を文書データにおける各間接関係語Cの出現頻度の合計とする場合、所定の分野に属する間接関係語Cについては、出現頻度に1より大きな値の係数を乗算してもよい。
In addition, when the related word acquisition unit 13 sets the first importance element V1 of the word A as the sum of the appearance frequencies of the related words B in the document data, the related word B belonging to the predetermined field has an appearance frequency of 1 You may multiply by the coefficient of a bigger value. For example, the relationship of the word Ai Bi1, Bi2, ..., is the Bin i, the document data, relational terms Bi1 twice, appeared relational terms Bi2 three times, the relationship between language Bi3~Bin i do not appear . When the related word Bi1 is a word belonging to a predetermined field, the appearance frequency “2” of the related word Bi1 is multiplied by a coefficient a (a> 1). Therefore, the first importance level element V1-i of the word Ai is the appearance frequency “2” of the related word Bi1 × the coefficient a + the appearance frequency “3” of the related word Bi2.
Similarly, when the related word acquisition unit 13 sets the second importance element V2 of the word A as the sum of the appearance frequencies of the indirect related words C in the document data, the related word C belonging to a predetermined field appears. The frequency may be multiplied by a coefficient greater than 1.

また、間接関係語取得部14は、単語Aの間接関係語Cに関係する関係語を関係語辞書データから読み出して、単語Aの間接関係語とする処理をm回(mは1以上の整数)繰り返してもよい。間接関係語Cに関係する関係語を間接関係語E1、間接関係語E1に関係する関係語を間接関係語E2、…とする。重要度算出部15は、単語Aの関係語Bが文書データに出現する数V1、単語Aの間接関係語Cが文書データに出現する数V2、単語Aの間接関係語E1が文書データに出現する数V3、単語Aの間接関係語E2が文書データに出現する数V4、…のそれぞれに所定の重み付け係数を乗算した後に加算して、単語Aの重要度を算出する。なお、V1の重み付け係数>V2の重み付け係数>V3の重み付け係数>V4の重み付け係数、…とする。   The indirect related word acquisition unit 14 reads a related word related to the indirect related word C of the word A from the related word dictionary data and sets the indirect related word of the word A m times (m is an integer of 1 or more). ) You may repeat. A related word related to the indirect related word C is an indirect related word E1, a related word related to the indirect related word E1 is an indirect related word E2,. The importance calculation unit 15 includes the number V1 of the related word B of the word A that appears in the document data, the number V2 of the indirect related word C of the word A that appears in the document data, and the indirect related word E1 of the word A that appears in the document data. The number V3 and the number V4 of the indirectly related word E2 of the word A appearing in the document data are multiplied by a predetermined weighting coefficient and then added to calculate the importance of the word A. Note that the weighting coefficient of V1> the weighting coefficient of V2> the weighting coefficient of V3> the weighting coefficient of V4, and so on.

上述した実施形態によれば、主題語抽出装置1は、文書データに出現する単語同士の関係を用いることにより、話題性を考慮した単語を文書データから抽出することができる。この単語同士の関係には、直接の関係がある単語だけではなく、間接的に関係する単語の関係までが用いられる。従って、文書データに出現する単語同士が、関係語辞書データに直接関係する単語として登録されていなくても、文書データ中の他の単語と関係を多く有する単語に高い重要度を与え、主題語にふさわしい単語を抽出することができる。このように主題語抽出装置1が文書データから抽出した主題語は、文書から情報を抽出したり、文書を要約したり、文書データに関連するコンテンツを推薦したりするために利用可能である。   According to the above-described embodiment, the subject word extraction device 1 can extract words taking into account topicality from document data by using the relationship between words appearing in the document data. For the relationship between the words, not only the directly related words but also indirectly related words are used. Accordingly, even if words appearing in the document data are not registered as words directly related to the related word dictionary data, a word having a high degree of importance is given to a word having a lot of relations with other words in the document data, and the subject word The word suitable for can be extracted. Thus, the subject word extracted from the document data by the subject word extracting apparatus 1 can be used for extracting information from the document, summarizing the document, or recommending content related to the document data.

上述した主題語抽出装置1は、内部にコンピュータシステムを有している。そして、主題語抽出装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。   The subject word extraction device 1 described above has a computer system therein. The process of the operation of the subject word extraction device 1 is stored in a computer-readable recording medium in the form of a program, and the above-described processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a portable dictionary such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a conceptual dictionary storage unit such as a hard disk built in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

1 主題語抽出装置
11 入力部
12 抽出部
13 関係語取得部
14 間接関係語取得部
15 重要度算出部
16 選択部
3 関係語辞書記憶装置
DESCRIPTION OF SYMBOLS 1 Subject word extraction apparatus 11 Input part 12 Extraction part 13 Relation word acquisition part 14 Indirect relation word acquisition part 15 Importance calculation part 16 Selection part 3 Relation word dictionary memory | storage device

Claims (5)

文書データから単語を抽出する抽出部と、
関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、
前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、
前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、
前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、
を備えることを特徴とする主題語抽出装置。
An extraction unit for extracting words from document data;
A related word acquisition unit that acquires, as related words, other words related to the word extracted by the extraction unit from related word dictionary data in which a plurality of related words are described in association with each other;
An indirect related word acquisition unit that acquires other words related to the related word as indirect related words from the related word dictionary data;
For each of the words extracted by the extraction unit, based on the number of the related words of the word that appear in the document data and the number of the indirect related words of the word that appear in the document data. An importance calculation unit for calculating importance that quantitatively represents importance,
A selection unit that selects a word representing a subject based on the importance calculated by the importance calculation unit from the words extracted by the extraction unit;
A subject word extraction apparatus comprising:
前記抽出部は、前記文書データに含まれる所定の品詞の単語を抽出する、
ことを特徴とする請求項1に記載の主題語抽出装置。
The extraction unit extracts a word of a predetermined part of speech included in the document data;
The subject word extraction device according to claim 1.
前記重要度算出部は、前記抽出部が抽出した前記単語の重要度を、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とのそれぞれに重み付けした結果を加算して算出する、
ことを特徴とする請求項1または請求項2のいずれか1項に記載の主題語抽出装置。
The importance calculator calculates the importance of the word extracted by the extraction unit, the number of the related words of the word appearing in the document data, and the indirect related word of the word appearing in the document data. Calculate by adding the weighted result to each number.
The subject word extraction device according to claim 1, wherein the subject word extraction device is a feature word extraction device.
前記間接関係語取得部は、前記関係語辞書データから前記間接関係語と関係する他の単語を間接関係語として取得する処理を所定回繰り返す、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の主題語抽出装置。
The indirect related word acquisition unit repeats a process of acquiring other words related to the indirect related word as indirect related words from the related word dictionary data a predetermined number of times.
The subject word extraction device according to any one of claims 1 to 3, wherein:
コンピュータを、
文書データから単語を抽出する抽出手段と、
関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、
前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、
前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、
前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、
を具備する主題語抽出装置として機能させるためのプログラム。
Computer
Extraction means for extracting words from document data;
A related word acquisition unit that acquires, as related words, other words related to the word extracted by the extraction unit, from related word dictionary data in which a plurality of related words are described in association with each other;
Indirect related word acquisition means for acquiring other words related to the related word as indirect related words from the related word dictionary data;
For each of the words extracted by the extraction means, based on the number of occurrences of the related word of the word in the document data and the number of occurrences of the indirect related word of the word in the document data. Importance calculation means for calculating importance that quantitatively represents importance,
A selecting unit that selects a word representing a subject based on the importance calculated by the importance calculating unit from the words extracted by the extracting unit;
A program for causing a function to function as a subject word extraction device.
JP2014263083A 2014-12-25 2014-12-25 Subject word extraction device and program Active JP6448128B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014263083A JP6448128B2 (en) 2014-12-25 2014-12-25 Subject word extraction device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014263083A JP6448128B2 (en) 2014-12-25 2014-12-25 Subject word extraction device and program

Publications (2)

Publication Number Publication Date
JP2016122398A true JP2016122398A (en) 2016-07-07
JP6448128B2 JP6448128B2 (en) 2019-01-09

Family

ID=56329040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014263083A Active JP6448128B2 (en) 2014-12-25 2014-12-25 Subject word extraction device and program

Country Status (1)

Country Link
JP (1) JP6448128B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (en) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> Automatic evaluation device for significance of key word
JP2004021763A (en) * 2002-06-19 2004-01-22 Hitachi Ltd Text mining program, method, and device
WO2013172096A1 (en) * 2012-05-18 2013-11-21 ソニー株式会社 Information processing device, information processing method, and program
JP2013242791A (en) * 2012-05-22 2013-12-05 Nippon Hoso Kyokai <Nhk> Subject extraction device and program therefor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112331A (en) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> Automatic evaluation device for significance of key word
JP2004021763A (en) * 2002-06-19 2004-01-22 Hitachi Ltd Text mining program, method, and device
WO2013172096A1 (en) * 2012-05-18 2013-11-21 ソニー株式会社 Information processing device, information processing method, and program
JP2013242791A (en) * 2012-05-22 2013-12-05 Nippon Hoso Kyokai <Nhk> Subject extraction device and program therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岡本 潤,他: ""連想概念辞書の距離情報を用いた重要文の抽出"", 自然言語処理, vol. 第10巻,第6号, JPN6018043589, 10 October 2003 (2003-10-10), pages 139 - 151, ISSN: 0003914595 *

Also Published As

Publication number Publication date
JP6448128B2 (en) 2019-01-09

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
Kien et al. Answering legal questions by learning neural attentive text representation
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
Mei et al. Divrank: the interplay of prestige and diversity in information networks
El-Fishawy et al. Arabic summarization in twitter social network
CN110134792B (en) Text recognition method and device, electronic equipment and storage medium
CN104391842A (en) Translation model establishing method and system
KR101925950B1 (en) Method and device for recommending contents based on inflow keyword and relevant keyword for contents
Baowaly et al. Predicting the helpfulness of game reviews: A case study on the steam store
Back et al. Learning to generate questions by learning to recover answer-containing sentences
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN106933380B (en) A kind of update method and device of dictionary
JP2015132899A (en) Keyword extraction device and program
Rao et al. Taxonomy based personalized news recommendation: Novelty and diversity
Hamzei et al. Templates of generic geographic information for answering where-questions
Chan et al. Learning resource recommendation: An orchestration of Content-based filtering, word semantic similarity and page ranking
JP6448128B2 (en) Subject word extraction device and program
Ali et al. Identifying and Profiling User Interest over time using Social Data
EP2638481A1 (en) Seed set expansion
JP2011180901A (en) Device, method and program for evaluating reusability of experience information
KR101402339B1 (en) System and method of managing document
Saga et al. Measurement evaluation of keyword extraction based on topic coverage
Ali et al. Entity attribute ranking using learning to rank.
JP6188226B2 (en) Related word extraction apparatus and program
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171030

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180906

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181203

R150 Certificate of patent or registration of utility model

Ref document number: 6448128

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250