JP6230190B2 - Important word extraction device and program - Google Patents
Important word extraction device and program Download PDFInfo
- Publication number
- JP6230190B2 JP6230190B2 JP2014002745A JP2014002745A JP6230190B2 JP 6230190 B2 JP6230190 B2 JP 6230190B2 JP 2014002745 A JP2014002745 A JP 2014002745A JP 2014002745 A JP2014002745 A JP 2014002745A JP 6230190 B2 JP6230190 B2 JP 6230190B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- similarity
- unit
- words
- important
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、重要語抽出装置、及びプログラムに関する。 The present invention relates to a keyword extraction device and a program.
文章内の重要な単語を抽出するタスクは重要である。例えば、長い文章中から取り出された重要な単語は、その文章のトピックが何であるかを推定したり、文章を自動要約する際の手がかりを推定したりする場合に使うことができる。 The task of extracting important words in sentences is important. For example, an important word extracted from a long sentence can be used for estimating what the topic of the sentence is or estimating a clue when automatically summarizing the sentence.
文章中から重要単語を抽出するために従来から広く使われている手法では、TF−IDFやokapi BM25により得られた単語ごとの重み設定が用いられる。これらの手法は、「重要単語を抽出したい文章に多く出現し、かつ、他の文章にはあまり出現しない単語」に高い重みを与えるものであり、計算が単純であることや、ある程度の高い性能が得られることから広く利用されている。 Conventionally widely used methods for extracting important words from sentences use weight settings for each word obtained by TF-IDF or okapi BM25. These methods give a high weight to "words that frequently appear in sentences where important words are to be extracted and do not appear so much in other sentences." Is widely used because
また、重要単語を抽出する技術には、ある期間内に現れた単語を集計して得られた出現頻度から「どれだけ汎用的につかわれたか」を表す汎用度を算出し、汎用度が低く、かつ、対象文章中に多く出現した単語を重要単語とするものもある(例えば、特許文献1参照)。重要単語を抽出する他の技術には、多くの発話に共通して現れる単語を手がかりとし、その単語から近い時間に高い頻度で使われる単語を重要単語とするものがある(例えば、特許文献2参照)。
In addition, the technology for extracting important words calculates the degree of versatility that expresses "how widely used" from the appearance frequency obtained by aggregating words that appeared within a certain period, and the degree of versatility is low. In addition, some words that appear frequently in the target sentence are important words (see, for example, Patent Document 1). As another technique for extracting an important word, there is a technique in which a word that appears in common in many utterances is used as a clue, and a word that is frequently used at a time close to the word is used as an important word (for example,
TF−IDFやokapi BM25では、文章中の出現回数のみに基づいて単語の重み設定を行っており、文脈や文章全体の意味を用いていない。従って、文脈に合致した重要語の抽出を行うことはできなかった。また、特許文献1の技術も、出現頻度のみを用いて重要語を抽出しており、文章や単語の意味を考慮していない。特許文献2の技術は、単純に出現回数のみを使うものではないが、やはり、文章や単語の意味を利用していない。
In TF-IDF and okapi BM25, the word weight is set based only on the number of appearances in the sentence, and the context and the meaning of the whole sentence are not used. Therefore, it is impossible to extract important words that match the context. The technique of
本発明は、このような事情を考慮してなされたもので、文章から文脈に合致した重要語を抽出することができる重要語抽出装置、及びプログラムを提供する。 The present invention has been made in consideration of such circumstances, and provides an important word extraction device and a program that can extract an important word that matches a context from a sentence.
本発明の一態様は、文章データから所定の品詞の単語を抽出する単語抽出部と、前記単語抽出部が抽出した前記単語からなる単語ペアを作成する単語ペア作成部と、前記単語ペア作成部が作成した前記単語ペアのそれぞれについて、前記単語ペアを構成する前記単語間の類似度を計算する類似度計算部と、前記単語抽出部が抽出した前記単語毎に、前記単語が含まれる前記単語ペアについて前記類似度計算部が計算した前記類似度に基づくスコアを算出する類似度集計部と、前記類似度集計部が算出した前記単語それぞれの前記スコアに基づいて、前記単語抽出部が抽出した前記単語の中から重要語を選択する重要語選択部と、を備えることを特徴とする重要語抽出装置である。
この発明によれば、重要語抽出装置は、文章データから所定の品詞の単語を抽出し、抽出した単語から作成した単語ペアそれぞれについて単語間の類似度を計算する。重要語抽出装置は、各単語のスコアを、その単語が含まれる単語ペアの類似度に基づいて算出し、算出したスコアに従って重要語を選択する。
これにより、重要語抽出装置は、文章全体で使用されている他の単語との関連が高い単語を重要語として抽出するため、文脈や文章の意味を用いて重要語やトピックワードを抽出することができる。
One aspect of the present invention includes a word extraction unit that extracts a word having a predetermined part of speech from sentence data, a word pair creation unit that creates a word pair composed of the words extracted by the word extraction unit, and the word pair creation unit For each of the word pairs created by, the similarity calculation unit that calculates the similarity between the words constituting the word pair, and the word that includes the word for each word extracted by the word extraction unit The word extraction unit extracts the similarity based on the similarity calculated by the similarity calculation unit for the pair and the score of each of the words calculated by the similarity calculation unit. An important word extraction apparatus comprising: an important word selection unit that selects an important word from the words.
According to this invention, the keyword extraction device extracts a word with a predetermined part of speech from sentence data, and calculates the similarity between words for each word pair created from the extracted word. The keyword extraction device calculates the score of each word based on the similarity of the word pair including the word, and selects the keyword according to the calculated score.
As a result, the important word extraction device extracts important words and topic words using the meaning of the context and sentence in order to extract words that are highly related to other words used in the whole sentence as important words. Can do.
本発明の一態様は、上述する重要語抽出装置であって、前記単語抽出部は、前記文章データから品詞が名詞の単語を抽出する、ことを特徴とする。
この発明によれば、重要語抽出装置は、文章データから名詞を抽出し、抽出した名詞のうち、文章中の他の名詞と関連が高い名詞を選択する。
これにより、重要語抽出装置は、トピックワードとしてわかりやすい単語を重要語として抽出することができる。
One aspect of the present invention is the key word extraction device described above, wherein the word extraction unit extracts a word whose part of speech is a noun from the sentence data.
According to this invention, the keyword extraction device extracts nouns from the sentence data, and selects nouns that are highly related to other nouns in the sentence from the extracted nouns.
Thereby, the important word extraction device can extract words that are easy to understand as topic words as important words.
本発明の一態様は、上述する重要語抽出装置であって、前記単語抽出部は、前記文章データから品詞が名詞の単語を抽出し、抽出した前記単語のうち前記文章データ中で隣接する単語を1つの複合名詞とし、前記類似度集計部は、前記単語抽出部が抽出した前記単語及び前記複合名詞をスコア算出対象とし、スコア算出対象の前記単語または前記複合名詞のスコアを、当該スコア算出対象の前記単語、または、当該スコア算出対象の前記複合名詞を構成するいずれかの単語と、他のスコア算出対象の前記単語または他のスコア算出対象の前記複合名詞を構成するいずれかの単語とからなる前記単語ペアそれぞれについて前記類似度計算部が計算した前記類似度に基づいて算出し、前記重要語選択部は、前記類似度集計部が算出したスコアに基づいて前記単語及び前記複合名詞の中から重要語を選択する、ことを特徴とする。
この発明によれば、重要語抽出装置は、文章中から名詞の単語を抽出するとともに、連続する名詞からなる複合名詞を抽出する。重要語抽出装置は、抽出した単語及び複合名詞をスコア算出対象とし、スコア算出対象の単語または複合名詞それぞれのスコアを、当該スコア算出対象の単語、または、当該スコア算出対象の複合名詞を構成するいずれかの単語と、他のスコア算出対象の単語、または、他のスコア算出対象の複合名詞を構成するいずれかの単語とからなる単語ペアの類似度に基づいて算出し、算出したスコアに従って重要語を選択する。
これにより、重要語抽出装置は、複合名詞についても重要語として抽出することができる。
One aspect of the present invention is the above-described important word extraction device, wherein the word extraction unit extracts a word whose part of speech is a noun from the sentence data, and among the extracted words, adjacent words in the sentence data And the similarity totaling unit sets the word extracted by the word extracting unit and the compound noun as a score calculation target, and calculates the score of the word of the score calculation target or the compound noun. The target word, or any word that constitutes the compound noun that is the score calculation target, and any word that constitutes the other score calculation target or the other noun calculation target noun Each of the word pairs is calculated based on the similarity calculated by the similarity calculation unit, and the important word selection unit is based on the score calculated by the similarity totaling unit. There selecting key words among the words and the composite nouns, characterized in that.
According to the present invention, the important word extracting device extracts a noun word from a sentence and extracts a compound noun composed of continuous nouns. The keyword extraction device sets the extracted word and compound noun as score calculation targets, and the score calculation target word or compound noun constitutes the score calculation target word or the score calculation target compound noun. Calculated based on the similarity of a word pair consisting of any word and another score calculation target word or any other word constituting a compound noun for another score calculation target. Select a word.
Thereby, the important word extraction apparatus can extract a compound noun as an important word.
本発明の一態様は、上述する重要語抽出装置であって、前記単語抽出部は、文章データから所定の品詞の単語を抽出し、抽出した前記単語を前記文章データにおける出現数に応じて含んだ単語群を作成し、前記単語ペア作成部は、前記単語抽出部が作成した前記単語群に含まれる前記単語を用いて単語ペアを作成し、前記類似度集計部は、前記単語抽出部が抽出した前記単語それぞれをスコア算出対象とし、スコア算出対象の前記単語のスコアを、当該単語が含まれる前記単語ペアについて前記類似度計算部が計算した前記類似度の平均により算出する、ことを特徴とする。
この発明によれば、重要語抽出装置は、文章データから所定の品詞の単語を抽出し、抽出した単語を文章データにおける出現数に応じて含んだ単語群を作成し、この単語群に含まれる単語を用いて作成した単語ペアの類似度を計算する。重要語抽出装置は、各単語のスコアを、当該単語を含んだ単語ペアについて計算した類似度の平均により算出し、算出したスコアに従って重要語を選択する。
これにより、重要語抽出装置は、文章に出現する回数が多い単語を重要語であると判断しやすくなる。
One aspect of the present invention is the above-described key word extraction device, wherein the word extraction unit extracts a word with a predetermined part of speech from sentence data, and includes the extracted word according to the number of appearances in the sentence data. The word pair creation unit creates a word pair using the words included in the word group created by the word extraction unit, and the similarity tabulation unit Each of the extracted words is set as a score calculation target, and the score of the word of the score calculation target is calculated by an average of the similarities calculated by the similarity calculating unit for the word pair including the word. And
According to this invention, the keyword extraction device extracts a word having a predetermined part of speech from sentence data, creates a word group including the extracted word according to the number of appearances in the sentence data, and is included in the word group. Calculate the similarity of word pairs created using words. The important word extraction device calculates the score of each word based on the average similarity calculated for the word pair including the word, and selects the important word according to the calculated score.
Thereby, the keyword extraction device can easily determine that a word that appears frequently in a sentence is a keyword.
本発明の一態様は、コンピュータを、文章データから所定の品詞の単語を抽出する単語抽出手段と、前記単語抽出手段が抽出した前記単語からなる単語ペアを作成する単語ペア作成手段と、前記単語ペア作成手段が作成した前記単語ペアのそれぞれについて、前記単語ペアを構成する前記単語間の類似度を計算する類似度計算手段と、前記単語抽出手段が抽出した前記単語それぞれをスコア算出対象とし、スコア算出対象の前記単語のスコアを、当該単語が含まれる前記単語ペアについて前記類似度計算手段が計算した前記類似度に基づいて算出する類似度集計手段と、前記類似度集計手段が算出した前記単語それぞれの前記スコアに基づいて、前記単語抽出手段が抽出した前記単語の中から重要語を選択する重要語選択手段と、を具備する重要語抽出装置として機能させるためのプログラムである。 In one aspect of the present invention, the computer includes a word extracting unit that extracts a word having a predetermined part of speech from sentence data, a word pair creating unit that creates a word pair including the word extracted by the word extracting unit, and the word For each of the word pairs created by the pair creation means, similarity calculation means for calculating the similarity between the words constituting the word pair, and each of the words extracted by the word extraction means are score calculation targets, Similarity counting means for calculating the score of the word to be scored based on the similarity calculated by the similarity calculating means for the word pair including the word, and the similarity calculating means Important word selection means for selecting an important word from the words extracted by the word extraction means based on the score of each word. Is a program for functioning as a main word extraction device.
本発明によれば、文章から文脈に合致した重要語を抽出することができる。 According to the present invention, it is possible to extract important words that match a context from a sentence.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
文章の中で重要な単語は、「文全体の内容」を代表する単語である。そこで、本実施形態の重要語抽出装置は、文章に出現する単語の中から、意味的中心に近い単語を選択する。意味的中心に近い単語を求めるために、本実施形態の重要語抽出装置は、重要語となりうる所定の品詞の単語全てを文章から抽出し、抽出した単語を組み合わせた2単語間の類似度を計算する。本実施形態の重要語抽出装置は、単語毎に類似度の平均を算出し、算出した類似度の平均の大小に基づいて、最も文全体の内容に近く、文章のトピックを表す単語を抽出する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
An important word in a sentence is a word representing “the content of the entire sentence”. Therefore, the important word extraction device of the present embodiment selects a word close to the semantic center from words appearing in the sentence. In order to obtain a word close to the semantic center, the important word extraction apparatus of the present embodiment extracts all words having a predetermined part-of-speech that can be important words from sentences, and calculates the similarity between two words obtained by combining the extracted words. calculate. The important word extraction apparatus according to the present embodiment calculates an average of similarity for each word, and extracts a word representing the topic of the sentence that is closest to the content of the entire sentence based on the calculated average of the similarity. .
[第1の実施形態]
図1は、本発明の第1の実施形態による重要語抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。重要語抽出装置1は、コンピュータ装置により実現され、同図に示すように、類似度データベース10、文入力部11、単語抽出部12、単語ペア作成部13、類似度計算部14、類似度集計部15、順位付け部16、重要語選択部17、及び出力部18を備えて構成される。
[First Embodiment]
FIG. 1 is a block diagram showing the configuration of the
類似度データベース10は、単語間の類似度を示す情報を記憶する。文入力部11は、重要語を抽出する対象となる文章データの入力を受ける。単語抽出部12は、文章データから所定の品詞の単語を抽出する。単語ペア作成部13は、単語抽出部12が抽出した単語の全ての組み合わせの単語ペアを作成する。類似度計算部14は、単語ペア作成部13が作成した単語ペアのそれぞれについて、単語ペアを構成する2つの単語間の類似度を計算する。類似度は、2単語間の類似の度合いを定量的に表す値である。類似度集計部15は、単語抽出部12が抽出した単語それぞれを、文章全体の他の単語との関連性を定量的に表すスコアの算出対象とする。類似度集計部15は、スコア算出対象の単語のスコアを、当該単語を含んだ単語ペアについて類似度計算部14が計算した類似度に基づいて算出する。順位付け部16は、単語抽出部12が抽出した単語を、類似度集計部15が算出したスコアの順に並べる。重要語選択部17は、順位付け部16が並べた単語から所定のルールに従って重要語を選択する。出力部18は、重要語選択部17が選択した重要語を出力する。
The
図2は、重要語抽出装置1の重要語抽出処理を示すフローチャートである。
文入力部11は、重要語を抽出する対象となる文章データの入力を受ける(ステップS11)。文章データが示す文章は、1文の文章でもよく、複数の文からなる文章であってもよい。また、文章データが示す文章の長さも任意である。例えば、文章データが示す文章に、番組概要文など数百字程度の文章や、それよりも長いニュース原稿を用いることができる。
FIG. 2 is a flowchart showing the keyword extraction process of the
The
単語抽出部12は、ステップS11において入力された文章データを、従来技術の形態素解析器により形態素解析する。従来技術の形態素解析器として、例えば、MeCabやChaSenなどを用いることができる。単語抽出部12は、形態素解析結果に基づき、文章データが示す文章から品詞が名詞の単語を抽出する(ステップS12)。名詞には、一般名詞(普通名詞や固有名詞)、接尾語、数詞などの分類があるが、単語抽出部12は、一般名詞のみ、一般名詞と所定の分類の名詞、あるいは、固有名詞を除く一般名詞を抽出してもよい。文章データに同一の名詞が複数回出現する場合、単語抽出部12は、出現数に応じてその単語を重複して抽出し、抽出した単語からなる単語群を作成する。文章データが「あすの天気です。あすは全国的に良い天気でしょう。」を示す場合、単語抽出部12は、抽出した名詞の単語「あす」、「天気」、「あす」、「全国」、「天気」からなる単語群を作成する。
The
単語ペア作成部13は、単語抽出部12が作成した単語群中の単語を用いて、全ての組み合わせの単語ペアを作成する(ステップS13)。つまり、単語群が単語w1、w2、…、wn(nは2以上の整数)からなる場合、単語ペア作成部13は、全ての組み合わせの単語ペア(wi,wj)を作成する(i≠j,iは1以上n以下の整数、jは1以上n以下の整数)。例えば上記の例のように、単語抽出部12が、単語「あす」、「天気」、「あす」、「全国」、「天気」からなる単語群を作成したとする。単語ペア作成部13は、単語ペア(あす,天気)、(あす,あす)、(あす,全国)、(あす,天気)、(天気,あす)、(天気,あす)、(天気,全国)、(天気,天気)、(あす,あす)、…を作成する。
The word
類似度計算部14は、単語ペア作成部13が作成した各単語ペアを構成する2つの単語間の類似度を計算する(ステップS14)。ここでは、類似度計算部14は、各単語ペアに含まれる2つの単語間の類似度を類似度データベース10から読み出す。
The
本実施形態では、2つの単語間の類似度にJensen-Shannon Divergenceによる文脈類似度を用いる。文脈類似度は、「似たような文章に出現しやすい単語は類似している」という発想により、単語間の類似度を計算する手法である。単語Aと単語Bとの間の文脈類似度を求める場合、学習用のデータを用いて各単語が出現する文脈について確率分布を求めておき、単語Aと単語Bとの確率分布の異なり具合をJensen-Shannon Divergenceにより計算した結果をこれら単語間の類似度とする。この文脈類似度は、数値が0〜1の範囲を取り、数値が小さいほど類似した単語であることを表す。文脈類似度の詳細については、例えば、文献「風間 淳一、Stijn De Saeger、鳥澤 健太郎、村田 真樹、”係り受けの確率的クラスタリングを用いた大規模類似度リストの作成”、言語処理学会第15回年次大会、2009年、p.84−87」に記載されている。 In this embodiment, the context similarity based on Jensen-Shannon Divergence is used as the similarity between two words. The context similarity is a technique for calculating the similarity between words based on the idea that “words that are likely to appear in similar sentences are similar”. When obtaining the context similarity between the word A and the word B, a probability distribution is obtained for the context in which each word appears using learning data, and the difference in probability distribution between the word A and the word B is determined. The result calculated by Jensen-Shannon Divergence is the similarity between these words. This context similarity is in the range of 0 to 1, and the smaller the value, the more similar the words. For details on the context similarity, see, for example, the literature “Keiichi Kazama, Stijn De Saeger, Kentaro Torizawa, Masaki Murata,“ Creating a Large-Scale Similarity List Using Dependent Stochastic Clustering ”, Language Processing Society 15th Annual Convention 2009, p.84-87 ”.
なお、類似度計算部14は、類似度データベース10として、インターネットによりアクセスされるウェブサイトを利用し得る。利用可能なウェブサイトの一例には、「情報通信研究機構(NICT)、”ALAGIN 言語資源・音声資源サイト”、高度言語情報融合フォーラム、[online]、インターネット〈URL:https://alaginrc.nict.go.jp/resources/nictmastar/li-resource-info/li-resource-outline.html>」がある。
The
上記の文章データの場合、類似度計算部14は、例えば、(あす,天気)の類似度=0.804、(あす,あす)の類似度=0、(あす,全国)の類似度=0.965、(あす,天気)の類似度=0.804、…を得る。
In the case of the above text data, the
類似度集計部15は、類似度計算部14が計算した各単語ペアの類似度に基づいて各単語のスコアを集計する(ステップS15)。具体的には、類似度集計部15は、単語wi(iは1以上n以下の整数)のスコアを、その単語と他の単語とからなる単語ペア(wi,wj)(j≠i,jは1以上n以下の整数)それぞれについて類似度計算部14が計算した類似度の平均により算出する。なお、文章中に同一の単語が複数回出現する場合、単語w1〜単語wnには同じ単語が含まれる。この場合、類似度集計部15は、単語w1〜単語wnの中から重複する単語については1つのみ残して削除し、削除の結果残った単語w1〜単語wnをそれぞれ単語wiとしてスコアを算出すればよい。
The
上記の文章データの場合、類似度集計部15は、単語「あす」のスコアを、(あす,天気)、(あす,あす)、(あす,全国)、(あす,天気)それぞれの類似度を平均して0.643と算出する。同様にして、類似度集計部15は、単語「天気」のスコアを0.646、単語「全国」のスコアを0.979と算出する。
In the case of the above sentence data, the
順位付け部16は、類似度集計部15が算出したスコアの順に、単語抽出部12が抽出した単語を並べる(ステップS16)。本実施形態では、類似度としてJensen-Shannon Divergenceによる文脈類似度を用いているため0に近いほど類似度が高い。類似度として、1からJensen-Shannon Divergenceによる文脈類似度を減算した値を用いてもよく、この場合は1に近いほど類似度が高い。
The ranking
重要語選択部17は、予め決定しておいたルールに従って順位付け部16が並べた単語から重要語を選択する(ステップS17)。重要語選択部17は、所定順位以上の単語を選択してもよく、スコアが所定よりも良い単語を選択してもよく、単語抽出部12が抽出した単語の中から所定割合の単語を順位が高い順に選択してもよい。例えば、重要語選択部17は、「スコアが上位5位までの単語」、「最も良いスコアから、その最も良いスコアの1.2倍の値のスコアまでの単語」を選択する。
The important
出力部18は、重要語選択部17が選択した重要語を出力する(ステップS18)。例えば、出力部18は、重要語抽出装置1に備えられたディスプレイ、または、重要語抽出装置1とネットワークを介して接続されるコンピュータ装置のディスプレイにスコアが良い順に重要語を表示させる。あるいは、出力部18は、重要語抽出装置1の内部または外部に備える記憶装置に文章データあるいは文章データの識別情報と、当該文章データから抽出した重要語及びそのスコアとを出力し、記憶させてもよい。
The
重要語抽出装置1の具体的な処理例を示す。
文入力部11が、文章データ「山形市内の保育園で園児たちが臼と杵を使った昔ながらの餅つきを体験しました」の入力を受ける。本実施形態の重要語抽出装置1は、文章中の重要語の抽出に、文章中に出現する名詞間の類似度を用いる。そこで、単語抽出部12は、文章データから名詞の単語「山形」、「市内」、「保育園」、「園児」、「臼」、「杵」、「餅つき」、「体験」を抽出する。類似度計算部14は、これらの単語を用いて単語ペア作成部13が作成した各単語ペアの類似度を計算する。
A specific processing example of the
The
図3は、類似度計算部14が算出した各単語ペアの類似度を示す。同図において、単語ペア(wi,wj)のwiが縦軸の単語、wjが横軸の単語を表している。また、類似度に、Jensen-Shannon Divergenceで表した文脈類似度を用いている。
FIG. 3 shows the similarity of each word pair calculated by the
類似度集計部15は、類似度計算部14が算出した各単語ペアの類似度を用い、単語ごとに他の単語との類似度の平均を求める。類似度の平均は、「山形」が0.961、「市内」が0.957、「保育園」が0.910、「園児」が0.928、「臼」が0.804、「杵」が0.827、「餅つき」が0.875、「体験」が0.932である。順位付け部16は、類似度の平均により表されるスコアが小さい順に単語を並べる。単語の順は、「臼」、「杵」、「餅つき」、「保育園」、「園児」、「体験」、「市内」、「山形」となる。重要語選択部17は、文章の中でトピックとなる重要語として、最上位から3つの単語「臼」、「杵」、「餅つき」を選択する。出力部18は、重要語選択部17が選択した重要語「臼」、「杵」、「餅つき」を出力する。
The
なお、文章中に同一の単語が2回以上出現する場合は、単語抽出部12は、その出現数だけ同じ単語を抽出する。よって、図3の縦軸、及び横軸に、出現数に応じた数の単語が含まれることになる。同一単語間のJensen-Shannon Divergenceは0になるため、結果として類似度の平均値が小さくなる。よって、同一の単語が複数回出現すると、その単語の順位は高くなりやすくなる。
In addition, when the same word appears twice or more in a sentence, the
上記実施形態において、類似度計算部14は、類似度に文脈類似度を用いているが、任意の他の類似度計算方法により2単語間の類似度を計算してもよい。例えば、統計的な単語の共起を利用した類似度計算方法などを用いることができる。しかし、一般的に、言い換えに使われる単語など、同じ意味の単語については文章中に共起することが少なく、共起を利用した類似度計算方法においては高い類似度が得られない場合もある。その点からは、文脈類似度を用いることが好ましい。
In the embodiment described above, the
[第2の実施形態]
上述した第1の実施形態では、各単語について2単語間の類似度に基づくスコアを算出しているため、1単語の単位でしか重要語を得ることはできない。そのため、「気象情報」のような複合名詞についてはスコアを算出することは困難である。そこで、本実施形態では、文章中の複合名詞についても重要語として抽出できるようにする。以下では、第2の実施形態を、第1の実施形態との差分を中心に説明する。
[Second Embodiment]
In the first embodiment described above, since a score based on the similarity between two words is calculated for each word, an important word can be obtained only in units of one word. Therefore, it is difficult to calculate a score for compound nouns such as “weather information”. Therefore, in this embodiment, compound nouns in sentences can be extracted as important words. Below, 2nd Embodiment is described centering on the difference with 1st Embodiment.
図4は、本発明の第2の実施形態による重要語抽出装置2の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図1に示す第1の実施形態による重要語抽出装置1と同一の部分には同一の符号を付し、その説明を省略する。重要語抽出装置2は、コンピュータ装置により実現され、同図に示すように、類似度データベース10、文入力部11、単語抽出部22、単語ペア作成部13、類似度計算部14、類似度集計部25、順位付け部26、重要語選択部27、及び出力部18を備えて構成される。
FIG. 4 is a block diagram showing the configuration of the
単語抽出部22は、文章データから名詞の単語を抽出する。さらに、単語抽出部22は、文章中で連続する名詞から複合名詞(名詞句)を作成する。その際、単語抽出部22は、複合名詞を構成する単語の情報も保持しておく。類似度集計部25は、類似度計算部14が計算した単語間の類似度に基づいて文章データから抽出された名詞及び複合名詞それぞれのスコアを算出する。順位付け部26は、文章データから抽出された名詞及び複合名詞を、類似度集計部25が算出したスコアの順に並べる。重要語選択部27は、順位付け部26が並べた名詞及び複合名詞から所定のルールに従って重要語を選択する。
The
図5は、重要語抽出装置2の重要語抽出処理を示すフローチャートである。
文入力部11は、文章データの入力を受ける(ステップS21)。単語抽出部22は、入力された文章データを形態素解析して品詞が名詞の単語を抽出する(ステップS22)。例えば、単語抽出部22は、一般名詞のみ、一般名詞と所定の分類の名詞、あるいは、固有名詞を除く一般名詞を抽出する。文章データに同一の単語が複数回出現する場合、単語抽出部22は、出現数に応じてその単語を重複して抽出する。
FIG. 5 is a flowchart showing the keyword extraction process of the
The
次に、単語抽出部22は、ステップS22における形態素解析結果に基づいて文章データが示す文章中で連続する名詞から複合名詞を作成する(ステップS23)。具体的には、単語抽出部22は、複数の一般名詞が連続する複合名詞や、一般名詞と接尾語や数詞が連続する複合名詞を作成する。文章データに同一の複合名詞が複数回出現する場合、単語抽出部22は、出現数に応じてその複合名詞を重複して作成する。単語抽出部22は、ステップS22で抽出した単語と、ステップS23で作成した複合名詞を構成する単語のうちステップS22で抽出されなかった単語とからなる単語群を作成する。さらに、単語抽出部22は、ステップS22において抽出した単語と、作成した複合名詞を併せて重要語候補とする。なお、単語抽出部22は、複合名詞を構成する単語のうち、文章中で単独では使用されない単語については重要語候補から除外する。
Next, the
例えば、文章データが「出汁の取り方を、料亭の料理人が伝授します。」を示す場合、ステップS22において、単語抽出部22は、一般名詞の単語「出汁」、「料亭」、「料理」、「伝授」を抽出する。また、ステップS22において、単語抽出部22は、連続する一般名詞「料理」と接尾語「人」とからなる複合名詞「料理人」を作成する。単語抽出部22は、ステップS22において抽出した単語「出汁」、「料亭」、「料理」、「伝授」と、ステップS23において作成した複合名詞「料理人」を構成する単語のうちステップS22で抽出されなかった単語「人」とからなる単語群を作成する。さらに、単語抽出部22は、ステップS22において抽出した単語と、作成した複合名詞を併せて重要語候補とする。ただし、ステップS22において抽出した単語「出汁」、「料亭」、「料理」、「伝授」のうち、複合名詞「料理人」を構成する単語「料理」については文章中で単独で使用されていない。そこで、単語抽出部22は、ステップS22において抽出した単語から「料理」を除いた単語「出汁」、「料亭」、「伝授」と、複合名詞「料理人」を重要語候補とする。
For example, if the sentence data indicates “The chef at the restaurant will teach you how to take the soup”, in step S22, the
単語ペア作成部13は、ステップS23において単語抽出部22が作成した単語群中の単語を用いて、全ての組み合わせの単語ペアを作成する(ステップS24)。類似度計算部14は、単語ペア作成部13が作成した各単語ペアを構成する2つの単語間の類似度を計算する(ステップS25)。
The word
類似度集計部25は、類似度計算部14が計算した各単語ペアの類似度に基づいて、各重要語候補のスコアを集計する(ステップS26)。重要語候補を、x1,x2,…,xn(nは1以上の整数)としたときに、類似度集計部25は、各重要語候補xi(iは1以上n以下の整数)のスコアを以下のように算出する。なお、文章中に同一の重要語候補が複数回出現する場合、重要語候補x1〜重要語候補xnには同じ単語または複合名詞が含まれる。この場合、類似度集計部25は、重要語候補x1〜重要語候補xnの中から重複する重要語候補については1つのみ残して削除し、削除の結果残った重要語候補x1〜重要語候補xnをそれぞれ重要語候補xiとしてスコアを算出すればよい。
Based on the similarity of each word pair calculated by the
類似度集計部25は、重要語候補xiと他の重要語候補xj(j≠i,jは1以上n以下の整数)それぞれとの類似度の平均によりスコアを算出する。重要語候補xiまたは重要語候補xjのいずれかまたは両方が複合名詞である場合、類似度集計部25は、重要語候補xiを構成する単語と重要語候補xjを構成する単語とからなる全ての組み合わせの単語ペアの類似度のうち、最もよい類似度を重要語候補xiと重要語候補xjの類似度とする。
The
例えば、類似度集計部25は、重要語候補xi「天気」と重要語候補xj「大雨警報」の類似度を、単語ペア(天気,大雨)、(天気,警報)の類似度のうちよい方とする。また例えば、類似度集計部25は、重要語候補xi「気象情報」と重要語候補xj「雪」の類似度を、単語ペア(気象,雪)、(情報,雪)の類似度のうちよい方とする。また例えば、類似度集計部25は、重要語候補xi「気象情報」と重要語候補xj「大雨警報」の類似度を、単語ペア(気象,大雨)、(気象,警報)、(情報,大雨)、(情報,警報)の類似度のうち最もよい類似度とする。
For example, the
あるいは、類似度集計部25は、重要語候補xiが複合名詞である場合、重要語候補xiを構成する単語毎に、他の重要語候補xjそれぞれとの類似度の平均を求める。類似度集計部25は、重要語候補xiを構成する各単語について求めた類似度の平均のうち、最もよい値を重要語候補xiのスコアとする。
Alternatively, when the keyword candidate x i is a compound noun, the
例えば、重要語候補xiが「気象情報」であるとする。類似度集計部25は、重要語候補xi「気象情報」を構成する単語「気象」と重要語候補xjそれぞれとの類似度の平均を算出する。重要語候補xjが1つの単語であれば、類似度集計部25は、単語「気象」と重要語候補xjとから構成される単語ペアの類似度を、単語「気象」と重要語候補xjの類似度とする。重要語候補xjが複合名詞であれば、類似度集計部25は、単語「気象」と、重要語候補xjを構成する各単語とから構成される単語ペアの類似度のうち、最も良い値を単語「気象」と重要語候補xjの類似度とする。同様に、類似度集計部25は、重要語候補xiを構成する他の単語「情報」と重要語候補xjそれぞれとの類似度の平均を算出する。類似度集計部25は、単語「気象」と単語「情報」のそれぞれについて算出した類似度の平均のうち良い方を、重要語候補xi「気象情報」のスコアとする。
For example, it is assumed that the important word candidate x i is “weather information”. The
順位付け部26は、類似度集計部25が算出したスコアの順に、単語抽出部12が抽出した重要語候補を並べる(ステップS27)。重要語選択部27は、予め決定しておいたルールに従って順位付け部26が並べた重要語候補から重要語を選択する(ステップS28)。出力部18は、重要語選択部27が選択した重要語を出力する(ステップS29)。
The ranking
重要語抽出装置2の具体的な処理例を示す。
文入力部11が、文章データ「次はあすの気象情報です。」の入力を受ける。単語抽出部22は、単語「次」、「あす」、「気象」、「情報」を抽出する。単語抽出部22は、これらの単語の中から文章中で連続する「気象」と「情報」から1つの複合名詞「気象情報」を作成する。単語抽出部22は、文章データから抽出した単語「次」、「あす」、「気象」、「情報」からなる単語群を作成する。さらに、単語抽出部22は、単語群の中から、複合名詞「気象情報」と、文章データから抽出した単語のうち、複合名詞「気象情報」を構成し、かつ、文章中で単独では使われていない単語「気象」及び「情報」を除いた単語「次」、「あす」とを重要語候補とする。類似度計算部14は、単語群に含まれる単語を用いて単語ペア作成部13が作成した各単語ペアの類似度を計算する。
A specific processing example of the
The
図6は、類似度計算部14が計算した各単語ペアの類似度を示す。同図において、単語ペア作成部13が単語群に含まれる単語「次」、「あす」、「気象」、「情報」を用いて作成した単語ペアそれぞれについて、類似度計算部14が算出した文脈類似度を示している。なお、同図においては、同一の複合名詞を構成する単語ペアについては類似度を算出していない。
FIG. 6 shows the similarity of each word pair calculated by the
類似度集計部25は、重要語候補「次」のスコアを、重要語候補「次」と重要語候補「あす」の類似度、及び、重要語候補「次」と重要語候補「気象情報」の類似度の平均により算出する。類似度集計部25は、重要語候補「次」と重要語候補「あす」の類似度を、類似度計算部14が算出した単語ペア(次,あす)の類似度「0.676」とする。類似度集計部25は、重要語候補「次」と重要語候補「気象情報」の類似度を、類似度計算部14が算出した単語ペア(次,気象)の類似度「0.965」と、単語ペア(次,情報)の類似度「0.875」のうち良い方とする。類似度集計部25は、重要語候補「次」のスコアを、重要語候補「次」と重要語候補「あす」の類似度「0.676」と、重要語候補「次」と重要語候補「気象情報」の類似度「0.875」の平均から「0.776」と算出する。
The
また、類似度集計部25は、重要語候補「あす」のスコアを、重要語候補「あす」と重要語候補「次」の類似度、及び、重要語候補「あす」と重要語候補「気象情報」の類似度の平均により算出する。類似度集計部25は、重要語候補「あす」と重要語候補「次」の類似度を、類似度計算部14が算出した単語ペア(あす,次)の類似度「0.676」とする。類似度集計部25は、重要語候補「あす」と重要語候補「気象情報」の類似度を、類似度計算部14が算出した単語ペア(あす,気象)の類似度「0.918」と、単語ペア(あす,情報)の類似度「0.990」のうち良い方とする。類似度集計部25は、重要語候補「あす」のスコアを、重要語候補「あす」と重要語候補「次」の類似度「0.676」と、重要語候補「あす」と重要語候補「気象情報」の類似度「0.918」の平均から「0.797」と算出する。
The
また、類似度集計部25は、重要語候補「気象情報」のスコアを、重要語候補「気象情報」と重要語候補「次」の類似度、及び、重要語候補「気象情報」と重要語候補「あす」の類似度の平均により算出する。類似度集計部25は、重要語候補「気象情報」と重要語候補「次」の類似度を、類似度計算部14が算出した単語ペア(気象,次)の類似度「0.965」と、単語ペア(情報,次)の類似度「0.875」のうち良い方とする。類似度集計部25は、重要語候補「気象情報」と重要語候補「あす」の類似度を、類似度計算部14が算出した単語ペア(気象,あす)の類似度「0.918」と、単語ペア(情報,あす)の類似度「0.990」のうち良い方とする。類似度集計部25は、重要語候補「気象情報」のスコアを、重要語候補「気象情報」と重要語候補「次」の類似度「0.875」と、重要語候補「気象情報」と重要語候補「あす」の類似度「0.918」の平均から「0.897」と算出する。
The
あるいは、類似度集計部25は、重要語候補「気象情報」のスコアを、単語ペア(気象,次)の類似度及び(気象,あす)の類似度の平均と、単語ペア(情報,次)の類似度及び(情報,あす)の類似度の平均とのうち良い方としてもよい。類似度集計部25は、重要語候補「気象情報」を構成する単語「気象」の類似度の平均を、単語ペア(気象,次)の類似度「0.965」、及び、単語ペア(気象,あす)の類似度「0.918」の平均から「0.942」と算出する。また、類似度集計部25は、重要語候補「気象情報」を構成する単語「情報」の類似度の平均を、単語ペア(情報,次)の類似度「0.875」、及び、単語ペア(情報,あす)の類似度「0.990」の平均から「0.933」と算出する。類似度集計部25は、重要語候補「気象情報」のスコアを、単語「気象」の類似度の平均と、単語「情報」の類似度の平均とのうち良い方の「0.942」とする。
Alternatively, the
順位付け部26は、類似度集計部25が算出したスコアに基づいて、重要語候補を「次」、「あす」、「気象情報」の順に並べる。重要語選択部27は、順位付け部26が並べた重要語候補から重要語を選択し、出力部18は、重要語選択部27が選択した重要語を出力する。
なお、上記においては、処理を説明するために短い文章のデータを入力したが、もう少し長い文章のデータを入力することで、抽出の精度は向上すると考えられる。
The ranking
In the above description, short sentence data is input to explain the processing. However, it is considered that inputting a little longer sentence data improves the accuracy of extraction.
図7は、第1の実施形態の重要語抽出装置1による評価実験結果を示す図である。評価実験においては、100番組それぞれの検索ワードと番組概要文とを示す文章データを評価データとして用いた。そして、各番組について3名の作業者が文章データからキーワードを5単語以内で抽出し、この3名の作業者それぞれが選んだキーワードの和集合を重要語の正解データとした。なお、検索ワードと同一の単語は評価の際に除外した。
同図では、重要語抽出装置1が抽出した上位n位の重要語と、従来技術のokapi BM25を用いて抽出した上位n位の重要語とが、正解データのキーワードに含まれる確率を示している。同図に示すように、特に上位で抽出される単語について、本実施形態の重要語抽出装置1により抽出された重要語が正解データに含まれる確率は従来技術よりも高く、良好な結果が得られた。
FIG. 7 is a diagram illustrating an evaluation experiment result by the
The figure shows the probability that the top n important words extracted by the
以上説明した実施形態によれば、重要語抽出装置は、文章全体で使用されている他の名詞との関連が高い名詞を重要語として抽出する。文章中の他の名詞との関連が高い名詞とは、文章全体の意味をよく表している意味的中心の単語である。換言すれば、文章中の他の名詞との関連が高い名詞は、文章の流れの中にある意味内容とつながりが高く、文脈にあっている単語である。よって、重要語抽出装置は、単純な単語の出現頻度の確率的な統計ではなく、文章中の文脈や意味を用いて重要語やトピックワードを抽出することができる。例えば、番組検索を行う従来の装置において、ユーザが入力したキーワード等により検索した結果得られた番組の情報を提示する際に、本実施形態の重要語抽出装置が番組概要から抽出した重要語を併せて提示することが考えられる。この重要語の提示により、検索の結果得られた番組がどのような内容であるかをユーザにわかりやすく伝えることができる。また、以上説明した実施形態によれば、重要語抽出装置は、TF−IDFによる重み付けを行う場合とは異なり、類似したドメインの文書を大量に集める必要もない。 According to the embodiment described above, the important word extraction device extracts nouns that are highly related to other nouns used in the entire sentence as important words. A noun highly related to other nouns in a sentence is a semantically-centric word that well represents the meaning of the entire sentence. In other words, a noun that is highly related to other nouns in a sentence is a word that is highly connected to the semantic content in the flow of the sentence and is in context. Therefore, the important word extraction device can extract the important words and the topic words using the context and meaning in the sentence, not the probabilistic statistics of the appearance frequency of simple words. For example, in a conventional apparatus that performs a program search, when presenting program information obtained as a result of a search by a keyword input by a user, the important word extraction apparatus of the present embodiment extracts the important words extracted from the program outline. It is possible to present it together. By presenting this important word, the contents of the program obtained as a result of the search can be easily communicated to the user. Also, according to the embodiment described above, the keyword extraction device does not need to collect a large amount of documents of similar domains, unlike the case of weighting by TF-IDF.
上述のように、本実施形態の重要語抽出装置は、文章中で使用される単語の意味を用いて重要語を抽出するため、単語の出現頻度を用いた従来技術よりも高性能に、文脈に合致した重要語を抽出することができる。また、従来使用されているTF−IDFの場合は、似たようなスタイルの文章を集めて統計をとる必要があるが、本実施形態では、単語間の類似度を計算するための学習データがあればよく、検索のために「似たようなスタイルの文章を多く集める」という必要がない。 As described above, since the important word extraction apparatus according to the present embodiment extracts important words using the meaning of words used in a sentence, the context is improved in performance compared to the conventional technique using the appearance frequency of words. Can be extracted. In the case of TF-IDF that has been used in the past, it is necessary to collect statistics of similar styles, and in this embodiment, learning data for calculating the similarity between words is used. There is no need to “gather a lot of sentences with similar styles” for searching.
上述した重要語抽出装置1、2は、内部にコンピュータシステムを有している。そして、重要語抽出装置1、2の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
The above-described important
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a portable dictionary such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a conceptual dictionary storage unit such as a hard disk built in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
1、2 重要語抽出装置
10 類似度データベース
11 入力部
12、22 単語抽出部
13 単語ペア作成部
14 類似度計算部
15、25 類似度集計部
16、26 順位付け部
17、27 重要語選択部
18 出力部
DESCRIPTION OF
Claims (2)
前記単語抽出部が抽出した前記単語からなる単語ペアを作成する単語ペア作成部と、
前記単語ペア作成部が作成した前記単語ペアのそれぞれについて、前記単語ペアを構成する前記単語間の類似度を計算する類似度計算部と、
前記単語抽出部が抽出した前記単語それぞれをスコア算出対象とし、同一の前記単語が前記文書データ中に複数回出現する場合、スコア算出対象の前記単語の中から重複する単語については一つのみを残して削除し、削除の結果残ったスコア算出対象の前記単語のスコアを、当該単語が含まれる前記単語ペアについて前記類似度計算部が計算した前記類似度の平均により算出する類似度集計部と、
前記類似度集計部が算出した前記単語それぞれの前記スコアに基づいて、前記単語抽出部が抽出した前記単語の中から重要語を選択する重要語選択部と、
を備え、
前記類似度集計部は、前記単語抽出部が抽出した前記単語及び前記複合名詞をスコア算出対象とし、スコア算出対象の前記単語または前記複合名詞のスコアを、当該スコア算出対象の前記単語、または、当該スコア算出対象の前記複合名詞を構成するいずれかの単語と、他のスコア算出対象の前記単語または他のスコア算出対象の前記複合名詞を構成するいずれかの単語とからなる前記単語ペアそれぞれについて前記類似度計算部が計算した前記類似度に基づいて算出し、
前記重要語選択部は、前記類似度集計部が算出したスコアに基づいて前記単語及び前記複合名詞の中から重要語を選択する、
ことを特徴とする重要語抽出装置。 Extracting a word of a noun from sentence data, and a word extracting unit in which the adjacent words in the sentence data are extracted as one compound noun among the extracted words;
A word pair creation unit that creates a word pair composed of the words extracted by the word extraction unit;
For each of the word pairs created by the word pair creation unit, a similarity calculation unit that calculates the similarity between the words constituting the word pair;
When each of the words extracted by the word extraction unit is a score calculation target and the same word appears multiple times in the document data, only one word is duplicated among the words of the score calculation target. A similarity totaling unit that calculates the score of the word to be score-calculated, which is left as a result of deletion, by calculating the average of the similarities calculated by the similarity calculating unit for the word pair including the word; ,
An important word selection unit that selects an important word from the words extracted by the word extraction unit based on the scores of the words calculated by the similarity totalization unit;
Equipped with a,
The similarity totaling unit, the word extracted by the word extraction unit and the compound noun as a score calculation target, the word of the score calculation target or the score of the compound noun, the word of the score calculation target, or For each of the word pairs consisting of any word that constitutes the compound noun that is the score calculation target, and any word that constitutes the other noun calculation target word or the other noun calculation target noun Calculated based on the similarity calculated by the similarity calculation unit,
The important word selection unit selects an important word from the word and the compound noun based on the score calculated by the similarity tabulation unit,
An important word extraction device characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014002745A JP6230190B2 (en) | 2014-01-09 | 2014-01-09 | Important word extraction device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014002745A JP6230190B2 (en) | 2014-01-09 | 2014-01-09 | Important word extraction device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015132899A JP2015132899A (en) | 2015-07-23 |
JP6230190B2 true JP6230190B2 (en) | 2017-11-15 |
Family
ID=53900063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014002745A Expired - Fee Related JP6230190B2 (en) | 2014-01-09 | 2014-01-09 | Important word extraction device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6230190B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740229B (en) * | 2016-01-26 | 2018-05-11 | 中国人民解放军国防科学技术大学 | The method and device of keyword extraction |
CN105718445B (en) * | 2016-01-28 | 2018-05-11 | 中国人民解放军国防科学技术大学 | The calculation of relationship degree method and device of word and webpage |
CN108304365A (en) | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | keyword extracting method and device |
CN109062895B (en) * | 2018-07-23 | 2022-06-24 | 挖财网络技术有限公司 | Intelligent semantic processing method |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3594701B2 (en) * | 1995-07-19 | 2004-12-02 | 株式会社リコー | Key sentence extraction device |
JP2000090110A (en) * | 1998-09-11 | 2000-03-31 | Nippon Telegr & Teleph Corp <Ntt> | Full-text retrieval method, device therefor and recording medium recorded with full-text retrieving program |
JP3707044B2 (en) * | 1999-04-14 | 2005-10-19 | 沖電気工業株式会社 | Information extraction device |
JP4298342B2 (en) * | 2003-03-20 | 2009-07-15 | 三菱電機株式会社 | Importance calculator |
JP2005222480A (en) * | 2004-02-09 | 2005-08-18 | Oki Electric Ind Co Ltd | Important word extraction apparatus, important word extraction method, and important word extraction program |
JP4972271B2 (en) * | 2004-06-04 | 2012-07-11 | 株式会社日立製作所 | Search result presentation device |
JP4942727B2 (en) * | 2008-11-26 | 2012-05-30 | 日本電信電話株式会社 | Text summarization apparatus, method and program thereof |
JP5331023B2 (en) * | 2010-02-12 | 2013-10-30 | 日本電信電話株式会社 | Important word extraction device, important word extraction method, and important word extraction program |
-
2014
- 2014-01-09 JP JP2014002745A patent/JP6230190B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015132899A (en) | 2015-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
CN102622338B (en) | Computer-assisted computing method of semantic distance between short texts | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
Shimada et al. | Analyzing tourism information on twitter for a local city | |
JP6394388B2 (en) | Synonym relation determination device, synonym relation determination method, and program thereof | |
JP5143057B2 (en) | Important keyword extraction apparatus, method and program | |
CN110083696B (en) | Global citation recommendation method and system based on meta-structure technology | |
US9529847B2 (en) | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings | |
CN108073571B (en) | Multi-language text quality evaluation method and system and intelligent text processing system | |
US20170039267A1 (en) | Automatic query pattern generation | |
JP6404511B2 (en) | Translation support system, translation support method, and translation support program | |
JP6230190B2 (en) | Important word extraction device and program | |
CN111194457A (en) | Patent evaluation determination method, patent evaluation determination device, and patent evaluation determination program | |
JP5427694B2 (en) | Related content presentation apparatus and program | |
US20120330986A1 (en) | Information processing apparatus, information processing method, and program | |
JP5302614B2 (en) | Facility related information search database formation method and facility related information search system | |
Belkaroui et al. | Towards events tweet contextualization using social influence model and users conversations | |
CN103984731A (en) | Self-adaption topic tracing method and device under microblog environment | |
CN111259136A (en) | Method for automatically generating theme evaluation abstract based on user preference | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
KR101402339B1 (en) | System and method of managing document | |
JP5277090B2 (en) | Link creation support device, link creation support method, and program | |
JP5094096B2 (en) | Apparatus and method for automatically extracting celebrity expressions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6230190 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |