JP2013114586A - 特徴語抽出装置、特徴語抽出方法、及びプログラム - Google Patents

特徴語抽出装置、特徴語抽出方法、及びプログラム Download PDF

Info

Publication number
JP2013114586A
JP2013114586A JP2011262395A JP2011262395A JP2013114586A JP 2013114586 A JP2013114586 A JP 2013114586A JP 2011262395 A JP2011262395 A JP 2011262395A JP 2011262395 A JP2011262395 A JP 2011262395A JP 2013114586 A JP2013114586 A JP 2013114586A
Authority
JP
Japan
Prior art keywords
word
feature
feature word
words
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011262395A
Other languages
English (en)
Other versions
JP5705710B2 (ja
Inventor
Nozomi Kobayashi
のぞみ 小林
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011262395A priority Critical patent/JP5705710B2/ja
Publication of JP2013114586A publication Critical patent/JP2013114586A/ja
Application granted granted Critical
Publication of JP5705710B2 publication Critical patent/JP5705710B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】適切な長さで、精度よく特徴語を抽出することができるようにする。
【解決手段】候補獲得部24によって、未知語であるカタカナ語が分割され、かつ、形態素解析済みのWebテキストの集合から、カテゴリ語リストと、カテゴリ語及び特徴語の出現パタンとに基づいて、特徴語の候補を獲得する。スコア計算部27によって、獲得された特徴語の候補の各々について、スコアを計算する。候補出力部28によって、計算されたスコアが閾値以上となる特徴語の候補を、特徴語として特徴語辞書データベース29に登録する。
【選択図】図1

Description

本発明は、特徴語抽出装置、特徴語抽出方法、及びプログラムに係り、特に、説明文から説明対象に関する特徴語を抽出する特徴語抽出装置、特徴語抽出方法、及びプログラムに関する。
従来において、さまざまな分野の専門用語を抽出する研究が存在する。たとえば、非特許文献1では、これ以上分割不可能な名詞(以下、「単名詞」)に着目し、単名詞の連接に基づくスコアリングを使用した専門用語抽出手法が挙げられている。
中川 裕志, 森 辰則, 湯本 紘彰.出現頻度と連接頻度に基づく専門用語抽出.自然言語処理Vol.10 No.1, pp.27-45,2003年.
上記特許文献1に記載の手法では、文章中の名詞連続を対象としているが、文章の中にはたとえ名詞連続であっても、抽出したい商品と関連しない語も存在する。
また、上記特許文献1に記載の手法では、形態素解析によって切り出された名詞の連続を候補としているが、ファッションなどの分野ではカタカナ語の未知語が多く存在する。カタカナ未知語は、長い語であっても一語として獲得されてしまい、「ノースリーブフラワープリントワンピース」のような適当ではない語が誤って抽出されてしまう。
本発明は、上記の事実を鑑みてなされたもので、適切な長さで、精度よく特徴語を抽出することができる特徴語抽出装置、特徴語抽出方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る特徴語抽出方法は、説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置における特徴語抽出方法であって、候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得するステップと、スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するステップと、候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力するステップと、を含む。
本発明に係る特徴語抽出装置は、説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置であって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する候補獲得手段と、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するスコア計算手段と、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する候補出力手段と、を含んで構成されている。
本発明に係る特徴語抽出方法及び特徴語抽出装置によれば、候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する。
そして、スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算する。候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する。
このように、未知語であるカタカナ語が分割された説明文の集合から、特徴語の候補を獲得し、特徴語の候補の出現頻度、及び特徴語の候補が出現する説明文の数に基づいて、スコアを計算することにより、適切な長さで、精度よく特徴語を抽出することができる。
本発明に係るプログラムは、コンピュータに、上記の特徴語抽出方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明の特徴語抽出方法、特徴語抽出装置、及びプログラムによれば、未知語であるカタカナ語が分割された説明文の集合から、特徴語の候補を獲得し、特徴語の候補の出現頻度、及び特徴語の候補が出現する説明文の数に基づいて、スコアを計算することにより、適切な長さで、精度よく特徴語を抽出することができる、という効果が得られる。
本発明の実施の形態に係る特徴語抽出装置の構成を示す概略図である。 Webテキストの例を示す図である。 各候補語の出現頻度及サイト頻度を示す表である。 各候補語のスコアを示す表である。 本発明の実施の形態に係る特徴語抽出装置における特徴語抽出処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、商品情報を表わす大量のWebテキストから、商品の特徴語を抽出する特徴語抽出装置に本発明を適用した場合を例に説明する。
<特徴語抽出装置の構成>
図1に示すように、本発明の実施の形態に係る特徴語抽出装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する特徴語抽出処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。特徴語抽出装置100は、入力部10と、演算部20とを備えている。
入力部10は、既知のキーボード、マウス、記憶装置などの入力器により入力された、抽出対象となるWebテキストの集合を受け付ける。入力されたWebテキストは、図2に示すように、商品に関する説明文が書かれたWebページのテキスト部分と、そのWebページのURLもしくはドメインとを含んでいる。なお、商品が説明対象の一例であり、Webテキストの集合が、説明文の集合の一例である。
演算部20は、Webテキスト記憶部21、形態素解析部22、カタカナ未知語分割部23、候補獲得部24、カテゴリ語リストデータベース25、抽出パタンデータベース26、スコア計算部27、候補出力部28、及び特徴語辞書データベース29を備えている。
Webテキスト記憶部21は、入力部10により受け付けたWebテキストの集合を記憶している。
形態素解析部22は、Webテキスト記憶部21に記憶されているWebテキストの各々のテキスト部分に対して、周知の技術である形態素解析処理を行って単語に分解し、各単語に、品詞、読み情報などを付与する。例えば「ノースリーブフラワープリントワンピース」という入力に対し、「ノースリーブフラワープリントワンピース(未知語)」が付与される。
カタカナ未知語分割部23は、形態素解析部22の結果を入力とし、品詞「未知語」が付与されているカタカナ語の分割を行なう。カタカナ語の分割は、例えば、参考文献(中澤敏明, 河原大輔, 黒橋禎夫,「日本語辞書整備のための日本語カタカナ複合名詞の自動分割」,言語処理学会 第11回年次大会, pp.588-591, 2005年3月)などの既知の技術により実現でき、和英辞書を用いる方法、英語コーパスと和英辞書を用いる方法、基礎データ内の関係を用いる方法、又はこれらの方法の組み合わせにより実現できる。
「ノースリーブフラワープリントワンピース(未知語)」に対する出力は、「ノー(未知語) /スリーブ(未知語) /フラワー(未知語) /プリント(未知語) /ワンピース(未知語) 」となる。
ここで、カテゴリ語に基づいて特徴語の候補を抽出する原理について説明する。
商品の特徴語は、典型的には、商品を表す語(カテゴリ語)を修飾する表現で出現する。
例えば、「ワンピース」、「シャツ」などがカテゴリ語であり、「フェミニンなワンピース」の「フェミニン」、「ノースリーブワンピース」の「ノースリーブ」が特徴語である。
あらかじめ用意した、商品を表すカテゴリ語と、あらかじめ用意した「Xな<カテゴリ語>」、「X<カテゴリ語>」のような出現パタンとを用いて、商品の説明文から、特徴語Xと考えられる候補語を獲得する。
カテゴリ語と特徴語との出現パタンとしては、以下の(1)〜(3)に示すようなものが考えられる。
(1)カテゴリ語を修飾する形容詞、形容動詞、副詞として特徴語が出現する出現パタン
例えば、「Xとした<カテゴリ語>」(e.g. ふわっとしたワンピース)や、「Xな<カテゴリ語>」(e.g. フェミニンなワンピース)である。
(2)カテゴリ語を含む複合語として特徴語が出現する出現パタン
例えば、「X<カテゴリ語>」(e.g. ノースリーブ ワンピース, 2way バッグ)である。
(3)カテゴリ語にかかる名詞句(未知語含む)として特徴語が出現する出現パタン
例えば、「X の <カテゴリ語>」(e.g. チェックの ワンピース)である。
そこで、本実施の形態では、カテゴリ語リストデータベース25に、商品のカテゴリ語のリストを記憶しておく。なお、カテゴリ語は人手で用意してもよいし、各商品ページのトピックパス(e.g. ”top > レディース > トップス > シャツ”のように、Webサイト内での各ページの位置を、階層構造の上位ページへのリンクとして表したものをいう)から自動で獲得してもよい。
また、抽出パタンデータベース26は、上記の(1)〜(3)の出現パタンを、特徴語を抽出するために用いる抽出パタンとして記憶している。
候補獲得部24は、カタカナ未知語分割部23により出力された、形態素解析済みであって、かつ、カタカナ未知語が分割されたWebテキストのテキスト部分から、カテゴリ語リストデータベース25に記憶されたカテゴリ語リストと、抽出パタンデータベース26に記憶された特徴語の抽出パタンとを用いて、特徴語の候補となる候補語を抽出する。
例えば、カテゴリ語リストに「ワンピース」が含まれ、抽出パタンに、「X <カテゴリ語>」という出現パタンが含まれている場合に、説明文中の「ノー(未知語) /スリーブ(未知語) /フラワー(未知語) /プリント(未知語) /〈ワンピース〉」という部分から、「ノー/スリーブ/フラワー/プリント」が候補語xとして獲得される。
また、候補獲得部24は、獲得した候補語が複数の形態素から構成される場合、候補語を分解し、分解により得られた語の各々を、候補語とする。なお、候補語が一語から構成される場合は分解しない。
例えば、獲得された候補語「ノー/スリーブ/フラワー/プリント」は複数形態素からなるため、「ノー」、「ノー/スリーブ」、「ノー/スリーブ/フラワー」、「ノー/スリーブ/フラワー/プリント」、「スリーブ」、「スリーブ/フラワー」、「スリーブ/フラワー/プリント」、「フラワー」、「フラワー/プリント」、及び「プリント」に分解し、それぞれの語を候補語とする。
また、候補獲得部24は、得られたそれぞれの候補語について、入力されたWebテキストの集合における候補語の出現頻度と、その候補語が何個のWebサイトで出現したかを示すサイト頻度とを計算する。サイト頻度は、入力WebテキストのURLのうち、例えば最初の’/’までをサイト名として切り出して頻度を計算することで得られる。入力が説明文の集合であれば、サイト頻度の代わりに説明文の数を用いる。
図3に示すように、候補語(形態素境界が含まれたまま)と、計算した候補語の出現頻度n(x)と、候補語のサイト頻度sf(x)とが、候補獲得部24の出力となる。
スコア計算部27は、獲得された候補語の各々について、以下に説明するように、特徴語である度合いを示すスコアを計算する。
本実施の形態では、特徴語である度合いとして、獲得された語の適切な長さを測るため、語のユニット性に基づくスコアリングを行なう。語のユニット性とは、ある言語単位がコーパス中で安定して使用される度合いを示すものである。
具体的には、C-valueとよばれる尺度を、語が1語から成る場合にも対応させたModified C-value(上記の非特許文献1を参照)に基づく式を用いる。また、「エクストラファインコットン」のようなある特定サイトの商品にしか存在しない語に対しては低い重みがつくように改良した、以下の(1)式を用いて、スコアを計算する。これは、辞書に登録すべき特徴語は、広く様々なサイトで出現する語であることが望ましいためである。
ここで、sf(x)は候補語xが出現したWebテキストのサイト数を示すサイト頻度、length(x)は候補語xを構成する形態素数、n(x)は候補語xの出現頻度である。t(x)は候補語xを含む別の候補語の出現頻度の総数、c(x)は候補語xを含む別の候補語の種類数である。
上記(1)式は、もともとのC-valueを、上記の非特許文献1と同様に頻度1にも対応させ、さらにサイト毎の出現頻度の対数をかけることで、あるサイトにしか出現しない特定語の重みを低くするようにしたものである。
スコア計算部27は、獲得された候補語の各々について、候補獲得部24で得られた候補語、出現頻度、及びサイト頻度を用いて、上記(1)式に従って、スコアを計算する。
具体的には、入力された候補語すべてに対し、下記の1.〜6.の処理を行い、スコアを計算する。なお、混乱を避けるため、一つ一つ処理される候補語をxと表記する。
1.候補語xに紐付く出現頻度(n(x))及びサイト頻度(sf(x))を得る。
2.候補語xを形態素境界で分割し、分割数(length(x)に相当)を得る。
3.候補語xをキーとし、スコア計算部27の入力である候補語を検索し、キーである候補語xを含む候補語とそれに紐付く出現頻度を取得し、候補語xを含む候補語と出現頻度とのペアを表わす候補語リストペアを作成する。
4.候補語リストペア中の出現頻度を足しこみ、t(x)を求める。
5.候補語リストペア中の候補語の種類数(c(x)に相当)を求める。
6.求められたn(x)、sf(x)、length(x)、t(x)、c(x)から、上記(1)式に従い score(x)を算出する。
なお、上記3.の候補語xを含む候補語の検索では、膨大な候補が想定され、処理時間が非常にかかると予想されるため、候補語と出現頻度を接尾辞配列などの構造体にすることで検索時間を短縮することが好ましい。
図4に示すような、各候補語と求められたスコアとのペアが、スコア計算部27の出力となる。なお、上記図4の例における候補語は、形態素境界を削除したものとする。
候補出力部28は、計算されたスコアが閾値以上となる候補語を特徴語として出力し、特徴語辞書データベース29に登録する。例えば、候補語「ノー」、「ノー/スリーブ」、「ノー/スリーブ/フラワー」、「ノー/スリーブ/フラワー/プリント」、「スリーブ」、「スリーブ/フラワー」、「スリーブ/フラワー/プリント」、「フラワー」、「フラワー/プリント」、及び「プリント」のうち、「ノースリーブ」及び「フラワープリント」のスコアが閾値以上であれば、この2つの候補語のみを出力し、他の7の候補語は棄却する。
なお、閾値としては適当な値を選択することができる。たとえば、あらかじめ開発データでテストし、最適であった値を設定するなどの方法がある。また、入力データのサイズなどによって閾値は検討する必要がある。一例として、数万のWebテキストを入力とした場合の閾値は60〜100程度とした。
<特徴語抽出装置の作用>
次に、本実施の形態に係る特徴語抽出装置100の作用について説明する。まず、特徴語抽出装置100に、商品の説明文を含むWebテキストの集合が入力されると、Webテキスト記憶部21に記憶される。そして、特徴語抽出装置100において、図5に示す特徴語抽出処理ルーチンが実行される。
まず、ステップS101において、Webテキストの集合を、Webテキスト記憶部21から読み込む。そして、ステップS102において、形態素解析部22によって、上記ステップS101で読み込んだWebテキストの各々に対して形態素解析処理を行う。
次のステップS103では、カタカナ未知語分割部23によって、各Webテキストの形態素解析結果に基づいて、各Webテキストのカタカナ未知語を分割する。ステップS104では、候補獲得部24によって、カテゴリ語リストデータベース25及び抽出パタンデータベース26を参照して、上記ステップS103でカタカナ未知語が分割され、かつ、形態素解析済みの各Webテキストから、特徴語の候補となる候補語を抽出する。
そして、ステップS105において、候補獲得部24によって、上記ステップS104で抽出された各候補語について、出現頻度及びサイト頻度を計算する。ステップS106では、スコア計算部27によって、上記ステップS104で抽出された各候補語について、形態素の分割数を求めると共に、当該候補語を含む他の候補語及び出現頻度を求める。
そして、ステップS107において、スコア計算部27によって、上記ステップS104で抽出された各候補語について、上記ステップS105で計算された出現頻度及びサイト頻度と、上記ステップS106で求められた分割数、他の候補語、及び出現頻度とを用いて、上記(1)式に従って、スコアを計算する。
ステップS108では、上記ステップS107で計算されたスコアが予め定められた閾値以上となる候補語を、特徴語として特徴語辞書データベース29に登録して、特徴語抽出処理ルーチンを終了する。
以上説明したように、本実施の形態に係る特徴語抽出装置によれば、未知語であるカタカナ語が分割され、かつ、形態素解析済みのWebテキストの集合から、特徴語の候補を獲得し、特徴語の候補の出現頻度、及び特徴語の候補が出現するWebテキストの数に基づいて、スコアを計算することにより、適切な長さで、精度よく特徴語を抽出することができる。また、特徴語を抽出することにより、どういう商品が買われているか、注目されているかなどを分析する際の手がかり語が獲得でき、マーケティングなどにおいてより詳細な分析が可能になる。
また、特徴語の候補を、カテゴリ語リストと出現パタンとで絞り込むことにより、精度良く特徴語を抽出することができる。
また、カタカナ未知語を分割すると共に、語のユニット性に基づき、かつ、特定サイトの商品にしか存在しない語に対しては低い重みがつくようにした式を用いてスコアを計算することにより、カタカナ未知語の特徴語であっても、適切な長さで特徴語を獲得することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、商品以外のものを説明対象として、当該説明対象の特徴語を、説明文から抽出するようにしてもよい。
また、形態素解析部を、外部の装置に設けてもよい。この場合には、特徴語抽出装置に、形態素解析済みのWebテキスト(説明文)の集合が入力されるようにし、形態素解析済みのWebテキスト(説明文)の集合に対して、カタカナ未知語分割部によって、カタカナ未知語が分割されるようにすればよい。
また、形態素解析部及びカタカナ未知語分割部を外部の装置に設けてもよい。この場合には、特徴語抽出装置に、カタカナ未知語が分割され、かつ、形態素解析済みのWebテキスト(説明文)の集合が入力されるようにし、当該Webテキスト(説明文)の集合から、候補獲得部によって、特徴語の候補が獲得されるようにすればよい。
また、Webテキストを入力とする場合を例に説明したが、これに限定されるものではなく、Webテキスト以外の、説明対象の説明文を入力とするようにすればよい。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
また、上述の特徴語抽出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 Webテキスト記憶部
22 形態素解析部
23 カタカナ未知語分割部
24 候補獲得部
25 カテゴリ語リストデータベース
26 抽出パタンデータベース
27 スコア計算部
28 候補出力部
29 特徴語辞書データベース
100 特徴語抽出装置

Claims (7)

  1. 説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置における特徴語抽出方法であって、
    候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得するステップと、
    スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するステップと、
    候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力するステップと、
    を含む特徴語抽出方法。
  2. 前記前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンは、
    前記カテゴリ語、及び該カテゴリ語を修飾する形容詞、形容動詞、又は副詞としての特徴語が出現するパタン、
    前記カテゴリ語及び前記特徴語を含む複合語として出現するパタン、あるいは
    前記カテゴリ語及び該カテゴリ語に係る名詞句としての特徴語が出現するパタンを含む請求項1記載の特徴語抽出方法。
  3. 前記スコア計算手段によって前記スコアを計算するステップは、前記獲得された特徴語の候補の各々について、前記特徴語の候補の出現頻度、前記特徴語の候補が出現する説明文の数、前記特徴語の候補を構成する形態素の数、前記特徴語の候補を含む他の候補の出現頻度の総数、及び前記特徴語の候補を含む他の候補の種類数に基づいて、前記スコアを計算する請求項1又は2記載の特徴語抽出方法。
  4. カタカナ未知語分割手段によって、入力された、形態素解析済みの説明文の集合における、未知語であるカタカナ語を分割するステップを更に含み、
    前記候補獲得手段によって前記特徴語の候補を獲得するステップは、前記カタカナ未知語分割手段によって未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、前記特徴語の候補を獲得する請求項1〜3の何れか1項記載の特徴語抽出方法。
  5. 形態素解析手段によって、入力された説明文の集合に対して形態素解析を行うステップを更に含み、
    前記カタカナ未知語分割手段によって前記未知語であるカタカナ語を分割するステップは、前記形態素解析手段による態素解析済みの説明文の集合における、未知語であるカタカナ語を分割する請求項4記載の特徴語抽出方法。
  6. 説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置であって、
    入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する候補獲得手段と、
    前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するスコア計算手段と、
    前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する候補出力手段と、
    を含む特徴語抽出装置。
  7. コンピュータに、請求項1〜請求項5の何れか1項記載の特徴語抽出方法の各ステップを実行させるためのプログラム。
JP2011262395A 2011-11-30 2011-11-30 特徴語抽出装置、特徴語抽出方法、及びプログラム Expired - Fee Related JP5705710B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011262395A JP5705710B2 (ja) 2011-11-30 2011-11-30 特徴語抽出装置、特徴語抽出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011262395A JP5705710B2 (ja) 2011-11-30 2011-11-30 特徴語抽出装置、特徴語抽出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013114586A true JP2013114586A (ja) 2013-06-10
JP5705710B2 JP5705710B2 (ja) 2015-04-22

Family

ID=48710052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011262395A Expired - Fee Related JP5705710B2 (ja) 2011-11-30 2011-11-30 特徴語抽出装置、特徴語抽出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5705710B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018073947A1 (ja) * 2016-10-20 2018-04-26 富士通株式会社 対応語出力プログラム、対応語出力装置及び対応語出力方法
US10585922B2 (en) 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007183927A (ja) * 2005-12-05 2007-07-19 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009043189A (ja) * 2007-08-10 2009-02-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010146288A (ja) * 2008-12-18 2010-07-01 Dainippon Printing Co Ltd 組合せ商品の情報提供と顧客の反応情報収集をする方法、装置、プログラム、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007183927A (ja) * 2005-12-05 2007-07-19 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009043189A (ja) * 2007-08-10 2009-02-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010146288A (ja) * 2008-12-18 2010-07-01 Dainippon Printing Co Ltd 組合せ商品の情報提供と顧客の反応情報収集をする方法、装置、プログラム、記録媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200301565015; 湯本紘彰 他: '出現頻度と連接頻度に基づく専門用語抽出' 情報処理学会研究報告 Vol.2001,No.86, 20010911, p.111-118, 社団法人情報処理学会 *
CSNG201000460141; 中澤敏明 他: '日本語辞書整備のための日本語カタカナ複合名詞の自動分割' 言語処理学会第11回 年次大会発表論文集 , 20050315, p.588-591, 言語処理学会 *
CSNG201100237221; 鍛治伸裕 他: '翻字と言い換えを利用した片仮名複合語の分割' 言語処理学会第17回 年次大会発表論文集 , 20110307, p.995-998, 言語処理学会 *
JPN6014028744; 鍛治伸裕 他: '翻字と言い換えを利用した片仮名複合語の分割' 言語処理学会第17回 年次大会発表論文集 , 20110307, p.995-998, 言語処理学会 *
JPN6014028745; 中澤敏明 他: '日本語辞書整備のための日本語カタカナ複合名詞の自動分割' 言語処理学会第11回 年次大会発表論文集 , 20050315, p.588-591, 言語処理学会 *
JPN6014028746; 湯本紘彰 他: '出現頻度と連接頻度に基づく専門用語抽出' 情報処理学会研究報告 Vol.2001,No.86, 20010911, p.111-118, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018073947A1 (ja) * 2016-10-20 2018-04-26 富士通株式会社 対応語出力プログラム、対応語出力装置及び対応語出力方法
US10585922B2 (en) 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
US11308139B2 (en) 2018-05-23 2022-04-19 International Business Machines Corporation Finding a resource in response to a query including unknown words

Also Published As

Publication number Publication date
JP5705710B2 (ja) 2015-04-22

Similar Documents

Publication Publication Date Title
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
US8010342B2 (en) Word usage analyzer
US9128907B2 (en) Language model generating device, method thereof, and recording medium storing program thereof
Tanaka-Ishii et al. Computational constancy measures of texts—Yule's K and Rényi's entropy
Gupta et al. Text summarization of Hindi documents using rule based approach
Husain An unsupervised approach to develop stemmer
Ramisch et al. A broad evaluation of techniques for automatic acquisition of multiword expressions
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
JP5705710B2 (ja) 特徴語抽出装置、特徴語抽出方法、及びプログラム
Paul et al. An affix removal stemmer for natural language text in nepali
JP2010224984A5 (ja)
CN104331397B (zh) 一种机器翻译方法及系统
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Ljajić et al. Sentiment analysis of textual comments in field of sport
Rofiq Indonesian news extractive text summarization using latent semantic analysis
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
Noyunsan et al. A Multi-Aspect Comparison and Evaluation on Thai Word Segmentation Programs.
Wang et al. Cross-language and cross-encyclopedia article linking using mixed-language topic model and hypernym translation
Elghannam et al. Keyphrase based evaluation of automatic text summarization
JP2012243129A (ja) 話題語獲得装置、方法、及びプログラム
Tomás et al. Mining wikipedia as a parallel and comparable corpus
Estiri et al. Improvement of an abstractive summarization evaluation tool using lexical-semantic relations and weighted syntax tags in Farsi language
JP2008233963A (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150225

R150 Certificate of patent or registration of utility model

Ref document number: 5705710

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees