JP5073349B2 - 専門用語抽出装置、方法及びプログラム - Google Patents
専門用語抽出装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5073349B2 JP5073349B2 JP2007099403A JP2007099403A JP5073349B2 JP 5073349 B2 JP5073349 B2 JP 5073349B2 JP 2007099403 A JP2007099403 A JP 2007099403A JP 2007099403 A JP2007099403 A JP 2007099403A JP 5073349 B2 JP5073349 B2 JP 5073349B2
- Authority
- JP
- Japan
- Prior art keywords
- katakana
- term
- terms
- value
- technical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 134
- 238000000034 method Methods 0.000 title claims description 96
- 239000000284 extract Substances 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000000877 morphologic effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 8
- 210000000038 chest Anatomy 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
出現頻度と連接頻度に基づく専門用語抽出、湯本他、自然言語処理、10(1)27−45,2003年1月
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するクローラ部と、
前記コンテンツを形態素解析し、カタカナ用語の集合であるカタカナ語彙と全字種用語の集合である全字種語彙を抽出する単語抽出部と、
前記抽出されたカタカナ語彙内のカタカナ用語に対して、FLR法を用いて計算した値が第1の閾値以上であるカタカナ用語を抽出するカタカナ用語抽出部と、
前記カタカナ用語抽出部によって抽出されたカタカナ用語と、前記単語抽出部によって抽出された全字種語彙内の全字種用語とを用いて、TFIDF値とシンプソン係数値を組み合わせて、専門用語を抽出する専門用語抽出部と、
を備え、
前記専門用語抽出部は、前記全字種用語と前記抽出されたカタカナ用語についてシンプソン係数値を計算し、前記全字種用語についてTFIDF値を計算し、該シンプソン係数値と予め定められた第2の閾値とを比較して該第2の閾値より小さいシンプソン係数値の全字種用語を除き、さらに、該TFIDF値と予め定められた第3の閾値とを比較してどのカタカナ用語とも共起する全字種用語を除き、除いた後の前記全字種語彙を前記カタカナ用語と共起しやすい専門用語として抽出する
専門用語抽出装置。
前記クローラ部は、専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記単語抽出部は、前記コンテンツを形態素解析し、カタカナ用語の集合であるカタカナ語彙と全字種用語の集合である全字種語彙を抽出する単語抽出ステップと、
前記カタカナ用語抽出部は、前記抽出されたカタカナ語彙内のカタカナ用語に対して、FLR法を用いて計算した値が第1の閾値以上であるカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記専門用語抽出部は、前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙内の全字種用語とを用いて、TFIDF値とシンプソン係数値を組み合わせて、専門用語を抽出する専門用語抽出ステップと、
を含み、
前記専門用語抽出部は、前記全字種用語と前記抽出されたカタカナ用語についてシンプソン係数値を計算し、前記全字種用語についてTFIDF値を計算し、該シンプソン係数値と予め定められた第2の閾値とを比較して該第2の閾値より小さいシンプソン係数値の全字種用語を除き、さらに、該TFIDF値と予め定められた第3の閾値とを比較してどのカタカナ用語とも共起する全字種用語を除き、除いた後の前記全字種語彙を前記カタカナ用語と共起しやすい専門用語として抽出する
方法。
コンピュータに、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ用語の集合であるカタカナ語彙と全字種用語の集合である全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙内のカタカナ用語に対して、FLR法を用いて計算した値が第1の閾値以上であるカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙内の全字種用語とを用いて、TFIDF値とシンプソン係数値を組み合わせて、専門用語を抽出出する専門用語抽出ステップと、
を実行させ、
前記専門用語抽出ステップは、前記全字種用語と前記抽出されたカタカナ用語についてシンプソン係数値を計算し、前記全字種用語についてTFIDF値を計算し、該シンプソン係数値と予め定められた第2の閾値とを比較して該第2の閾値より小さいシンプソン係数値の全字種用語を除き、さらに、該TFIDF値と予め定められた第3の閾値とを比較してどのカタカナ用語とも共起する全字種用語を除き、除いた後の前記全字種語彙を前記カタカナ用語と共起しやすい専門用語として抽出する
コンピュータ・プログラム。
図1は、本発明の一実施形態に係るシステム1の全体構成を示す図である。
図2は、本発明の一実施形態に係る専門用語抽出装置10の機能ブロック図である。
図3は、本発明の一実施形態に係る専門用語抽出処理のフローチャートである。
L(Wi)、R(Wi):単語Wiの左右それぞれに単語が出現する回数又は種類数
LR(W):用語Wの連接頻度LR又は連接種類LR
T(W):用語Wを部分文字列として含むより長い用語の出現頻度
C(W):用語Wを部分文字列として含むより長い用語の種類数
F(W):用語Wのドキュメントデータ中の出現頻度
T(W):用語Wを部分文字列として含むより長い用語の出現頻度
C(W):用語Wを部分文字列として含むより長い用語の種類数
F(W):用語Wのドキュメントデータ中の出現頻度
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YのAND検索でのヒット数
以下、専門分野として「アダルト専門分野」を例に、カタカナ用語抽出部1303による、重要度FLRの計算方法を具体的に説明する。図6は、実施例1に係るアダルト専門分野のドキュメントデータのカタカナ語彙を示す図である。図6(a)は、カタカナ語彙中の単語「セックス」を含む用語群である。図6(b)は、単語「セックス」の左右連接単語の出現頻度である。図6(c)は、カタカナ語彙中の単語「パートナー」を含む用語群である。図6(d)は、単語「パートナー」の左右連接単語の出現頻度である。ここで、単語「セックス」と単語「パートナー」についてFLR法による重要度を計算する。
DF:単語Xのページ頻度(いくつのページに跨って出現したか)
N:総ページ数
ここで、具体的な例を示す。
以下、専門分野として、ロボット工学関連分野を対象とした実施例を説明する。
以上、共起ヒット情報の計算方法は、シンプソン係数値とTF・IDF法とを用いて説明したが、シンプソン係数値に代えて、相互情報量値、ダイス係数値、ジャガード係数値、コサイン類似度値を用いてもよい。ここで、カタカナ用語Xと全字種用語Yの共起の強さを示す、相互情報量値は、数15のように定義される。
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
N:総ページ数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
|X∪Y|:カタカナ用語Xと全字種用語YのOR検索でのヒット数
|Y|:全字種用語Yの単独ヒット数
|X∩Y|:カタカナ用語Xと全字種用語YとのAND検索でのヒット数
図13は、本発明の一実施形態に係る専門用語抽出装置10(以下、単に専門用語抽出装置と呼ぶ)のハードウェア構成を示す図である。
10 専門用語抽出装置
20 Webサイト
30 通信ネットワーク
1501 URLリスト
1502 コンテンツリポジトリ
1503 カタカナ用語リスト
1504 全字種用語リスト
Claims (10)
- Webページから専門用語を抽出する専門用語抽出装置であって、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するクローラ部と、
前記コンテンツを形態素解析し、カタカナ用語の集合であるカタカナ語彙と全字種用語の集合である全字種語彙を抽出する単語抽出部と、
前記抽出されたカタカナ語彙内のカタカナ用語に対して、FLR法を用いて計算した値が第1の閾値以上であるカタカナ用語を抽出するカタカナ用語抽出部と、
前記カタカナ用語抽出部によって抽出されたカタカナ用語と、前記単語抽出部によって抽出された全字種語彙内の全字種用語とを用いて、TFIDF値とシンプソン係数値を組み合わせて、専門用語を抽出する専門用語抽出部と、
を備え、
前記専門用語抽出部は、前記全字種用語と前記抽出されたカタカナ用語についてシンプソン係数値を計算し、前記全字種用語についてTFIDF値を計算し、該シンプソン係数値と予め定められた第2の閾値とを比較して該第2の閾値より小さいシンプソン係数値の全字種用語を除き、さらに、該TFIDF値と予め定められた第3の閾値とを比較してどのカタカナ用語とも共起する全字種用語を除き、除いた後の前記全字種語彙を前記カタカナ用語と共起しやすい専門用語として抽出する
専門用語抽出装置。 - 前記カタカナ用語抽出部は、前記FLR法に代えて、前記抽出されたカタカナ語彙内のカタカナ用語とWebページ内の単語数を用いたC−Value法を用いる、請求項1に記載の装置。
- 前記カタカナ用語抽出部は、前記FLR法に代えて、前記抽出されたカタカナ語彙内のカタカナ用語とWebページ内の単語数を用いたMC−Value法を用いる、請求項1に記載の装置。
- 前記専門用語抽出部は、前記シンプソン係数値に代えて、相互情報量値を用いる、請求項1乃至3に記載の装置。
- 前記専門用語抽出部は、前記シンプソン係数値に代えて、ダイス係数値を用いる、請求項1乃至3に記載の装置。
- 前記専門用語抽出部は、前記シンプソン係数値に代えて、ジャガード係数値を用いる、請求項1乃至3に記載の装置。
- 前記専門用語抽出部は、前記シンプソン係数値に代えて、コサイン類似度値を用いる、請求項1乃至3に記載の装置。
- 前記専門用語として、アダルト専門分野における掲載禁止用語を抽出する請求項1乃至7に記載の装置。
- クローラ部と単語抽出部とカタカナ用語抽出部と専門用語抽出部を有する専門用語抽出装置が行う、Webページから専門用語を抽出するための方法であって、
前記クローラ部は、専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記単語抽出部は、前記コンテンツを形態素解析し、カタカナ用語の集合であるカタカナ語彙と全字種用語の集合である全字種語彙を抽出する単語抽出ステップと、
前記カタカナ用語抽出部は、前記抽出されたカタカナ語彙内のカタカナ用語に対して、FLR法を用いて計算した値が第1の閾値以上であるカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記専門用語抽出部は、前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙内の全字種用語とを用いて、TFIDF値とシンプソン係数値を組み合わせて、専門用語を抽出する専門用語抽出ステップと、
を含み、
前記専門用語抽出部は、前記全字種用語と前記抽出されたカタカナ用語についてシンプソン係数値を計算し、前記全字種用語についてTFIDF値を計算し、該シンプソン係数値と予め定められた第2の閾値とを比較して該第2の閾値より小さいシンプソン係数値の全字種用語を除き、さらに、該TFIDF値と予め定められた第3の閾値とを比較してどのカタカナ用語とも共起する全字種用語を除き、除いた後の前記全字種語彙を前記カタカナ用語と共起しやすい専門用語として抽出する
方法。 - Webページから専門用語を抽出するためのコンピュータ・プログラムであって、
コンピュータに、
専門分野ごとに定められたURLリストに含まれたURLにアクセスし、前記Webページのコンテンツを収集するステップと、
前記コンテンツを形態素解析し、カタカナ用語の集合であるカタカナ語彙と全字種用語の集合である全字種語彙を抽出する単語抽出ステップと、
前記抽出されたカタカナ語彙内のカタカナ用語に対して、FLR法を用いて計算した値が第1の閾値以上であるカタカナ用語を抽出するカタカナ用語抽出ステップと、
前記カタカナ用語抽出ステップによって抽出されたカタカナ用語と、前記単語抽出ステップによって抽出された全字種語彙内の全字種用語とを用いて、TFIDF値とシンプソン係数値を組み合わせて、専門用語を抽出出する専門用語抽出ステップと、
を実行させ、
前記専門用語抽出ステップは、前記全字種用語と前記抽出されたカタカナ用語についてシンプソン係数値を計算し、前記全字種用語についてTFIDF値を計算し、該シンプソン係数値と予め定められた第2の閾値とを比較して該第2の閾値より小さいシンプソン係数値の全字種用語を除き、さらに、該TFIDF値と予め定められた第3の閾値とを比較してどのカタカナ用語とも共起する全字種用語を除き、除いた後の前記全字種語彙を前記カタカナ用語と共起しやすい専門用語として抽出する
コンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007099403A JP5073349B2 (ja) | 2007-04-05 | 2007-04-05 | 専門用語抽出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007099403A JP5073349B2 (ja) | 2007-04-05 | 2007-04-05 | 専門用語抽出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008257511A JP2008257511A (ja) | 2008-10-23 |
JP5073349B2 true JP5073349B2 (ja) | 2012-11-14 |
Family
ID=39981014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007099403A Active JP5073349B2 (ja) | 2007-04-05 | 2007-04-05 | 専門用語抽出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5073349B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5215877B2 (ja) * | 2009-01-06 | 2013-06-19 | ヤフー株式会社 | 地域特性辞書生成方法及び装置 |
JP5557312B2 (ja) * | 2010-01-19 | 2014-07-23 | 株式会社 ミックウェア | 地図情報表示装置、地図情報表示方法、及びプログラム |
KR101379128B1 (ko) | 2012-02-28 | 2014-03-27 | 라쿠텐 인코포레이티드 | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 |
JP6208764B2 (ja) * | 2012-09-28 | 2017-10-04 | エルジー エレクトロニクス インコーポレイティド | 集合サーバ制御方法及び装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2812509B2 (ja) * | 1989-09-29 | 1998-10-22 | 株式会社リコー | 専門用語抽出システム |
JP4747752B2 (ja) * | 2005-09-14 | 2011-08-17 | 日本電気株式会社 | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
-
2007
- 2007-04-05 JP JP2007099403A patent/JP5073349B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008257511A (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6095621B2 (ja) | 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 | |
JP4654780B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP2005128873A (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JP2007188356A (ja) | 不正ハイパーリンク検出装置及びその方法 | |
KR100485321B1 (ko) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 | |
JP4859779B2 (ja) | 有害コンテンツの評価付与装置、プログラム及び方法 | |
JP2002245061A (ja) | キーワード抽出 | |
JP2008152522A (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP5073349B2 (ja) | 専門用語抽出装置、方法及びプログラム | |
JP4162223B2 (ja) | 自然文検索装置、その方法及びプログラム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4621680B2 (ja) | 定義付けシステムおよび方法 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
Barbosa et al. | Crawling back and forth: Using back and out links to locate bilingual sites | |
US20050071333A1 (en) | Method for determining synthetic term senses using reference text | |
Lazarinis | Engineering and utilizing a stopword list in Greek web retrieval | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP5094096B2 (ja) | 有名人の別表現の自動抽出装置、方法 | |
EP3203384A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
Ahmed et al. | A web statistics based conflation approach to improve Arabic text retrieval | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5073349 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150831 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |