JP5094096B2 - 有名人の別表現の自動抽出装置、方法 - Google Patents
有名人の別表現の自動抽出装置、方法 Download PDFInfo
- Publication number
- JP5094096B2 JP5094096B2 JP2006317488A JP2006317488A JP5094096B2 JP 5094096 B2 JP5094096 B2 JP 5094096B2 JP 2006317488 A JP2006317488 A JP 2006317488A JP 2006317488 A JP2006317488 A JP 2006317488A JP 5094096 B2 JP5094096 B2 JP 5094096B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- expression
- occurrence
- predetermined person
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims description 121
- 238000000034 method Methods 0.000 title claims description 31
- 238000000605 extraction Methods 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000000877 morphologic effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
古澤秀介,森田和宏,泓田正雄,青江順一:人名の別表記の自動抽出手法,言語処理学会第11回年次大会(NLP2005),695−698頁,2005年3月
ネットワーク上で人名情報が含まれるデータベースから人名に関するデータを取得し、
人名と所定のキーワードとで条件検索し、得られた上位の検索結果を形態素解析する形態素解析部と、
前記形態素解析した語の中から特定の文書に偏って出現する頻度の高い語を選択し、前記選択した語と前記人名との共起の強さを計算し、前記共起の強い語を別表現候補として抽出する別表現候補抽出部と、
を備える装置。
人名と所定のキーワードとで条件検索するステップと、
前記条件検索で得られた上位の検索結果を形態素解析するステップと、
前記形態素解析した語の中から特定の文書に偏って出現する頻度の高い語を選択し、前記選択した語と前記人名との共起の強さを計算するステップと、
前記共起の強い語を別表現候補として抽出するステップと、
を含む方法。
人名と所定のキーワードとで条件検索するステップと、
前記条件検索で得られた上位の検索結果を形態素解析するステップと、
前記形態素解析した語の中からTF*IDF値の高い語を選択し、前記選択した語と前記人名との共起の強さを計算するステップと、
前記共起の強い語を別表現候補として抽出するステップと、
をコンピュータに実行させるコンピュータ・プログラム。
図8は、図1で説明した本発明の好適な実施形態の一例に係る別表現抽出装置10のハードウェア構成の一例を示す図である。別表現抽出装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012など複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100などの入力手段や表示装置1022を備える。
11 クローラ部
11a 検索エンジン
12 インデックス作成部
13 形態素解析部
14 別表現候補抽出部
15 判定部
16 入力部
17 表示部
18 通信部
19 データベースアクセス部
20 インデックスDB
21 別表現DB
25 有名人リスト
30 サーバ
31 URLリスト
35 上位N件の形態素解析済みの語彙リスト
40 インターネット
47a,47b,47c 採用リスト
48 不採用リスト
50 コンテンツ
50a 検索結果ページ
51 別表現候補
52 別表現
101 制御部
107 記憶部
Claims (12)
- インターネット上のデータベースから集められた人名情報を含むWebページがインデックス化されて格納されたインデックスDBから、所定の人名をキーとして検索し、その検索結果の複数のページ中の文書を形態素解析する形態素解析部と、
前記形態素解析により得られた複数の語句について、出現頻度の特定のページへの偏り度合いを示すスコアと前記所定の人名との共起度を示すスコアとを計算し、各語句の両スコアに基づいて、前記複数の語句から、前記出現頻度の前記特定のページへの偏りが大きく、かつ、前記所定の人名との共起度が高い語句を、前記所定の人名の別表現候補として抽出する別表現候補抽出部と、
を備える装置。 - 前記形態素解析部は、前記検索の際に、前記所定の人名と当該所定の人名の別表現の抽出のための手がかりとなる所定のキーワードとをキーとして検索する、請求項1に記載の装置。
- 前記所定のキーワードは、「氏名」、「本名」、「旧性」、「別名」、「別表現」、「呼び名」、「ニックネーム」、「あだ名」、「俗称」、「通称」、「愛称」、「略称」、「芸名」、「アーティスト名」、「ペンネーム」、「幼名」のいずれかである、請求項2に記載の装置。
- 前記別表現候補抽出部によって前記抽出された別表現候補について、前記両スコアに基づいて別表現候補のランキングを作成し、当該ランキングを表示装置に表示させ、管理者からの確認を受け付けた別表現候補を前記別表現候補を別表現データベースに登録する判定部を更に備える、請求項1から3のいずれかに記載の装置。
- 前記判定部が、前記ランキングの表示において、前記別表現候補を前記両スコアの降順にソートした情報を作成し、前記表示装置に表示させる、請求項4に記載の装置。
- 前記別表現候補抽出部が、前記出現頻度の前記特定のページへの偏り度合いを示すスコアを全ページにおける出現数をTFとしたTF*IDF値を用いて計算し、前記共起度を示すスコアをシンプソン係数を用いて計算する、請求項1から請求項5のいずれかに記載の装置。
- コンピュータが、
インターネット上のデータベースから集められた人名情報を含むWebページがインデックス化されて格納されたインデックスDBから、所定の人名をキーとして検索し、その検索結果の複数のページ中の文書を形態素解析する第1のステップと、
前記形態素解析により得られた複数の語句について、出現頻度の特定のページへの偏り度合いを示すスコアと前記所定の人名との共起度を示すスコアとを計算する第2のステップと、
各語句の両スコアに基づいて、前記複数の語句から、前記出現頻度の前記特定のページへの偏りが大きく、かつ、前記所定の人名との共起度が高い語句を、前記所定の人名の別表現候補として抽出する第3のステップと、
を実行する方法。 - 前記第1のステップは、前記検索の際に、前記所定の人名と当該所定の人名の別表現の抽出のための手がかりとなる所定のキーワードとをキーとして検索するステップである、請求項7に記載の方法。
- 前記コンピュータが、前記第3のステップの後に、前記抽出された別表現候補について、前記両スコアに基づいて別表現候補のランキングを作成し、当該ランキングを表示装置に表示させ、管理者からの確認を受け付けた別表現候補を別表現データベースに登録する第4のステップを更に実行する、請求項7または請求項8に記載の方法。
- 前記第4のステップでは、前記コンピュータが、前記ランキングの表示において、前記別表現候補を前記両スコアの降順にソートした情報を作成し、前記表示装置に表示させる、請求項9に記載の方法。
- 前記第2のステップでは、前記コンピュータが、前記出現頻度の前記特定のページへの偏り度合いを示すスコアを全ページにおける出現数をTFとしたTF*IDF値を用いて計算し、前記共起度を示すスコアをシンプソン係数を用いて計算する、請求項7から請求項10のいずれかに記載の方法。
- コンピュータに、
インターネット上のデータベースから集められた人名情報を含むWebページがインデックス化されて格納されたインデックスDBから、所定の人名をキーとして検索し、その検索結果の複数のページ中の文書を形態素解析する第1のステップと、
前記形態素解析により得られた複数の語句について、出現頻度の特定のページへの偏り度合いを示すスコアと前記所定の人名との共起度を示すスコアとを計算する第2のステップと、
各語句の両スコアに基づいて、前記複数の語句から、前記出現頻度の前記特定のページへの偏りが大きく、かつ、前記所定の人名との共起度が高い語句を、前記所定の人名の別表現候補として抽出する第3のステップと、
を実行させるためのコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006317488A JP5094096B2 (ja) | 2006-11-24 | 2006-11-24 | 有名人の別表現の自動抽出装置、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006317488A JP5094096B2 (ja) | 2006-11-24 | 2006-11-24 | 有名人の別表現の自動抽出装置、方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008130034A JP2008130034A (ja) | 2008-06-05 |
JP2008130034A5 JP2008130034A5 (ja) | 2009-02-19 |
JP5094096B2 true JP5094096B2 (ja) | 2012-12-12 |
Family
ID=39555753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006317488A Active JP5094096B2 (ja) | 2006-11-24 | 2006-11-24 | 有名人の別表現の自動抽出装置、方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5094096B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017006444A1 (ja) * | 2015-07-07 | 2017-01-12 | 富士通株式会社 | 情報取得装置、情報取得プログラム及び情報取得方法 |
JP6164436B1 (ja) * | 2016-01-18 | 2017-07-19 | データ・サイエンティスト株式会社 | ウェブページ解析装置、ウェブページ解析方法、及びプログラム |
-
2006
- 2006-11-24 JP JP2006317488A patent/JP5094096B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008130034A (ja) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6095621B2 (ja) | 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
JP4778474B2 (ja) | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 | |
JP2008537225A (ja) | クエリについての検索システムおよび方法 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JPH03172966A (ja) | 類似文書検索装置 | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
JP2010118021A (ja) | トピックグラフを利用したドキュメント検索サーバ及び方法 | |
JP2011085986A (ja) | テキスト要約方法、その装置およびプログラム | |
Alami et al. | Arabic text summarization based on graph theory | |
JP2009037420A (ja) | 有害コンテンツの評価付与装置、プログラム及び方法 | |
Garg et al. | Maulik: A plagiarism detection tool for hindi documents | |
Versley et al. | Not just bigger: Towards better-quality Web corpora | |
Konchady | Building Search Applications: Lucene, LingPipe, and Gate | |
CN111259136A (zh) | 一种基于用户偏好自动生成主题评价摘要的方法 | |
Juan | An effective similarity measurement for FAQ question answering system | |
JP5094096B2 (ja) | 有名人の別表現の自動抽出装置、方法 | |
JP5073349B2 (ja) | 専門用語抽出装置、方法及びプログラム | |
Fauzi et al. | Image understanding and the web: a state-of-the-art review | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP4621680B2 (ja) | 定義付けシステムおよび方法 | |
Sariki et al. | A book recommendation system based on named entities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120308 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5094096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |