JP5186165B2 - 組織名抽出装置、方法及びプログラム - Google Patents
組織名抽出装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5186165B2 JP5186165B2 JP2007255263A JP2007255263A JP5186165B2 JP 5186165 B2 JP5186165 B2 JP 5186165B2 JP 2007255263 A JP2007255263 A JP 2007255263A JP 2007255263 A JP2007255263 A JP 2007255263A JP 5186165 B2 JP5186165 B2 JP 5186165B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- character string
- organization
- candidate
- organization name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008520 organization Effects 0.000 title claims description 138
- 238000000605 extraction Methods 0.000 title claims description 31
- 238000000034 method Methods 0.000 title claims description 29
- 238000012545 processing Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 description 20
- 238000013519 translation Methods 0.000 description 9
- 230000014616 translation Effects 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書中から括弧内の単語と括弧直前の単語の単語対が同義語か判定し、同義語対を抽出する技術がある。この技術では、括弧内に記述される内容は場合により異なるため、精度よく同義語を抽出するためには、括弧内の単語と括弧直前の単語が同義語対であるかどうかの判定が必要となり、品詞属性および固有表現属性に基づいて判定を行う(特許文献1)。
また、他の技術として、対訳用例から訳語対を抽出するものがある(特許文献2、3及び4)。
12…収集部
13…収集データ記憶部
14…組織名候補抽出部
15…組織名候補記憶部
16…アルファベット変換部
17…アルファベット記憶部
18…一致度判定処理部
19…シソーラス記憶部
Claims (5)
- ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出手段と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる複数種類の文字列を生成する変換手段と、
前記変換手段によって生成した前記文字列の各々と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理手段と
を備えることを特徴とする組織名抽出装置。 - 前記組織候補名抽出手段は、前記組織名候補としてアンカーテキストと、前記ドメイン名を示す文字列として当該アンカーテキストにリンクされているドメイン名を抽出する
ことを特徴とする請求項1に記載の組織名抽出装置。 - 前記変換手段は、抽出した組織名候補から予め定められた不要語を削除したのち単語に分割し、分割した単語の一部又は全部をアルファベット又は英単語に変換した英数字からなる文字列を生成し、
前記一致度判定処理手段は、前記変換手段が生成した文字列が、前記ドメイン名の全部又は一部をその出現順に含んでいる場合に一致すると判定し、当該組織名候補を組織名を示す語句として抽出する
ことを特徴とする請求項1又は2に記載の組織名抽出装置。 - ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる複数種類の文字列を生成する変換過程と、
前記変換過程で生成された前記文字列の各々と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程と
を有することを特徴とする組織名抽出方法。 - ウェブデータから、ドメイン名に対応付けられている文字列である組織名候補と、当該ドメイン名を示す文字列とを抽出する組織候補名抽出過程と、
抽出した組織名候補の一部又は全部をアルファベット又は英単語に変換した英数字からなる複数種類の文字列を生成する変換過程と、
前記変換過程で生成された前記文字列の各々と、当該組織名候補に対応するドメイン名を示す文字列とを比較し、所定の条件に基づいて一致すると判定された場合に、当該組織名候補を、組織名を示す語句として抽出する一致度判定処理過程と
をコンピュータによって実行するための指令を含むことを特徴とする組織名抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007255263A JP5186165B2 (ja) | 2007-09-28 | 2007-09-28 | 組織名抽出装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007255263A JP5186165B2 (ja) | 2007-09-28 | 2007-09-28 | 組織名抽出装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009086979A JP2009086979A (ja) | 2009-04-23 |
JP5186165B2 true JP5186165B2 (ja) | 2013-04-17 |
Family
ID=40660330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007255263A Active JP5186165B2 (ja) | 2007-09-28 | 2007-09-28 | 組織名抽出装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5186165B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5648890B2 (ja) * | 2010-02-22 | 2015-01-07 | 日本電気株式会社 | 辞書作成支援装置、辞書作成支援方法及び辞書作成支援プログラム |
CN103778115A (zh) * | 2012-10-17 | 2014-05-07 | 腾讯科技(深圳)有限公司 | 网站名称提取方法及装置 |
US9332318B2 (en) * | 2013-09-03 | 2016-05-03 | Cisco Technology Inc. | Extra rich content MetaData generator |
CN110096571B (zh) * | 2019-04-10 | 2021-06-08 | 北京明略软件系统有限公司 | 一种机构名简称生成方法和装置、计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4143085B2 (ja) * | 2005-12-15 | 2008-09-03 | 日本電信電話株式会社 | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
-
2007
- 2007-09-28 JP JP2007255263A patent/JP5186165B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009086979A (ja) | 2009-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schäfer et al. | Web corpus construction | |
US7346487B2 (en) | Method and apparatus for identifying translations | |
KR101522049B1 (ko) | 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석 | |
Chen et al. | Description of the NTU System used for MET-2 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
JP2002197104A (ja) | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 | |
JP5186165B2 (ja) | 組織名抽出装置、方法及びプログラム | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
Rychlý et al. | Annotated amharic corpora | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
JP4499179B1 (ja) | 端末装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP5106042B2 (ja) | 文書関連性分析装置、方法及びプログラム | |
WO2020079752A1 (ja) | 文献検索方法および文献検索システム | |
Lu et al. | Anchor text mining for translation of web queries | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
Milić-Frayling | Text processing and information retrieval | |
Yasukawa et al. | Stemming Malay text and its application in automatic text categorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5186165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |