JP6108212B2 - 同義語抽出システム、方法およびプログラム - Google Patents
同義語抽出システム、方法およびプログラム Download PDFInfo
- Publication number
- JP6108212B2 JP6108212B2 JP2013000436A JP2013000436A JP6108212B2 JP 6108212 B2 JP6108212 B2 JP 6108212B2 JP 2013000436 A JP2013000436 A JP 2013000436A JP 2013000436 A JP2013000436 A JP 2013000436A JP 6108212 B2 JP6108212 B2 JP 6108212B2
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- word
- sentence
- candidate
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 82
- 238000000034 method Methods 0.000 title description 18
- 238000012937 correction Methods 0.000 claims description 20
- 238000010276 construction Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 17
- 230000000877 morphologic effect Effects 0.000 claims description 14
- 238000011161 development Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 150000001875 compounds Chemical class 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000009472 formulation Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
図1は、本発明の第1の実施の形態に係る同義語抽出システム200の構成の一例を示すブロック図である。図示の同義語抽出システム200は、情報システム構築に関する提案書や仕様書等というような、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出するのに特に有効な同義語抽出システムである。
(1)Aセンターの運用受託者と責任の範囲の切り分けを以下に示す。
(2)Bセンターの運用受託者と責任の範囲の切り分けを以下に示す。
(3)Cセンターの運用受託者と責任の範囲の切り分けを以下に示す。
図6は、本発明の第2の実施の形態による同義語抽出システム200の構成の一例を示すブロック図である。
例文1)サーバーの機能仕様の一覧を下表に示す
例文2)プリンターの機能仕様の一覧を下表に示す
この2つの文を形態素解析すると次のようになる。
例文1)サーバー/の/機能仕様/の/一覧/を/下表/に/示す
例文2)プリンター/の/機能仕様/の/一覧/を/下表/に/示す
20 単語分析部
25 概念分析部
30 同義語候補分析部
40 定型文分析部
41 形態素編集距離分析部
42 定型文判定部
50 同義語候補補正部
60 同義語候補出力部
100 単語データベース
110 概念データベース
200 同義語抽出システム
Claims (24)
- 文書を分析して、文書中の同義語を抽出する同義語抽出システムであって、
分析対象である文書の入力を受け付ける文書入力部と、
各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、
各文が定型文か否かを判定する定型文分析部と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、
同義語候補補正部の結果を表示する同義語候補出力部と、
を有することを特徴とする同義語抽出システム。 - 請求項1に記載の同義語抽出システムにおいて、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、
前記単語データベースは、前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することを特徴とする同義語抽出システム。 - 請求項1又は2に記載の同義語抽出システムにおいて、
前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部と、
を有することを特徴とする同義語抽出システム。 - 請求項3に記載の同義語抽出システムにおいて、前記定型文判定部が、文と文が共存する文書の範囲を定型文判定に利用することを特徴とする同義語抽出システム。
- 請求項1乃至4の内のいずれか一項に記載の同義語抽出システムにおいて、前記同義語候補推定部が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出システム。
- 請求項1乃至5の内のいずれか一項に記載の同義語抽出システムにおいて、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを備え、前記概念データベースは、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答することを特徴とする同義語抽出システム。
- 請求項1乃至6の内のいずれか一項に記載の同義語抽出システムにおいて、前記同義語候補推定部が、各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出システム。
- 請求項1乃至7の内のいずれか一項に記載の同義語抽出システムにおいて、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする同義語抽出システム。
- 文書を分析して、文書中の同義語を抽出する同義語抽出方法であって、
分析対象である文書の入力を受け付ける文書入力段階と、
各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析段階と、
各文が定型文か否かを判定する定型文分析段階と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定段階と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正段階と、
同義語候補補正段階の結果を表示する同義語候補出力段階と、
を有することを特徴とする同義語抽出方法。 - 請求項9に記載の同義語抽出方法において、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、
前記単語データベースは、前記単語分析段階からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することを特徴とする同義語抽出方法。 - 請求項9又は10に記載の同義語抽出方法において、
前記定型文分析段階が、形態素列から成る各文の形態素編集距離分析段階と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定段階と、
を有することを特徴とする同義語抽出方法。 - 請求項11に記載の同義語抽出方法において、前記定型文判定段階が、文と文が共存する文書の範囲を定型文判定に利用することを特徴とする同義語抽出方法。
- 請求項9乃至12の内のいずれか一項に記載の同義語抽出方法において、前記同義語候補推定段階が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出方法。
- 請求項9乃至13の内のいずれか一項に記載の同義語抽出方法において、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを備え、前記概念データベースは、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答することを特徴とする同義語抽出方法。
- 請求項9乃至14の内のいずれか一項に記載の同義語抽出方法において、前記同義語候補推定段階が、各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出方法。
- 請求項9乃至15の内のいずれか一項に記載の同義語抽出方法において、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする同義語抽出方法。
- コンピュータに、文書を分析して、文書中の同義語を抽出する同義語抽出システムとして機能させるプログラムであって、
入力された分析対象である文書の各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、
各文が定型文か否かを判定する定型文分析部と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、
同義語候補補正部の結果を表示する同義語候補出力部として機能させることを特徴とする同義語抽出プログラム。 - 請求項17に記載の同義語抽出プログラムにおいて、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答するように機能させることを特徴とする同義語抽出プログラム。
- 請求項17又は18に記載の同義語抽出プログラムにおいて、
前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部と、
を有するように機能させることを特徴とする同義語抽出プログラム。 - 請求項19に記載の同義語抽出プログラムにおいて、前記定型文判定部が、文と文が共存する文書の範囲を定型文判定に利用するように機能させることを特徴とする同義語抽出プログラム。
- 請求項17乃至20の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記同義語候補推定部が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出プログラム。
- 請求項17乃至21の内のいずれか一項に記載の同義語抽出プログラムにおいて、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するように機能させることを特徴とする同義語抽出プログラム。
- 請求項17乃至22の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記同義語候補推定部が、各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出プログラム。
- 請求項17乃至23の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする同義語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013000436A JP6108212B2 (ja) | 2013-01-07 | 2013-01-07 | 同義語抽出システム、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013000436A JP6108212B2 (ja) | 2013-01-07 | 2013-01-07 | 同義語抽出システム、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014132406A JP2014132406A (ja) | 2014-07-17 |
JP6108212B2 true JP6108212B2 (ja) | 2017-04-05 |
Family
ID=51411468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013000436A Active JP6108212B2 (ja) | 2013-01-07 | 2013-01-07 | 同義語抽出システム、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6108212B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9690851B2 (en) * | 2014-11-20 | 2017-06-27 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
CN106339369B (zh) * | 2016-08-30 | 2019-06-04 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
JP6833134B2 (ja) * | 2018-11-07 | 2021-02-24 | 三菱電機株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
KR102363135B1 (ko) * | 2020-01-29 | 2022-02-15 | 주식회사 씨앤에이아이 | 상담사를 위한 실시간 정보 제공 시스템 및 방법 |
WO2023238304A1 (ja) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | 判定装置、判定方法および判定プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4699909B2 (ja) * | 2006-01-25 | 2011-06-15 | 株式会社野村総合研究所 | キーワード対応関係分析装置及び分析方法 |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
-
2013
- 2013-01-07 JP JP2013000436A patent/JP6108212B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014132406A (ja) | 2014-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187877B2 (ja) | 同義語抽出システム、方法および記録媒体 | |
Lytvyn et al. | Development of a method for determining the keywords in the slavic language texts based on the technology of web mining | |
Mori et al. | A machine learning approach to recipe text processing | |
JP5754018B2 (ja) | 多義語抽出システム、多義語抽出方法、およびプログラム | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Montazery et al. | Automatic Persian wordnet construction | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
WO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN101131706A (zh) | 一种查询修正方法及系统 | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Radoev et al. | A language adaptive method for question answering on French and English | |
Aras et al. | Applications and Challenges of Text Mining with Patents. | |
JP4631795B2 (ja) | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN111428031A (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN109977235B (zh) | 一种触发词的确定方法和装置 | |
Iqbal et al. | CURE: Collection for urdu information retrieval evaluation and ranking | |
KR20200073524A (ko) | 특허 문서의 키프레이즈 추출 장치 및 방법 | |
KR101359039B1 (ko) | 복합명사 분석장치 및 복합명사 분석 방법 | |
Naemi et al. | Informal-to-formal word conversion for persian language using natural language processing techniques | |
Estiri et al. | Improvement of an abstractive summarization evaluation tool using lexical-semantic relations and weighted syntax tags in Farsi language | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151217 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6108212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |