JP2014132406A - 同義語抽出システム、方法およびプログラム - Google Patents
同義語抽出システム、方法およびプログラム Download PDFInfo
- Publication number
- JP2014132406A JP2014132406A JP2013000436A JP2013000436A JP2014132406A JP 2014132406 A JP2014132406 A JP 2014132406A JP 2013000436 A JP2013000436 A JP 2013000436A JP 2013000436 A JP2013000436 A JP 2013000436A JP 2014132406 A JP2014132406 A JP 2014132406A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- word
- document
- sentence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title description 18
- 238000012937 correction Methods 0.000 claims abstract description 22
- 238000010276 construction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 19
- 230000000877 morphologic effect Effects 0.000 claims description 14
- 238000011161 development Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 10
- 150000001875 compounds Chemical class 0.000 claims description 8
- 238000012986 modification Methods 0.000 abstract description 6
- 230000004048 modification Effects 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000009472 formulation Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】同義語抽出システム200は、文書入力部10、単語分析部20、同義語候補推定部30、定型分析部40、同義語候補補正部50、及び同義語候補出力部60を有する。文書入力部10は分析対象である文書の入力を受け付ける。単語分析部20は各単語の品詞や係り受け関係を抽出する。同義語候補推定部30は、共起関係等の類似性により同義語を抽出する。同義語候補補正部50は、形態素を編集操作して必要最低限の編集距離を導出し、形態素編集距離が設定された定型文閾値以下あるいは未満の場合を定型文と判定すると、定型文分析部40にて抽出された定型文中の非定型部分を同義語候補推定部にて推定した同義語候補から除外する。同義語候補出力部60は補正した同義語候補を表示する。
【選択図】図1
Description
図1は、本発明の第1の実施の形態に係る同義語抽出システム200の構成の一例を示すブロック図である。図示の同義語抽出システム200は、情報システム構築に関する提案書や仕様書等というような、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出するのに特に有効な同義語抽出システムである。
(1)Aセンターの運用受託者と責任の範囲の切り分けを以下に示す。
(2)Bセンターの運用受託者と責任の範囲の切り分けを以下に示す。
(3)Cセンターの運用受託者と責任の範囲の切り分けを以下に示す。
図6は、本発明の第2の実施の形態による同義語抽出システム200の構成の一例を示すブロック図である。
例文1)サーバーの機能仕様の一覧を下表に示す
例文2)プリンターの機能仕様の一覧を下表に示す
この2つの文を形態素解析すると次のようになる。
例文1)サーバー/の/機能仕様/の/一覧/を/下表/に/示す
例文2)プリンター/の/機能仕様/の/一覧/を/下表/に/示す
20 単語分析部
25 概念分析部
30 同義語候補分析部
40 定型文分析部
41 形態素編集距離分析部
42 定型文判定部
50 同義語候補補正部
60 同義語候補出力部
100 単語データベース
110 概念データベース
200 同義語抽出システム
Claims (24)
- 文書を分析して、文書中の同義語を抽出する同義語抽出システムであって、
分析対象である文書の入力を受け付ける文書入力部と、
各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、
各文が定型文か否かを判定する定型文分析部と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、
同義語候補補正部の結果を表示する同義語候補出力部と、
を有することを特徴とする同義語抽出システム。 - 請求項1に記載の同義語抽出システムにおいて、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、
前記単語データベースは、前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することを特徴とする同義語抽出システム。 - 請求項1又は2に記載の同義語抽出システムにおいて、
前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部と、
を有することを特徴とする同義語抽出システム。 - 請求項3に記載の同義語抽出システムにおいて、前記定型文判定部が、文と文が共存する文書の範囲を定型文判定に利用することを特徴とする同義語抽出システム。
- 請求項1乃至4の内のいずれか一項に記載の同義語抽出システムにおいて、前記同義語候補推定部が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出システム。
- 請求項1乃至5の内のいずれか一項に記載の同義語抽出システムにおいて、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを備え、前記概念データベースは、前記概念情報抽出部からの特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答することを特徴とする同義語抽出システム。
- 請求項1乃至6の内のいずれか一項に記載の同義語抽出システムにおいて、
前記同義語候補推定部が、
各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出システム。 - 請求項1乃至7の内のいずれか一項に記載の文書中の同義語抽出システムにおいて、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする文書中の同義語抽出システム。
- 文書を分析して、文書中の同義語を抽出する同義語抽出方法であって、
分析対象である文書の入力を受け付ける文書入力段階と、
各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析段階と、
各文が定型文か否かを判定する定型文分析段階と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定段階と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正段階と、
同義語候補補正部の結果を表示する同義語候補出力段階と、
を有することを特徴とする同義語抽出方法。 - 請求項9に記載の同義語抽出方法において、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを備え、
前記単語データベースは、前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答することを特徴とする同義語抽出方法。 - 請求項9又は10に記載の同義語抽出方法において、
前記定型文分析段階が、形態素列から成る各文の形態素編集距離分析段階と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定段階と、
を有することを特徴とする同義語抽出方法。 - 請求項11に記載の同義語抽出方法において、前記定型文判定段階が、文と文が共存する文書の範囲を定型文判定に利用することを特徴とする同義語抽出方法。
- 請求項9乃至12の内のいずれか一項に記載の同義語抽出方法において、前記同義語候補推定段階が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出方法。
- 請求項9乃至13の内のいずれか一項に記載の同義語抽出方法において、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを備え、前記概念データベースは、前記概念情報抽出部からの特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答することを特徴とする同義語抽出方法。
- 請求項9乃至14の内のいずれか一項に記載の同義語抽出方法において、
前記同義語候補推定段階が、
各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出方法。 - 請求項9乃至15の内のいずれか一項に記載の文書中の同義語抽出方法において、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする文書中の同義語抽出方法。
- コンピュータに、文書を分析して、文書中の同義語を抽出する同義語抽出システムとして機能させるプログラムであって、
入力された分析対象である文書の各文および複合語に形態素解析および構文解析を適用し、各単語の品詞や係り受け関係を抽出する単語分析部と、
各文が定型文か否かを判定する定型文分析部と、
同義関係を持つ単語ペア候補を同義語候補として推定する同義語候補推定部と、
推定した同義語候補から定型文と判定された定型文中の非定型語を除外する同義語候補補正部と、
同義語候補補正部の結果を表示する同義語候補出力部として機能させることを特徴とする同義語抽出プログラム。 - 請求項17に記載の同義語抽出プログラムにおいて、更に、単語の品詞や構文などの情報を収集して蓄積する単語データベースを前記単語分析部からの特定の単語に関する問い合わせに対し、単語の品詞や構文に関連する情報を検索し応答するように機能させることを特徴とする同義語抽出プログラム。
- 請求項17又は18に記載の同義語抽出プログラムにおいて、
前記定型文分析部が、形態素列から成る各文の形態素編集距離分析部と、
少なくとも得られた形態素編集距離と定型文判定閾値とを比較し、定型文判定閾値以下の文を定型文とする定型文判定部と、
を有するように機能させることを特徴とする同義語抽出プログラム。 - 請求項19に記載の同義語抽出プログラムにおいて、前記定型文判定部が、文と文が共存する文書の範囲を定型文判定に利用するように機能させることを特徴とする同義語抽出プログラム。
- 請求項17乃至20の内のいずれか一項に記載の同義語抽出プログラムにおいて、前記同義語候補推定部が、各単語の共起情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出プログラム。
- 請求項17乃至21の内のいずれか一項に記載の同義語抽出プログラムにおいて、更に、単語の一般概念を体系付けた一般概念情報を収集して蓄積する概念データベースを前記概念情報抽出部からの特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するように機能させることを特徴とする同義語抽出プログラム。
- 請求項17乃至22の内のいずれか一項に記載の同義語抽出プログラムにおいて、
前記同義語候補推定部が、
各単語の概念情報の共起情報の類似度に基づき、同義関係を持つ単語ペア候補を同義語候補として推定することを特徴とする同義語抽出プログラム。 - 請求項17乃至23の内のいずれか一項に記載の文書中の同義語抽出プログラムにおいて、前記分析対象である文書は、情報システム構築に関する提案書や仕様書というような、特定のプロジェクト案件に関する開発文書であることを特徴とする文書中の同義語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013000436A JP6108212B2 (ja) | 2013-01-07 | 2013-01-07 | 同義語抽出システム、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013000436A JP6108212B2 (ja) | 2013-01-07 | 2013-01-07 | 同義語抽出システム、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014132406A true JP2014132406A (ja) | 2014-07-17 |
JP6108212B2 JP6108212B2 (ja) | 2017-04-05 |
Family
ID=51411468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013000436A Active JP6108212B2 (ja) | 2013-01-07 | 2013-01-07 | 同義語抽出システム、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6108212B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106339369A (zh) * | 2016-08-30 | 2017-01-18 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
JP2017538198A (ja) * | 2014-11-20 | 2017-12-21 | オラクル・インターナショナル・コーポレイション | 文脈検索文字列同義語の自動生成 |
CN112912866A (zh) * | 2018-11-07 | 2021-06-04 | 三菱电机株式会社 | 信息处理装置、信息处理方法和信息处理程序 |
KR20210096756A (ko) * | 2020-01-29 | 2021-08-06 | 주식회사 씨앤에이아이 | 상담사를 위한 실시간 정보 제공 시스템 및 방법 |
CN113761151A (zh) * | 2021-05-07 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 同义词挖掘、问答方法、装置、计算机设备和存储介质 |
WO2023238304A1 (ja) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | 判定装置、判定方法および判定プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199906A (ja) * | 2006-01-25 | 2007-08-09 | Nomura Research Institute Ltd | キーワード対応関係分析装置及び分析方法 |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
-
2013
- 2013-01-07 JP JP2013000436A patent/JP6108212B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199906A (ja) * | 2006-01-25 | 2007-08-09 | Nomura Research Institute Ltd | キーワード対応関係分析装置及び分析方法 |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017538198A (ja) * | 2014-11-20 | 2017-12-21 | オラクル・インターナショナル・コーポレイション | 文脈検索文字列同義語の自動生成 |
CN106339369A (zh) * | 2016-08-30 | 2017-01-18 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
CN106339369B (zh) * | 2016-08-30 | 2019-06-04 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
CN112912866A (zh) * | 2018-11-07 | 2021-06-04 | 三菱电机株式会社 | 信息处理装置、信息处理方法和信息处理程序 |
CN112912866B (zh) * | 2018-11-07 | 2023-12-12 | 三菱电机株式会社 | 信息处理装置、信息处理方法和记录介质 |
KR20210096756A (ko) * | 2020-01-29 | 2021-08-06 | 주식회사 씨앤에이아이 | 상담사를 위한 실시간 정보 제공 시스템 및 방법 |
KR102363135B1 (ko) * | 2020-01-29 | 2022-02-15 | 주식회사 씨앤에이아이 | 상담사를 위한 실시간 정보 제공 시스템 및 방법 |
CN113761151A (zh) * | 2021-05-07 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 同义词挖掘、问答方法、装置、计算机设备和存储介质 |
WO2023238304A1 (ja) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | 判定装置、判定方法および判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6108212B2 (ja) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lytvyn et al. | Development of a method for determining the keywords in the slavic language texts based on the technology of web mining | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
JP6187877B2 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
Mori et al. | A machine learning approach to recipe text processing | |
JP5754018B2 (ja) | 多義語抽出システム、多義語抽出方法、およびプログラム | |
Montazery et al. | Automatic Persian wordnet construction | |
Kiefer | Assessing the Quality of Unstructured Data: An Initial Overview. | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
WO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN101131706A (zh) | 一种查询修正方法及系统 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
Vivaldi et al. | Using Wikipedia to Validate the Terminology found in a Corpus of Basic Textbooks. | |
Radoev et al. | A language adaptive method for question answering on French and English | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Iqbal et al. | CURE: Collection for urdu information retrieval evaluation and ranking | |
Eldin et al. | An enhanced opinion retrieval approach on Arabic text for customer requirements expansion | |
Jarrar et al. | ALMA: Fast Lemmatizer and POS Tagger for Arabic | |
Panahandeh et al. | Correction of spaces in Persian sentences for tokenization | |
KR101359039B1 (ko) | 복합명사 분석장치 및 복합명사 분석 방법 | |
Naemi et al. | Informal-to-formal word conversion for persian language using natural language processing techniques | |
KR20200073524A (ko) | 특허 문서의 키프레이즈 추출 장치 및 방법 | |
Skandan et al. | Question Answering System using Knowledge Graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151217 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6108212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |